R\'eseau de neurones convolutif pour l'\'evaluation automatique de la prononciation (CNN-based automatic pronunciation assessment of Japanese speakers learning French )
Dans cet article, nous comparons deux approches d{'}{\'e}valuation automatique de la prononciation de locuteurs japonophones apprenant le fran{\c{c}}ais. La premi{\`e}re, l{'}algorithme standard appel{\'e} Goodness Of Pronunciation (GOP), compare les vraisemblances obtenues lors d{'}un alignement forc{\'e} et lors d{'}une reconnaissance de phones sans contrainte. La deuxi{\`e}me, n{\'e}cessitant {\'e}galement un alignement pr{\'e}alable, fait appel {\`a} un r{\'e}seau de neurones convolutif (CNN) comme classifieur binaire, avec comme entr{\'e}e des trames de coefficients spectraux. Les deux approches sont {\'e}valu{\'e}es sur deux phon{\`e}mes cibles /R/ et /v/ du fran{\c{c}}ais, particuli{\`e}rement difficiles {\`a} prononcer pour des Japonophones. Les param{\`e}tres du GOP (seuils) et du CNN sont estim{\'e}s sur un corpus de parole lue par des locuteurs natifs du fran{\c{c}}ais, dans lequel des erreurs de prononciation artificielles sont introduites. Un gain de performance relatif de 13,4{\%} a {\'e}t{\'e} obtenu avec le CNN, avec une pr{\'e}cision globale de 72,6{\%}, sur un corpus d{'}{\'e}valuation enregistr{\'e} par 23 locuteurs japonophones.
PDF Abstract