D\'etection des mots non-standards dans les tweets avec des r\'eseaux de neurones (Detecting non-standard words in tweets with neural networks)
Dans cet article, nous proposons un mod{\`e}le pour d{\'e}tecter dans les textes g{\'e}n{\'e}r{\'e}s par des utilisateurs (en particulier les tweets), les mots non-standards {\`a} corriger. Nous utilisons pour cela des r{\'e}seaux de neurones convolutifs au niveau des caract{\`e}res, associ{\'e}s {\`a} des {``}plongements{''} (embeddings) des mots pr{\'e}sents dans le contexte du mot courant. Nous avons utilis{\'e} pour l{'}{\'e}valuation trois corpus de r{\'e}f{\'e}rence. Nous avons test{\'e} diff{\'e}rents mod{\`e}les qui varient suivant leurs plongements pr{\'e}-entrain{\'e}s, leurs configurations et leurs optimisations. Nous avons finalement obtenu une F1-mesure de 0.972 en validation crois{\'e}e pour la classe des mots non-standards. Cette d{\'e}tection des mots {\`a} corriger est l{'}{\'e}tape pr{\'e}liminaire pour la normalisation des textes non standards comme les tweets.
PDF Abstract