D\'etection des mots non-standards dans les tweets avec des r\'eseaux de neurones (Detecting non-standard words in tweets with neural networks)

JEPTALNRECITAL 2017 · Tian Tian, Isabelle Tellier, Marco Dinarelli, Pedro Cardoso ·

Dans cet article, nous proposons un mod{\`e}le pour d{\'e}tecter dans les textes g{\'e}n{\'e}r{\'e}s par des utilisateurs (en particulier les tweets), les mots non-standards {\`a} corriger. Nous utilisons pour cela des r{\'e}seaux de neurones convolutifs au niveau des caract{\`e}res, associ{\'e}s {\`a} des {``}plongements{''} (embeddings) des mots pr{\'e}sents dans le contexte du mot courant. Nous avons utilis{\'e} pour l{'}{\'e}valuation trois corpus de r{\'e}f{\'e}rence. Nous avons test{\'e} diff{\'e}rents mod{\`e}les qui varient suivant leurs plongements pr{\'e}-entrain{\'e}s, leurs configurations et leurs optimisations. Nous avons finalement obtenu une F1-mesure de 0.972 en validation crois{\'e}e pour la classe des mots non-standards. Cette d{\'e}tection des mots {\`a} corriger est l{'}{\'e}tape pr{\'e}liminaire pour la normalisation des textes non standards comme les tweets.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

SENTS

Datasets

Add Datasets introduced or used in this paper

Results from the Paper

Add Remove

Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

D\'etection des mots non-standards dans les tweets avec des r\'eseaux de neurones (Detecting non-standard words in tweets with neural networks)

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove