Apprentissage de plongements de mots sur des corpus en langue de sp\'ecialit\'e : une \'etude d'impact (Learning word embeddings on domain specific corpora : an impact study )

Les m{\'e}thodes d{'}apprentissage de plongements lexicaux constituent d{\'e}sormais l{'}{\'e}tat de l{'}art pour la repr{\'e}sentation du vocabulaire et des documents sous forme de vecteurs dans de nombreuses t{\^a}ches de Traitement Automatique du Langage Naturel (TALN). Dans ce travail, nous consid{\'e}rons l{'}apprentissage et l{'}usage de plongements lexicaux dans le cadre de corpus en langue de sp{\'e}cialit{\'e} de petite taille. En particulier, nous souhaitons savoir si dans ce cadre, il est pr{\'e}f{\'e}rable d{'}utiliser des plongements pr{\'e}appris sur des corpus tr{\`e}s volumineux tels Wikip{\'e}dia ou bien s{'}il est pr{\'e}f{\'e}rable d{'}apprendre des plongements sur ces corpus en langue de sp{\'e}cialit{\'e}. Pour r{\'e}pondre {\`a} cette question, nous consid{\'e}rons deux corpus en langue de sp{\'e}cialit{\'e} : O HSUMED issu du domaine m{\'e}dical, et un corpus de documentation technique, propri{\'e}t{\'e} de SNCF. Apr{\`e}s avoir introduit ces corpus et {\'e}valu{\'e} leur sp{\'e}cificit{\'e}, nous d{\'e}finissons une t{\^a}che de classification. Pour cette t{\^a}che, nous choisissons d{'}utiliser en entr{\'e}e d{'}un classifieur neuronal des repr{\'e}sentations des documents qui sont soit bas{\'e}es sur des plongements appris sur les corpus de sp{\'e}cialit{\'e}, soit sur des plongements appris sur Wikip{\'e}dia. Notre analyse montre que les plongements appris sur Wikip{\'e}dia fournissent de tr{\`e}s bons r{\'e}sultats. Ceux-ci peuvent {\^e}tre utilis{\'e}s comme une r{\'e}f{\'e}rence fiable, m{\^e}me si dans le cas d{'}O HSUMED, il vaut mieux apprendre des plongements sur ce m{\^e}me corpus. La discussion des r{\'e}sultats se fait en interrogeant les sp{\'e}cificit{\'e}s des deux corpus, mais ne permet pas d{'}{\'e}tablir clairement dans quels cas apprendre des plongements sp{\'e}cifiques au corpus.

PDF Abstract

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here