CALOR-QUEST : un corpus d'entra\^\inement et d'\'evaluation pour la compr\'ehension automatique de textes (Machine reading comprehension is a task related to Question-Answering where questions are not generic in scope but are related to a particular document)

La compr{\'e}hension automatique de texte est une t{\^a}che faisant partie de la famille des syst{\`e}mes de Question/R{\'e}ponse o{\`u} les questions ne sont pas {\`a} port{\'e}e g{\'e}n{\'e}rale mais sont li{\'e}es {\`a} un document particulier. R{\'e}cemment de tr{\`e}s grand corpus (SQuAD, MS MARCO) contenant des triplets (document, question, r{\'e}ponse) ont {\'e}t{\'e} mis {\`a} la disposition de la communaut{\'e} scientifique afin de d{\'e}velopper des m{\'e}thodes supervis{\'e}es {\`a} base de r{\'e}seaux de neurones profonds en obtenant des r{\'e}sultats prometteurs. Ces m{\'e}thodes sont cependant tr{\`e}s gourmandes en donn{\'e}es d{'}apprentissage, donn{\'e}es qui n{'}existent pour le moment que pour la langue anglaise. Le but de cette {\'e}tude est de permettre le d{\'e}veloppement de telles ressources pour d{'}autres langues {\`a} moindre co{\^u}t en proposant une m{\'e}thode g{\'e}n{\'e}rant de mani{\`e}re semi-automatique des questions {\`a} partir d{'}une analyse s{\'e}mantique d{'}un grand corpus. La collecte de questions naturelle est r{\'e}duite {\`a} un ensemble de validation/test. L{'}application de cette m{\'e}thode sur le corpus CALOR-Frame a permis de d{\'e}velopper la ressource CALOR-QUEST pr{\'e}sent{\'e}e dans cet article.

PDF Abstract

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here