R\'e-entra\^\iner ou entra\^\iner soi-m\^eme ? Strat\'egies de pr\'e-entra\^\inement de BERT en domaine m\'edical (Re-train or train from scratch ? Pre-training strategies for BERT in the medical domain )

JEPTALNRECITAL 2020  ·  Hicham El Boukkouri ·

Les mod{\`e}les BERT employ{\'e}s en domaine sp{\'e}cialis{\'e} semblent tous d{\'e}couler d{'}une strat{\'e}gie assez simple : utiliser le mod{\`e}le BERT originel comme initialisation puis poursuivre l{'}entra{\^\i}nement de celuici sur un corpus sp{\'e}cialis{\'e}. Il est clair que cette approche aboutit {\`a} des mod{\`e}les plut{\^o}t performants (e.g. BioBERT (Lee et al., 2020), SciBERT (Beltagy et al., 2019), BlueBERT (Peng et al., 2019)). Cependant, il para{\^\i}t raisonnable de penser qu{'}entra{\^\i}ner un mod{\`e}le directement sur un corpus sp{\'e}cialis{\'e}, en employant un vocabulaire sp{\'e}cialis{\'e}, puisse aboutir {\`a} des plongements mieux adapt{\'e}s au domaine et donc faire progresser les performances. Afin de tester cette hypoth{\`e}se, nous entra{\^\i}nons des mod{\`e}les BERT {\`a} partir de z{\'e}ro en testant diff{\'e}rentes configurations m{\^e}lant corpus g{\'e}n{\'e}raux et corpus m{\'e}dicaux et biom{\'e}dicaux. Sur la base d{'}{\'e}valuations men{\'e}es sur quatre t{\^a}ches diff{\'e}rentes, nous constatons que le corpus de d{\'e}part influence peu la performance d{'}un mod{\`e}le BERT lorsque celui-ci est r{\'e}-entra{\^\i}n{\'e} sur un corpus m{\'e}dical.

PDF Abstract
No code implementations yet. Submit your code now

Tasks


Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods