R\'e-entra\^\iner ou entra\^\iner soi-m\^eme ? Strat\'egies de pr\'e-entra\^\inement de BERT en domaine m\'edical (Re-train or train from scratch ? Pre-training strategies for BERT in the medical domain )
Les mod{\`e}les BERT employ{\'e}s en domaine sp{\'e}cialis{\'e} semblent tous d{\'e}couler d{'}une strat{\'e}gie assez simple : utiliser le mod{\`e}le BERT originel comme initialisation puis poursuivre l{'}entra{\^\i}nement de celuici sur un corpus sp{\'e}cialis{\'e}. Il est clair que cette approche aboutit {\`a} des mod{\`e}les plut{\^o}t performants (e.g. BioBERT (Lee et al., 2020), SciBERT (Beltagy et al., 2019), BlueBERT (Peng et al., 2019)). Cependant, il para{\^\i}t raisonnable de penser qu{'}entra{\^\i}ner un mod{\`e}le directement sur un corpus sp{\'e}cialis{\'e}, en employant un vocabulaire sp{\'e}cialis{\'e}, puisse aboutir {\`a} des plongements mieux adapt{\'e}s au domaine et donc faire progresser les performances. Afin de tester cette hypoth{\`e}se, nous entra{\^\i}nons des mod{\`e}les BERT {\`a} partir de z{\'e}ro en testant diff{\'e}rentes configurations m{\^e}lant corpus g{\'e}n{\'e}raux et corpus m{\'e}dicaux et biom{\'e}dicaux. Sur la base d{'}{\'e}valuations men{\'e}es sur quatre t{\^a}ches diff{\'e}rentes, nous constatons que le corpus de d{\'e}part influence peu la performance d{'}un mod{\`e}le BERT lorsque celui-ci est r{\'e}-entra{\^\i}n{\'e} sur un corpus m{\'e}dical.
PDF Abstract