Fusion d'espaces de repr\'esentations multimodaux pour la reconnaissance du r\^ole du locuteur dans des documents t\'el\'evisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast )

L{'}identification du r{\^o}le d{'}un locuteur dans des {\'e}missions de t{\'e}l{\'e}vision est un probl{\`e}me de classification de personne selon une liste de r{\^o}les comme pr{\'e}sentateur, journaliste, invit{\'e}, etc. {\`A} cause de la nonsynchronie entre les modalit{\'e}s, ainsi que par le manque de corpus de vid{\'e}os annot{\'e}es dans toutes les modalit{\'e}s, seulement une des modalit{\'e}s est souvent utilis{\'e}e. Nous pr{\'e}sentons dans cet article une fusion multimodale des espaces de repr{\'e}sentations de l{'}audio, du texte et de l{'}image pour la reconnaissance du r{\^o}le du locuteur pour des donn{\'e}es asynchrones. Les espaces de repr{\'e}sentations monomodaux sont entra{\^\i}n{\'e}s sur des corpus de donn{\'e}es exog{\`e}nes puis ajust{\'e}s en utilisant des r{\'e}seaux de neurones profonds sur un corpus d{'}{\'e}missions fran{\c{c}}aises pour notre t{\^a}che de classification. Les exp{\'e}riences r{\'e}alis{\'e}es sur le corpus de donn{\'e}es REPERE ont mis en {\'e}vidence les gains d{'}une fusion au niveau des espaces de repr{\'e}sentations par rapport aux m{\'e}thodes de fusion tardive standard.

PDF Abstract
No code implementations yet. Submit your code now

Tasks


Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here