Fusion d'espaces de repr\'esentations multimodaux pour la reconnaissance du r\^ole du locuteur dans des documents t\'el\'evisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast )

JEPTALNRECITAL 2016 · Sebastien Delecraz, Frederic Bechet, Benoit Favre, Mickael Rouvier ·

L{'}identification du r{\^o}le d{'}un locuteur dans des {\'e}missions de t{\'e}l{\'e}vision est un probl{\`e}me de classification de personne selon une liste de r{\^o}les comme pr{\'e}sentateur, journaliste, invit{\'e}, etc. {\`A} cause de la nonsynchronie entre les modalit{\'e}s, ainsi que par le manque de corpus de vid{\'e}os annot{\'e}es dans toutes les modalit{\'e}s, seulement une des modalit{\'e}s est souvent utilis{\'e}e. Nous pr{\'e}sentons dans cet article une fusion multimodale des espaces de repr{\'e}sentations de l{'}audio, du texte et de l{'}image pour la reconnaissance du r{\^o}le du locuteur pour des donn{\'e}es asynchrones. Les espaces de repr{\'e}sentations monomodaux sont entra{\^\i}n{\'e}s sur des corpus de donn{\'e}es exog{\`e}nes puis ajust{\'e}s en utilisant des r{\'e}seaux de neurones profonds sur un corpus d{'}{\'e}missions fran{\c{c}}aises pour notre t{\^a}che de classification. Les exp{\'e}riences r{\'e}alis{\'e}es sur le corpus de donn{\'e}es REPERE ont mis en {\'e}vidence les gains d{'}une fusion au niveau des espaces de repr{\'e}sentations par rapport aux m{\'e}thodes de fusion tardive standard.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Datasets

Add Datasets introduced or used in this paper

Results from the Paper

Add Remove

Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Fusion d'espaces de repr\'esentations multimodaux pour la reconnaissance du r\^ole du locuteur dans des documents t\'el\'evisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast )

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove