no code implementations • CCL 2022 • Xiaoxu Zhang, Zhiqiang Ma, Zhiqiang Liu, Caijilahu Bao
“针对 Transformer 模型在蒙古语语音识别任务中无法学习到带有控制符的蒙古语词和语音之间的对应关系, 造成模型对蒙古语的不适应问题。提出一种面向 Transformer 模型的蒙古语词编码方法, 方法使用蒙古语字母特征与词特征进行混合编码, 通过结合蒙古语字母信息使 Transformer 模型能够区分带有控制符的蒙古语词, 学习到蒙古语词与语音之间的对应关系。在 IMUT-MC 数据集上, 构建 Transformer 模型并进行了词特征编码方法的消融实验和对比实验。消融实验结果表明, 词特征编码方法在 HWER、WER、SER 上分别降低了 23. 4%、6. 9%、2. 6%;对比实验结果表明, 词特征编码方法领先于所有方法, HWER 和 WER 分别达到 11. 8%、19. 8%。”
no code implementations • CCL 2022 • Fangyuan Zhu, Zhiqiang Ma, Zhiqiang Liu, Caijilahu Bao, Hongbin Wang
“说话人特征提取模型提取到的说话人特征之间区分性低, 使得蒙古语声学模型无法学习到区分性信息, 导致模型无法适应不同说话人。提出一种基于注意力的说话人自适应方法, 方法引入神经图灵机进行自适应, 增加记忆模块存放说话人特征, 采用注意力机制计算记忆模块中说话人特征与当前语音说话人特征的相似权重矩阵, 通过权重矩阵重新组合成说话人特征s-vector, 进而提高说话人特征之间的区分性。在IMUT-MCT数据集上, 进行说话人特征提取方法的消融实验、模型自适应实验和案例分析。实验结果表明, 对比不同说话人特征s-vector、i-vector与d-vector, s-vector比其他两种方法的SER和WER分别降低4. 96%、1. 08%;在不同的蒙古语声学模型上进行比较, 提出的方法相对于基线均有性能提升。”