no code implementations • CCL 2021 • Dazhan Mao, Kuai Yu, Yanqiu Shao
“语义依存分析要走向实用, 模型从单领域迁移到其他领域的领域适应能力至关重要。近年来, 对抗学习针对领域适应这个任务取得了较好的效果, 但对目标领域的无标注数据利用效率并不高。本文采用Self-training这种半监督学习方法, 充分发挥无标注数据的潜能, 弥补对抗学习方法的不足。但传统的Self-training效率和性能并不好, 为此本文针对跨领域语义依存分析这个任务, 尝试了强化学习数据选择器, 提出了局部伪标注的标注策略, 实验结果证明我们提出的模型优于基线模型。”
1 code implementation • Findings (ACL) 2022 • Wei Li, Yuhan Song, Qi Su, Yanqiu Shao
Word Segmentation is a fundamental step for understanding Chinese language.
no code implementations • CCL 2020 • Dazhan Mao, Huayong Li, Yanqiu Shao
近年来, 尽管深度学习给语义依存分析带来了长足的进步, 但由于语义依存分析数据标注代价非常高昂, 并且在单领域上性能较好的依存分析器迁移到其他领域时, 其性能会大幅度下降。因此为了使其走向实用, 就必须解决领域适应问题。本文提出一个新的基于对抗学习的领域适应依存分析模型, 我们提出了基于对抗学习的共享双编码器结构, 并引入领域私有辅助任务和正交约束, 同时也探究了多种预训练模型在跨领域依存分析任务上的效果和性能。
no code implementations • CCL 2020 • Lanqiu Zhang, Zizhuo Shen, Yanqiu Shao
In addition, we integrate the BERT representations into our model so that the performance of our model was improved by 0. 7% compared with our baseline model.
no code implementations • CCL 2022 • Tian Huang, Yanqiu Shao, Wei Li
“语义依存图是NLP处理语义的深层分析方法, 能够对句子中词与词之间的语义进行分析。该文针对古代汉语特点, 在制定古代汉语语义依存图标注规范的基础上, 以《二十四史》为语料来源, 完成标注了规模为3000句的古代汉语语义依存图库, 标注一致性的kappa值为78. 83%。通过与现代汉语语义依存图库的对比, 对依存图库基本情况进行统计, 分析古代汉语的语义特色和规律。统计显示, 古代汉语语义分布宏观上符合齐普夫定律, 在语义事件描述上具有强烈的历史性叙事和正式文体特征, 如以人物纪传为中心, 时间、地点等周边角色描述细致, 叙事语言冷静客观, 缺少描述情态、语气、程度、时间状态等的修饰词语等。 "
no code implementations • CCL 2022 • Kuai Yu, Yanqiu Shao, Wei Li
“基于深度学习的有监督机器翻译取得了良好的效果, 但训练过程中需要大量质量较高的对齐语料。对于中文古今翻译场景, 高质量的平行语料并不多, 而粗对齐的篇章、段语料比较容易获得, 因此语料对齐很有研究价值和研究必要。在传统双语平行语料的句子对齐研究中, 传统方法根据双语文本中的长度、词汇、共现文字等语法信息, 建立一个综合评判标准来衡量两个句对之间相似度。此类方法虽然在单句对齐上取得了较好的效果, 但是对于句子语义匹配的能力有限, 并且在一些多对多的对齐模式上的性能表现不佳。在本文中我们提出尝试利用现在发展迅速且具有强大语义表示能力的预训练语言模型来考虑双语的语义信息, 但是单独使用预训练语言模型只能考虑相对局部的信息, 因此我们提出采用基于动态规划算法的强化学习训练目标来整合段落全局信息, 并且进行无监督训练。实验结果证明我们提出的方法训练得到的模型性能优于此前获得最好表现的基线模型, 尤其相较于传统模型难以处理的多对多对齐模式下, 性能提升较大。”