国家语言资源监测与研究平面媒体中心最新论文基于Transformer增强架构的中文语法纠错

科学研究

最新论文

基于Transformer增强架构的中文语法纠错

发布日期：2020-08-05

访问次数:

字号：[ 大中小 ]

基于Transformer增强架构的中文语法纠错

论文作者：王辰成，杨麟儿，王莹莹，杜永萍，杨尔弘

发表于：第十八届中国计算语言学大会（CCL 2019）

语法纠错（Grammatical Error Correction, GEC）任务，旨在利用自然语言处理技术，自动识别并纠正非中文母语学习者书写的文本中所包含的语法错误，拼写错误，语序错误，标点错误等等，是自然语言处理的一项重要任务。下面这对语句就是语法纠错任务的一个示例，每个输入对应一个输出，左侧输入的是一句可能带有错误的文本，右侧输出的是纠正后的结果，句中红色的字是有修改的地方。

这个软件让我们什么有趣的事都记录。

这个软件能让我们把有趣的事都记录下来。

本文采用基于多头注意力机制的Transformer序列生成模型作为我们的纠错模型，并且提出了一种动态残差结构，能够增强模型挖掘文本语义信息的能力。由于中文语法纠错的训练语料过少，无法充分训练序列生成模型，我们提出了一种腐化语料的单语数据增强方法，能够有效的扩大训练集的规模，并进一步提升模型的纠错效果。

打印本页关闭窗口