基于Transformer增强架构的中文语法纠错 论文作者:王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘 发表于:第十八届中国计算语言学大会(CCL 2019) 语法纠错(Grammatical Error Correction, GEC)任务,旨在利用自然语言处理技术,自动识别并纠正非中文母语学习者书写的文本中所包含的语法错误,拼写错误,语序错误,标点错误等等,是自然语言处理的一项重要任务。下面这对语句就是语法纠错任务的一个示例,每个输入对应一个输出,左侧输入的是一句可能带有错误的文本,右侧输出的是纠正后的结果,句中红色的字是有修改的地方。 这个软件让我们什么有趣的事都记录。 这个软件能让我们把有趣的事都记录下来。 本文采用基于多头注意力机制的Transformer序列生成模型作为我们的纠错模型,并且提出了一种动态残差结构,能够增强模型挖掘文本语义信息的能力。由于中文语法纠错的训练语料过少,无法充分训练序列生成模型,我们提出了一种腐化语料的单语数据增强方法,能够有效的扩大训练集的规模,并进一步提升模型的纠错效果。
|