面向汉语中介语的依存句法标注规范 论文作者:肖丹,杨尔弘,张明慧,陆天荧,杨麟儿 发表于:第十八届中国计算语言学大会(CCL 2019) 中介语指的是由于学习外语的人在学习过程中对于目的语规律所做的不正确的归纳与推论而产生的一个语言系统。这个语言系统既不同于学习者的母语,又区别于他所学的目的语。在这个过程中就产生了“偏误”,即中介语与目的语规律之间的差距。汉语中介语是汉语学习者在学习汉语的过程中产生的一种特殊的语言系统,包含大量不规范语言。由于中介语在语言使用上有其独特性,使得这些语料成为语言信息处理和智能语言辅助学习的独特资源。 依存分析是语言信息处理和智能语言学习的重要步骤。依存语法以其形式简洁、易于标注、便于应用等优点,被广泛应用于语料标注中。面向英语中介语的依存语法标注语料已经有很好的应用,而现有汉语中介语语料库对句法的关注度普遍较低,并且缺乏一个充分考虑汉语中介语特点的依存句法标注规范。本研究面向汉语中介语的依存句法分析,建构汉语中介语依存标注语料库,探讨了依存标注规范,并在充分借鉴国际通用依存标注体系(Universal Dependencies)的基础上,对汉语的特殊词性、句法结构、汉语中介语特性以及标注一致性等问题做了较为全面的考虑,并制定了面向汉语中介语的依存句法标注规范,主要包括标注框架和标注原则两大部分。
|