中心简介
中心概况
首页
>> 中心简介 >> 中心概况
中心概况
国家语言资源监测与研究中心平面媒体语言中心简介

发布日期:2012-12-07访问次数:字号:[ ]


  国家语言资源监测与研究平面媒体中心于2004年6月30日成立,是教育部语言文字信息管理司与北京语言大学共建的研究中心,也是国家语言资源与监测研究系列的第一个研究中心。在北京语言大学国家重点学科语言及应用语言学及计算机科学的优势学科基础上,我中心以独立实体单位的形式,与国内该系列的其他研究中心共同合作开展工作。以语言资源建设为基础,通过对语言资源的开发、对语言生活状况的调查、媒体语言的动态监测,为国家语言政策的制定提供了数据基础,为语言生活、语言教学、语言信息处理提供服务。


资源及平台建设

  1、国家语言资源动态流通语料库DCC

  目前规模为55亿字次,每年递增5亿字次,采样国内15-18份报纸。自2016年起DCC将采样全国100+份报纸,涵盖中国各省市,每年递增20亿+字次。该语料库具有历时、动态更新、实态记录等特点,可提供任意词语的历时使用分布数据,是语言生活研究、服务与应用的历时大数据。基于DCC,建立了多个计算、检索及可视化平台如:DCC中文历时检索平台;SCP语义云历时计算平台该平台基于word embedding与全局搭配信息,能够计算词汇语义的历时变化;CCC传统文化元素流通指数计算平台,能够从时间与地理两个维度对传统文化元素在现代媒体中的流通使用情况进行分析、对比及可视化展示。

     

  2、语义依存关系标注语料库

  该语料库人工标注语义依存关系,目前规模三万句,是语言文字信息技术与应用的深层次语义资源。2015年,基于该语料库,成功组织了国际评测Semeval 2015中文语义关系评测任务。

  3、科技文献语料库

  目前涵盖计算机、医学、机械三个学科。其中,论文11万+篇,7万+篇为历时数据资源,教材635部,其中计算机学科教材126部,医学学科教材389部,机械学科教材120部。该语料库是术语规范化及科技元素调查的数据资源。基于该语料库,建设了科技术语调查监测平台TIM。

  4、网络文学历时语料库

  涵盖玄幻、奇幻、都市、历史、网游、军事等各个分类,收集了从2003年至今的22万部网络文学小说,共120亿+字次。


社会服务与研究成果

  依托以上资源与平台,中心进行语言监测及语言生活系列研究,联合完成了2005年~2015年度的“报纸、广播电视、网络(新闻)用字用语调查报告”,发现了大规模媒体语料的用字用语规律,并与中国传媒大学合作提取年度新词语。中心联合多家单位,多次向社会发布“春夏季中国主流报纸十大流行语”,“年度中国主流报纸十大流行语”;“年度中国媒体流行语”,与“汉语盘点”合并发布年度流行语,与光明日报联合进行教育盘点,在社会上引起了较大的反响,中央电视台、北京电视台、新华社等多家媒体都进行了实时报道。

  中心参与《中国语言生活状况报告》绿皮书(2010-至今)编写工作,统计并完成其中年度字词语相关工作,合作进行新词语数据统计,媒体年度用字用语光盘数据统计等。支持语言政策咨询与参考,向国家提供资政报告被采纳十余篇。支持语言相关科研项目及课题研究数十项。2007年,我中心获得国家语委“全国语言文字先进集体”称号。

  中心研究的领域包括语言资源监测的理论、方法与技术;汉语信息处理的语义资源建设研究;自然语言处理、社会计算等。以语言资源建设为基础,研究、开发服务于语言状况调查、汉语信息处理及社会计算的资源建设与关键技术。科研团队承担/完成国家社科基金、国家自然科学基金、教育部人文社科项目国家语委等国家级省部级各类项目十余项,在核心期刊、国内国际会议上发表论文150余篇,完成著作多部,培养了几十名硕士博士。






打印本页 关闭窗口
Produced By 大汉网络 大汉版通发布系统