媒体语言语料库(MLC)

       媒体语言语料库(MLC)2003年开始建设,2005年上线,其后不断扩大语料规模,一直为研究者提供免费服务。为方便广大研究者使用,2016年语料库进行了第三次改版。这次改版主要加进了与原来语料规模相等、内容相同的熟语料,可以进行以词为单位或以词性及词性串为单位的词串检索。本语料库包括2008至2013六年的3.4万个广播、电视节目的转写文本,总字符数为2.4亿,总汉字数为2亿字次。所有文本都进行了分词和词性标注,共计1.36亿词次。为保证语料的典型性和代表性,每年都尽可能选择那些流通度大、年度间又有一定连续性的节目文本;为便于研究者做6年间的历时语言调查,各年度的语料规模尽可能平衡。

语言中文简体 出版时间2005-07-01
类型语料库 发布者国家语言资源监测与研究有声媒体中心
发布者邮箱ling@cuc.edu.cn 访问方式在线访问
应用范围语言模型,信息检索,情感分析,语言学习,自然语言处理,
访问量2595 访问访问链接
备注
国家语委语言资源网数据版权申明