现代汉语语料库

“现代汉语语料库”含报纸、博客、网站新闻、文学作品、杂志、口语材料、教材语料等内容,规模近2亿字。提供在线按字符串和分词单位检索的检索功能,支持“正则表达式”。 “现代汉语语料库”在国家社科基金项目“基于国家语委‘通用语料库’之上的汉语义频词库的开发”及厦门大学国家语言资源监测与研究教育教材中心其他课题中得到应用并不断完善。

了解更多
阅读量(5450)

BCC语料库

BCC语料库由北京语言大学荀恩东教授团队开发维护,目的是建设全面反映当今社会语言生活的大规模语料库。 目前规模:总字数约 150 亿字,包括:报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料。 功能:可提供各种类型的检索以及可视化服务。

了解更多
阅读量(3862)

国家语委现代汉语平衡语料库

该语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为手工录入印刷版语料;1997之后的语料约为3000万字符,手工录入和取自电子文本各半。

了解更多
阅读量(3012)

媒体语言语料库(MLC)

媒体语言语料库(MLC)2003年开始建设,2005年上线,其后不断扩大语料规模,一直为研究者提供免费服务。为方便广大研究者使用,2016年语料库进行了第三次改版。这次改版主要加进了与原来语料规模相等、内容相同的熟语料,可以进行以词为单位或以词性及词性串为单位的词串检索。本语料库包括2008至2013六年的3.4万个广播、电视节目的转写文本,总字符数为2.4亿,总汉字数为2亿字次。所有文本都进行了分词和词性标注,共计1.36亿词次。为保证语料的典型性和代表性,每年都尽可能选择那些流通度大、年度间又有一定连续性的节目文本;为便于研究者做6年间的历时语言调查,各年度的语料规模尽可能平衡。

了解更多
阅读量(2880)

全球华语语料库

1、东南亚主要华文媒体语料库 语料库的来源以新加坡、马来西亚和泰国等主流媒体为主,语料时间跨度为2005年到2008年,总共文本数为343978个,约3亿字。已经分词和标注词性。 2、东南亚小学华文教材语料库 以新加坡、马来西亚、菲律宾、印尼、越南的小学华文教材为主。选取了20套、约240本小学华文教材,已经输入电脑,总共约300万字。已经进行自动分词,并标注了词性。 3、东南亚华裔留学生作文语料库 语料库收集了2001年到2010年的留学生作文,大约400万字。 4、东南亚华裔留学生口语语料库 语料库收集了2001年到2010年的留学生口语,大约20万字。

了解更多
阅读量(2000)

《人民日报》标注语料库

该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。且该语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

了解更多
阅读量(1679)

LDC

LDC是一个开放的大学、图书馆、公司和政府研究实验室。它成立于1992年,最初,LDC的主要作用是作为存储库和语言资源的分配点,从那时起,在其他成员的帮助下,LDC成长为一个创建和分发各种语言资源的网站,LDC还通过提供资源和促进组织知识支持基于科研的项目和语言技术评估。

了解更多
阅读量(1345)

新词语研究资源库

新词语研究资源库是一个集研究对象和研究文献与一体的综合性资源库。它的综合性表现在对研究对象和研究文献的兼收并蓄。研究对象是指新词语和新词语出现的环境语料,其中,新词语在资源库中具体表现为 新词语词典收入的新词语词条,新词语出现的环境语料具体表现为 国家语言资源监测与研究有声媒体中心的有声传媒语料库;研究文献则包括以新词语为研究对象的文章或专著。 新词语研究资源库是一个动态的资源库。它的动态性是指资源库是一个开放的数据库,随着新的词语的出现和对新词语研究的深入,我们都会以一定的周期向资源库追加新的词语信息和新的研究文献,保持资源库和新词语的发展和研究现实同步,以满足使用者的使用需求。

了解更多
阅读量(1050)