维吾尔语Web语料库

2011年—2016年从天山网、新疆友通电子科技网、新疆巧谷鲁克网、新疆新闻文学人物网、新疆昆仑网、新疆语言文字网、新疆维吾尔自治区政府网7家维语网站上下载的数据,经预处理后得到的txt文本,规模400MB。该语料库是动态流通语料,其规模在不断扩大,同时后期也在持续增加维语网站。

了解更多
阅读量(561)

蒙、藏、维、哈九年义务教育双语教育教材语料库

语料库包括蒙古语、藏语、维吾尔语、哈萨克语四种语言双语教育九年义务教育阶段语文教材的语料库,收录教材共120本,总计1141215词次。语料库对蒙古语、藏语、维吾尔语、哈萨克语四种语言双语教育语文教材的语料加工处理,标注教材的课本信息和课文信息,并对蒙古语、藏语、维吾尔语语料进行了分词/词形还原和词类标注。该语料库可为双语教育研究、教材研究、民族语自然语言处理技术研究等提供数据资源,发挥助学助研作用,辅助学术科学研究。

了解更多
阅读量(522)

藏语Web语料库

2011年—2016年度来自于新华网西藏频道、人民网西藏频道、中国西藏新闻网、中国西藏网、中国藏族网通、青海藏语广播网、青海湖网以及西藏文化网8家藏语网站上下载的数据,经预处理后得到的txt文本,规模300MB。该语料库是动态流通语料,其规模在不断扩大,同时后期也在持续增加藏语网站。

了解更多
阅读量(516)

少数民族语言技术评测语料

本次评测包含3个项目,评测对象是蒙古文、维吾尔文、藏文三个语种文本自动分词的核心技术。藏文:提供1万句训练语料、1万句测试语料;蒙古文:提供5万句训练语料、5万句测试语料;维吾尔文:提供5万句训练语料、5万句测试语料。语料由中央民族大学、清华大学、西藏大学提供。评测语料库逐步扩充,规模在不断扩大。

了解更多
阅读量(376)

蒙古语Web语料库

2011年—2016年从人民网蒙文版、人民网、好乐宝蒙文博客网、中国蒙古语新闻网、新华网、中国蒙古语广播网、成吉思汗蒙古文博客网、兴安日报蒙文版、央视网蒙文版、锡林郭勒盟蒙古文政府门户网站、腾格里网11家蒙古语网站上下载的数据,经预处理后得到的txt文本,该语料库是动态流通语料,其规模在不断扩大,同时后期也在持续增加蒙古语网站。

了解更多
阅读量(374)

现代汉语语料库

“现代汉语语料库”含报纸、博客、网站新闻、文学作品、杂志、口语材料、教材语料等内容,规模近2亿字。提供在线按字符串和分词单位检索的检索功能,支持“正则表达式”。 “现代汉语语料库”在国家社科基金项目“基于国家语委‘通用语料库’之上的汉语义频词库的开发”及厦门大学国家语言资源监测与研究教育教材中心其他课题中得到应用并不断完善。

了解更多
阅读量(4321)

媒体语言语料库(MLC)

媒体语言语料库(MLC)2003年开始建设,2005年上线,其后不断扩大语料规模,一直为研究者提供免费服务。为方便广大研究者使用,2016年语料库进行了第三次改版。这次改版主要加进了与原来语料规模相等、内容相同的熟语料,可以进行以词为单位或以词性及词性串为单位的词串检索。本语料库包括2008至2013六年的3.4万个广播、电视节目的转写文本,总字符数为2.4亿,总汉字数为2亿字次。所有文本都进行了分词和词性标注,共计1.36亿词次。为保证语料的典型性和代表性,每年都尽可能选择那些流通度大、年度间又有一定连续性的节目文本;为便于研究者做6年间的历时语言调查,各年度的语料规模尽可能平衡。

了解更多
阅读量(2373)

全球华语语料库

1、东南亚主要华文媒体语料库 语料库的来源以新加坡、马来西亚和泰国等主流媒体为主,语料时间跨度为2005年到2008年,总共文本数为343978个,约3亿字。已经分词和标注词性。 2、东南亚小学华文教材语料库 以新加坡、马来西亚、菲律宾、印尼、越南的小学华文教材为主。选取了20套、约240本小学华文教材,已经输入电脑,总共约300万字。已经进行自动分词,并标注了词性。 3、东南亚华裔留学生作文语料库 语料库收集了2001年到2010年的留学生作文,大约400万字。 4、东南亚华裔留学生口语语料库 语料库收集了2001年到2010年的留学生口语,大约20万字。

了解更多
阅读量(1494)