IKAnalyzer

IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。

了解更多
阅读量(396)

盘古分词

盘古分词是一个基于.net framework的中英文分词组件,提供lucene(.net 版本) 和HubbleDotNet的接口。盘古分词功能是提供中文人名识别、简繁混合分词、多元分词、英文词根化、强制一元分词、词频优先分词、停用词过滤和英文专名提取等一系列功能。

了解更多
阅读量(418)

FreeICTCLAS

汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词、词性标注、命名实体识别、新词识别,同时支持用户词典。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。

了解更多
阅读量(389)

LibMMSeg

LibMMSeg 是Coreseek.com为Sphinx全文搜索引擎设计的中文分词软件包,其在GPL协议下发行的中文分词法,采用Chih-Hao Tsai的MMSEG算法。LibMMSeg 采用C++开发,同时支持Linux平台和Windows平台,切分速度大约在300K/S(PM-1.2G)。

了解更多
阅读量(220)

PHPCWS

PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统,该项目现在已改名为HTTPCWS,此项目不再继续维护。PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。

了解更多
阅读量(282)

HTTPCWS

HTTPCWS是一款Linux下的基于HTTP协议的开源中文分词系统,采用BSD协议。该分词系统采用逆向最大匹配算法,根据作者自己补充的一个9万条词语的自定义词库,对ICTCLAS分词结果进行合并处理,输出最终分词结果。目前只支持GBK编码。经过测试,局域网内 HTTPCWS 接口中文分词平均处理速度(Wait时间):0.001秒,每秒可处理5000~20000次请求。

了解更多
阅读量(314)

imdict-chinese-analyzer

imdict-chinese-analyzer 是imdict智能词典的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。

了解更多
阅读量(311)

mmseg4j

mmseg4j用Chih-Hao Tsai的MMSeg算法(http://technology.chtsai.org/mmseg/)实现的中文分词器,并实现 lucene的analyzer和solr的TokenizerFactory 以方便在Lucene和Solr中使用。MMSeg算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。

了解更多
阅读量(267)