ideaseg 分词核心模块
根据实际的比较结果来看,成熟可用的中文分词模块有如下几个:
- HanLP (最佳选择)
基于深度学习和海量语料训练的自然语言处理,代码结构差但是可用。性能相比 jcseg 可能有10倍差距(没细测) 但是准确度非常高,分词效果非常好。
该项目最新版本 1.8.2 ,以后基本上不会再更新了,官方以前全面转向云服务。
- jcseg
速度快,但是分词定位错误问题始终没有解决,不过解决思路已经有了。暂时不予考虑。
- CoreNLP
非常专业的自然语言处理能力,但是体积大、速度慢,无法在生产中使用, 日后可以考虑使用它为一些高净值客户提供专属服务
- ikanalyzer
比较老而且成熟的基于词库分词,多年未更新,有志愿者一直提供 ES 插件的更新。
经过多次比较最终确定第一版基于 HanLP 实现分词功能。
下一步需要做的包括:
- 提供多租户的分词个性化定制能力
- 优化分词性能
- 完善 HanLP 的代码结构
- 提供多种分词模型
- 研究如何更新语料库,生成新的语料模型