@@ -1,23 +0,0 @@ | |||||
## ideaseg 分词核心模块 | |||||
根据实际的比较结果来看,成熟可用的中文分词模块有如下几个: | |||||
* **HanLP (最佳选择)** | |||||
基于深度学习和海量语料训练的自然语言处理,代码结构差但是可用。性能相比 jcseg 可能有10倍差距(没细测) 但是准确度非常高,分词效果非常好。 | |||||
该项目最新版本 1.8.2 ,以后基本上不会再更新了,官方以前全面转向云服务。 | |||||
* jcseg | |||||
速度快,但是分词定位错误问题始终没有解决,不过解决思路已经有了。暂时不予考虑。 | |||||
* CoreNLP | |||||
非常专业的自然语言处理能力,但是体积大、速度慢,无法在生产中使用, 日后可以考虑使用它为一些高净值客户提供专属服务 | |||||
* ikanalyzer | |||||
比较老而且成熟的基于词库分词,多年未更新,有志愿者一直提供 ES 插件的更新。 | |||||
经过多次比较最终确定第一版基于 **HanLP** 实现分词功能。 | |||||
**下一步需要做的包括:** | |||||
1. 提供多租户的分词个性化定制能力 | |||||
2. 优化分词性能 | |||||
3. 完善 HanLP 的代码结构 | |||||
4. 提供多种分词模型 | |||||
5. 研究如何更新语料库,生成新的语料模型 |