|
|
@@ -1,23 +0,0 @@ |
|
|
|
## ideaseg 分词核心模块 |
|
|
|
|
|
|
|
根据实际的比较结果来看,成熟可用的中文分词模块有如下几个: |
|
|
|
|
|
|
|
* **HanLP (最佳选择)** |
|
|
|
基于深度学习和海量语料训练的自然语言处理,代码结构差但是可用。性能相比 jcseg 可能有10倍差距(没细测) 但是准确度非常高,分词效果非常好。 |
|
|
|
该项目最新版本 1.8.2 ,以后基本上不会再更新了,官方以前全面转向云服务。 |
|
|
|
* jcseg |
|
|
|
速度快,但是分词定位错误问题始终没有解决,不过解决思路已经有了。暂时不予考虑。 |
|
|
|
* CoreNLP |
|
|
|
非常专业的自然语言处理能力,但是体积大、速度慢,无法在生产中使用, 日后可以考虑使用它为一些高净值客户提供专属服务 |
|
|
|
* ikanalyzer |
|
|
|
比较老而且成熟的基于词库分词,多年未更新,有志愿者一直提供 ES 插件的更新。 |
|
|
|
|
|
|
|
经过多次比较最终确定第一版基于 **HanLP** 实现分词功能。 |
|
|
|
|
|
|
|
**下一步需要做的包括:** |
|
|
|
|
|
|
|
1. 提供多租户的分词个性化定制能力 |
|
|
|
2. 优化分词性能 |
|
|
|
3. 完善 HanLP 的代码结构 |
|
|
|
4. 提供多种分词模型 |
|
|
|
5. 研究如何更新语料库,生成新的语料模型 |