Browse Source

remove readme.md

master
Indexea 2 years ago
parent
commit
f6b7670646
1 changed files with 0 additions and 23 deletions
  1. +0
    -23
      core/Readme.md

+ 0
- 23
core/Readme.md View File

@@ -1,23 +0,0 @@
## ideaseg 分词核心模块

根据实际的比较结果来看,成熟可用的中文分词模块有如下几个:

* **HanLP (最佳选择)**
基于深度学习和海量语料训练的自然语言处理,代码结构差但是可用。性能相比 jcseg 可能有10倍差距(没细测) 但是准确度非常高,分词效果非常好。
该项目最新版本 1.8.2 ,以后基本上不会再更新了,官方以前全面转向云服务。
* jcseg
速度快,但是分词定位错误问题始终没有解决,不过解决思路已经有了。暂时不予考虑。
* CoreNLP
非常专业的自然语言处理能力,但是体积大、速度慢,无法在生产中使用, 日后可以考虑使用它为一些高净值客户提供专属服务
* ikanalyzer
比较老而且成熟的基于词库分词,多年未更新,有志愿者一直提供 ES 插件的更新。

经过多次比较最终确定第一版基于 **HanLP** 实现分词功能。

**下一步需要做的包括:**

1. 提供多租户的分词个性化定制能力
2. 优化分词性能
3. 完善 HanLP 的代码结构
4. 提供多种分词模型
5. 研究如何更新语料库,生成新的语料模型

Loading…
Cancel
Save