From f6b7670646db60415698cb1f4a3ec581a28e8333 Mon Sep 17 00:00:00 2001 From: Indexea Date: Sat, 7 Jan 2023 08:48:12 +0800 Subject: [PATCH] remove readme.md --- core/Readme.md | 23 ----------------------- 1 file changed, 23 deletions(-) delete mode 100644 core/Readme.md diff --git a/core/Readme.md b/core/Readme.md deleted file mode 100644 index 0b36e39..0000000 --- a/core/Readme.md +++ /dev/null @@ -1,23 +0,0 @@ -## ideaseg 分词核心模块 - -根据实际的比较结果来看,成熟可用的中文分词模块有如下几个: - -* **HanLP (最佳选择)** - 基于深度学习和海量语料训练的自然语言处理,代码结构差但是可用。性能相比 jcseg 可能有10倍差距(没细测) 但是准确度非常高,分词效果非常好。 - 该项目最新版本 1.8.2 ,以后基本上不会再更新了,官方以前全面转向云服务。 -* jcseg - 速度快,但是分词定位错误问题始终没有解决,不过解决思路已经有了。暂时不予考虑。 -* CoreNLP - 非常专业的自然语言处理能力,但是体积大、速度慢,无法在生产中使用, 日后可以考虑使用它为一些高净值客户提供专属服务 -* ikanalyzer - 比较老而且成熟的基于词库分词,多年未更新,有志愿者一直提供 ES 插件的更新。 - -经过多次比较最终确定第一版基于 **HanLP** 实现分词功能。 - -**下一步需要做的包括:** - -1. 提供多租户的分词个性化定制能力 -2. 优化分词性能 -3. 完善 HanLP 的代码结构 -4. 提供多种分词模型 -5. 研究如何更新语料库,生成新的语料模型 \ No newline at end of file