|
|
@@ -3,25 +3,25 @@ |
|
|
|
##请注意: |
|
|
|
>1. pom.xml 文件中 lingpipe-core jar 没办法从中央仓库下载已经集成到 libs 目录里面,而 pom.xml 中只能使用绝对路径,请注意修改 |
|
|
|
>2. pom.xml 文件中 hanlp jar 包可能需要手动下载,然后添加到 maven 仓库 |
|
|
|
|
|
|
|
###本程序依赖data目录下面的data.zip和dictionary.zip先解压缩 data 目录下面的 data.zip到当前目录。 |
|
|
|
|
|
|
|
* 新增说明3:增加基于 TF-IDF(词向量) 特征的文本分类程序。 |
|
|
|
1. 主程序:DfIdfClassifier |
|
|
|
2. 效果 |
|
|
|
``` |
|
|
|
|
|
|
|
CATEGORY nment others |
|
|
|
government 233 46 |
|
|
|
others 110 390 |
|
|
|
准确度: 0.8 |
|
|
|
总共正确数 : 623 |
|
|
|
总数:779 |
|
|
|
``` |
|
|
|
|
|
|
|
* 新增说明2:增加基于 N-Gram(词向量) 特征的文本分类程序,目的是找出自己领域相关的文本,然后再从这个领域相关的文本中判断正负面。 |
|
|
|
|
|
|
|
1. 测试语料:data/text_classification.zip 解压缩即可 |
|
|
|
2. 运行程序:NGramClassifier 即可。 |
|
|
|
效果: |
|
|
|
``` |
|
|
|
Total Accuracy=0.9550706033376123 |
|
|
|
95% Confidence Interval=0.9550706033376123 +/- 0.014546897368198444 |
|
|
|
Confusion Matrix |
|
|
@@ -29,7 +29,7 @@ reference \ response |
|
|
|
government,others |
|
|
|
government 271, 8 |
|
|
|
others 27, 473 |
|
|
|
``` |
|
|
|
|
|
|
|
* 新增说明1:2015-04-10测试了不用中文分词器,分词之后 LingPipe 情感分类的准确率,同时测试了去除停用词之后的情感分类的准确率。 |
|
|
|
|
|
|
|
|
|
|
|