You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

README 1.2 kB

1234567891011121314151617181920212223
  1. 基于自然语言处理的情感分析工具
  2. 本程序依赖data目录下面的data.zip,先解压缩 data 目录下面的 data.zip到当前目录。
  3. *新增说明1:2015-04-10测试了不用中文分词器,分词之后 LingPipe 情感分类的准确率,同时测试了去除停用词之后的情感分类的准确率。
  4. 1) 发现用HanLP的NLPTokenizer分词器,准确率最高,但是速度有点慢。
  5. 2) 如果用HanLP的标准分词器就会准确率低一点点,但是速度快。
  6. 3) 分词之后去除停用词效果更加差。
  7. 4) 结巴分词效果不好,而且速度慢。
  8. 1、基于词典和贝叶斯模型的情感分析
  9. 主程序:eshore.cn.it.sentiment.Sentiment 此类通过
  10. data/Sentiment_Dictionary中的正负面词语建立模型。
  11. 测试: eshore.cn.it.sentiment.SentimentTest
  12. 通过这个类就可以测试 data/500trainblogxml中的某个文件夹下面的博客的情感。
  13. 2、直接利用lingpipe的情感分析模块测试情感分析
  14. 直接运行程序: eshore.cn.it.sentiment.ChinesePolarityBasic
  15. 程序就会通过: data/polarity_corpus/hotel_reviews/train2训练
  16. 然后自动测试: data/polarity_corpus/hotel_reviews/test2
  17. 最后给出程序测试结果。

基于自然语言处理的情感分析工具

Contributors (1)