diff --git a/dataProcessing.md b/dataProcessing.md new file mode 100644 index 0000000..dbbe855 --- /dev/null +++ b/dataProcessing.md @@ -0,0 +1,61 @@ +# 开源舆情 数据处理部分技术架构设计 +(待续,未完...) + +## 简述 + +经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。 + + +## 开源技术栈 +(开源技术清单) + + +## 总体技术架构 + +(思维导图) + + +## 数据总线 + + +## 数据去重 +采用了redis集群 + + +## 数据清洗 +自动提取字段,标题、正文、时间、作者、来源 等。 + + +## 数据标记 + +### 实体识别 + HaNLP + +### 情感分析 + 百度飞桨 + +### 高频词分词 +- 自研算法 + +### 文本分类 + + +### 相似文章 + + +### 事件分类 + + 自研算法 + +### 行业分类 + + 自研算法 + +## 数据存储 + +分为多个部分存储,MySQL、redis、kafak、ES、mongodb、clickhouse + +## 数据运维 +### 数据清理 + +### 数据归档 \ No newline at end of file