Browse Source

add dataProcessing.md.

tags/v1.0.1-224.11141
思通数科 StoneDT Gitee 3 years ago
parent
commit
6563afbb91
No known key found for this signature in database GPG Key ID: 173E9B9CA92EEF8F
1 changed files with 61 additions and 0 deletions
  1. +61
    -0
      dataProcessing.md

+ 61
- 0
dataProcessing.md View File

@@ -0,0 +1,61 @@
# 开源舆情 数据处理部分技术架构设计
(待续,未完...)
## 简述
经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。
## 开源技术栈
(开源技术清单)
## 总体技术架构
(思维导图)
## 数据总线
## 数据去重
采用了redis集群
## 数据清洗
自动提取字段,标题、正文、时间、作者、来源 等。
## 数据标记
### 实体识别
HaNLP
### 情感分析
百度飞桨
### 高频词分词
- 自研算法
### 文本分类
### 相似文章
### 事件分类
自研算法
### 行业分类
自研算法
## 数据存储
分为多个部分存储,MySQL、redis、kafak、ES、mongodb、clickhouse
## 数据运维
### 数据清理
### 数据归档

Loading…
Cancel
Save