This website works better with JavaScript.
Home
Issues
Pull Requests
Milestones
Repositories
Datasets
Forum
实训
竞赛
大数据
应用
Register
Sign In
hummingbird
/
yuqing
Not watched
Unwatch
Watch all
Watch but not notify
2
Star
0
Fork
0
Code
Releases
13
Wiki
Activity
Issues
0
Pull Requests
0
Datasets
Model
Cloudbrain
Browse Source
add dataProcessing.md.
tags/v1.0.1-224.11141
思通数科 StoneDT
Gitee
3 years ago
parent
2e91be257b
commit
6563afbb91
No known key found for this signature in database
GPG Key ID:
173E9B9CA92EEF8F
1 changed files
with
61 additions
and
0 deletions
Split View
Diff Options
Show Stats
Download Patch File
Download Diff File
+61
-0
dataProcessing.md
+ 61
- 0
dataProcessing.md
View File
@@ -0,0 +1,61 @@
# 开源舆情 数据处理部分技术架构设计
(待续,未完...)
## 简述
经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。
## 开源技术栈
(开源技术清单)
## 总体技术架构
(思维导图)
## 数据总线
## 数据去重
采用了redis集群
## 数据清洗
自动提取字段,标题、正文、时间、作者、来源 等。
## 数据标记
### 实体识别
HaNLP
### 情感分析
百度飞桨
### 高频词分词
- 自研算法
### 文本分类
### 相似文章
### 事件分类
自研算法
### 行业分类
自研算法
## 数据存储
分为多个部分存储,MySQL、redis、kafak、ES、mongodb、clickhouse
## 数据运维
### 数据清理
### 数据归档
Write
Preview
Loading…
Cancel
Save