From 6ea9e42066839be0b220a55d7095e2989703e613 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E6=80=9D=E9=80=9A=E6=95=B0=E7=A7=91=20StoneDT?= <13913853100@163.com> Date: Sat, 19 Feb 2022 15:50:56 +0000 Subject: [PATCH] update dataProcessing.md. --- dataProcessing.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/dataProcessing.md b/dataProcessing.md index ce4d705..d5f4fbd 100644 --- a/dataProcessing.md +++ b/dataProcessing.md @@ -69,21 +69,27 @@ 分为多个部分存储,MySQL、redis、kafak、Elasticsearch、MongoDB、clickhouse。 - MySQL + 在系统中储存两部分相关的信息内容,系统配置和临时脏数据储存。 - redis + 在系统中除了作为系统缓存,还作为站点数据采集的index索引库。 - kafak + 由于数据处理的过程比较多,而且数据量很大,因此采用分布式以及异步的方式对海量数据加工处理。 - Elasticsearch + 储存加工好的数据,以及打上各种标签的数据,储存在分布式搜索中,这样便于用户对数据的检索。 - MongoDB + 带样式的文章正文原始网页储存在MongoDB中。 - Clickhouse + 将每篇文章指纹及海明距离储存在clickhouse中,以便于对相似度和文章主题聚类的计算。