From a1507773bfa6ab43ac9d58539676f54f5850b5e6 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E6=80=9D=E9=80=9A=E6=95=B0=E7=A7=91=20StoneDT?= <13913853100@163.com> Date: Mon, 21 Feb 2022 03:10:43 +0000 Subject: [PATCH] =?UTF-8?q?=E6=9B=B4=E6=96=B0=E4=BA=86=E5=88=86=E5=B8=83?= =?UTF-8?q?=E5=BC=8F=E9=87=87=E9=9B=86=E5=92=8C=E9=A1=B9=E7=9B=AE=E7=AE=80?= =?UTF-8?q?=E8=BF=B0=E3=80=82?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- dataCollection.md | 11 +++++++++-- 1 file changed, 9 insertions(+), 2 deletions(-) diff --git a/dataCollection.md b/dataCollection.md index 846db84..26ee5d3 100644 --- a/dataCollection.md +++ b/dataCollection.md @@ -29,7 +29,7 @@ 13等等 -由此可见,在大规模采集互联网数据的时候,必须要构建一个完整的数据采集系统,否则,将会很多,很多,让你意想不到的问题发生。 +由此可见,在大规模采集互联网数据的时候,必须要构建一个完整的数据采集系统,否则,你的项目开发效率和数据采集效率会很低下,同时,还会很多让你意想不到的问题发生。

## 开源技术栈 @@ -121,10 +121,17 @@ ## 分布式采集 - 控制器(master) + 爬虫工厂有一个web控制管理后台,开发者可以在上面添加需要采集的任务计划和数据采集抓取的规则策略,控制器只对采集任务下发抓取指令,不做任何抓取操作。 + - 分发器(dispatch) + 控制器(master)通过rabbitMQ消息将抓取的任务下发给任何一台执行端, 消息中包含抓取的策略指令及采集目标,分发器只管发送指令和策略。 + - 执行器 (downloader) - + + 执行端可以部署在全世界任何一台能连接互联网的机器上,只要这台机器能上网,能接受分发器下发的采集任务 就能把数据采集下来,同时把采集的数据回传给中央数据仓库。 + +
## 爬虫管理