diff --git a/dataCollection.md b/dataCollection.md index b674d6c..3649bbc 100644 --- a/dataCollection.md +++ b/dataCollection.md @@ -94,23 +94,24 @@ ## 数据抓取 - 自动抓取
-有了网站的画像属性,就知道匹配那种采集抓取策略了,大部分网站就能自动抓取就自动识别抓取数据,无需人工干预。

+有了网站的画像属性,就知道匹配那种采集抓取策略了,大部分网站就能自动抓取就自动识别抓取数据,无需人工干预。
- 人工配置
有的网站抓取难度大,采用可视化技术将整个站点的标签提取出来给开发工程师,他们将可以快速的对网站的抓取进行配置。 我们在采集任何一个网站的时候将会有各种“探头”对网站的结构,广告位,关键性内容,导航栏,分页,列表,站点特性,站点数据量,抓取难易度,站点更新频率,等等。 +
-- 采集模板 +- 采集模板
为了简化人工操作,提高工作效率,我们还提供了爬虫模板。爬虫模板的意义在于,用户遇到一个配置繁琐的站点,不用从头开始,只需要到爬虫模板库里面找类似的模板即可,如图所示: ![输入图片说明](ProIMG/spider-factory-templeta.png) - +
## 数据暂存 - 暂存
如果把数据直接储存到系统大数据库里,一旦有大量采集的脏数据下来就是浪费时间和精力,所有数据都会预演储存一遍,储存完成后会有程序对此核对监测,以免数据字段漏存,错存。 - 预警
如果在暂存环节发现储存错误,将会及时通过邮件发送对研发工程师提醒,告知错误内容,让其对此修正。 -

+
## 低代码开发 @@ -124,9 +125,7 @@ 通过低代码的方式的开发,我们对爬虫的维护更加方便,只需要在web管理界面中,修改爬虫抓取配置即可,同时还可以在线调试,查看具体的抓取错误日志。否则某一个站点抓取出现问题,都不知道是哪台服务器上的哪个爬虫抓取错误。各种站点爬虫的量一旦大起来,维护成本极高。 ![输入图片说明](ProIMG/spider-work-err.png) - -

- +
## 分布式采集 - 控制器(master) @@ -154,6 +153,24 @@
+## 采集分类 + +##### 网站采集 +x + +##### app 采集 +x + +##### 公众号采集 +x + +##### 小程序采集 +x + +##### (短)视频采集 +x +
+ ## 采集日志 - 日志跟踪ID