update dataCollection.md.

3 years ago · c84578528d
--- a/dataCollection.md
+++ b/dataCollection.md
@@ -1,6 +1,35 @@
 ## 项目简述

 舆情系统中数据采集是一个关键部分，此部分核心技术虽然由爬虫技术框架构建，但抓取海量的互联网数据绝不是靠一两个爬虫程序能搞定，特别是抓取大量网站的情况下，每天有大量网站的状态和样式发生变化以后，爬虫程序能快速的反应和维护。一旦分布式的爬虫规模大了以后将会出现很多问题，都是种种技术挑战，会有很多门槛，例如：

 1.检测出你是爬虫，拉黑你IP(人家究竟是通过你的ua、行为特则还是别的检测出你是爬虫的?你怎么规避?)

 2人家给你返回脏数据，你怎么辨认?

 3对方被你爬死，你怎么设计调度规则?

 4要求你一天爬完10000w数据，你一台机器带宽有限，你如何用分布式的方式来提高效率?

 5数据爬回来，要不要清洗?对方的脏数据会不会把原有的数据弄脏?

 6对方的部分数据没有更新，这些未更新的你也要重新下载吗?怎么识别?怎么优化你的规则?

 7数据太多，一个数据库放不下，要不要分库?

 8对方数据是JavaScript渲染，那你怎么抓?要不要上PhantomJS?

 9对方返回的数据是加密的，你怎么解密?

 10对方有验证码，你怎么破解?

 11对方有个APP，你怎么去得到人家的数据接口?

 12数据爬回来，你怎么展示?怎么可视化?怎么利用?怎么发挥价值?

 13等等


 由此可见，在大规模采集互联网数据的时候，必须要构建一个完整的数据采集系统，否则，将会很多，很多，让你意想不到的问题发生。

 <br><br>
 ## 开源技术栈