大家都要爬虫能送一只玩吗?
刚好1M机多还是非北安那种。
送一只玩玩呗。 我也想要一只 :lol::tu::tu: 倒,不是这么玩的。
我先说一下分布式爬虫设计:
首先有个数据中心服务器, 这里有数据库,api, 和队列处理功能。
所有的爬虫设计:
通过数据中心的api 去拿队列任务。
然后个个爬虫要自已去写, 比如: 电商数据采集. 这个爬虫需要做采集电商需要的数据。然扣拿到数据,提交到数据中心的api队列中. 数据中心把这些处理好的数据入库。
大体是这样的。分布式采集.
刚高集一些的要加上“代理池”
网上的开源的采集器,到时有很多了,比如火车头。
但是免费的,好像要做的事还比效多的。
大多数需要自已写。我以前做过一个,主要采亚马逊的。亚马逊采集频率高的话会有验证码。
当时用了几百个代理池,用了十多个小鸡来采。
一天大体能处理三四千万的数据量。
没有通用的爬虫,需要自已学习了。
建议用python 来去做,比效好学习。
coffee 发表于 2020-6-20 18:02
倒,不是这么玩的。
我先说一下分布式爬虫设计:
首先有个数据中心服务器, 这里有数据库,api, 和队列处 ...
科普,受教 1m机器只能采集文字
http://count.z-z-z.xyz/11.png
页:
[1]