cooce 发表于 2020-6-20 09:46:13

大家都要爬虫能送一只玩吗?

刚好1M机多
还是非北安那种。
送一只玩玩呗。

ioio 发表于 2020-6-20 09:50:44

ralok 发表于 2020-6-20 10:54:58

我也想要一只

特产 发表于 2020-6-20 13:34:57

:lol::tu::tu:

嫂子,用力点 发表于 2020-6-20 15:06:56

coffee 发表于 2020-6-20 18:02:07

倒,不是这么玩的。
我先说一下分布式爬虫设计:
首先有个数据中心服务器, 这里有数据库,api, 和队列处理功能。
所有的爬虫设计:
通过数据中心的api 去拿队列任务。
然后个个爬虫要自已去写, 比如: 电商数据采集. 这个爬虫需要做采集电商需要的数据。然扣拿到数据,提交到数据中心的api队列中. 数据中心把这些处理好的数据入库。
大体是这样的。分布式采集.
刚高集一些的要加上“代理池”

网上的开源的采集器,到时有很多了,比如火车头。
但是免费的,好像要做的事还比效多的。

大多数需要自已写。我以前做过一个,主要采亚马逊的。亚马逊采集频率高的话会有验证码。
当时用了几百个代理池,用了十多个小鸡来采。
一天大体能处理三四千万的数据量。

没有通用的爬虫,需要自已学习了。
建议用python 来去做,比效好学习。

太傅 发表于 2020-6-22 08:35:22

coffee 发表于 2020-6-20 18:02
倒,不是这么玩的。
我先说一下分布式爬虫设计:
首先有个数据中心服务器, 这里有数据库,api, 和队列处 ...

科普,受教

蓝色梦想 发表于 2020-6-23 07:46:31

1m机器只能采集文字
http://count.z-z-z.xyz/11.png
页: [1]
查看完整版本: 大家都要爬虫能送一只玩吗?