还没有采集3篇,就会被封IP,这怎么采集?
本帖最后由 baihaideng 于 2022-1-3 17:17 编辑https://www.ddnx.com/xingzuo/采集设置为50000毫秒都会被封IP。。。。怎么破
还真是不好办,现在好多站都这样了 这个好像人家没有动态,只是生成了静态页面,但没有实时生成例表就是了 如果我采的话这样的站
我一般用穷举法。。。。
用python+scrapy 采集:
https://www.ddnx.com/fushi/%s.html
%s - >1到1000万能采到的全部入库 本帖最后由 baihaideng 于 2022-1-3 17:18 编辑
cntest521 发表于 2022-1-3 14:25
如果我采的话这样的站
我一般用穷举法。。。。
用python+scrapy 采集:
我也是这么做的,很多无效的403链接...无效的不入库,慢就慢一点,但是对方封IP,这怎么采? 用代理ip池 兔子ip,搜索,类似的 用代理ip池
页:
[1]