baihaideng 发表于 2022-1-3 12:20:19

还没有采集3篇,就会被封IP,这怎么采集?

本帖最后由 baihaideng 于 2022-1-3 17:17 编辑

https://www.ddnx.com/xingzuo/采集设置为50000毫秒都会被封IP。。。。怎么破

拒绝游泳的羊 发表于 2022-1-3 12:41:48

还真是不好办,现在好多站都这样了

hl530 发表于 2022-1-3 13:13:49

这个好像人家没有动态,只是生成了静态页面,但没有实时生成例表就是了

cntest521 发表于 2022-1-3 14:25:43

如果我采的话这样的站
我一般用穷举法。。。。
用python+scrapy 采集:
https://www.ddnx.com/fushi/%s.html   
%s - >1到1000万能采到的全部入库

baihaideng 发表于 2022-1-3 15:17:43

本帖最后由 baihaideng 于 2022-1-3 17:18 编辑

cntest521 发表于 2022-1-3 14:25
如果我采的话这样的站
我一般用穷举法。。。。
用python+scrapy 采集:


我也是这么做的,很多无效的403链接...无效的不入库,慢就慢一点,但是对方封IP,这怎么采?

娃哈哈 发表于 2022-1-3 18:02:11

用代理ip池

eltonto 发表于 2022-1-3 18:45:55

兔子ip,搜索,类似的

飘云 发表于 2022-1-4 00:09:05

用代理ip池
页: [1]
查看完整版本: 还没有采集3篇,就会被封IP,这怎么采集?