网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
04月12日
漏签
0
天
太阳http吧
关注:
46
贴子:
230
看贴
图片
吧主推荐
游戏
1
回复贴,共
1
页
<返回太阳http吧
>0< 加载中...
爬虫是怎样处理ip不足的问题的?
取消只看楼主
收藏
回复
小柠檬与老柠檬
高级粉丝
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
在爬虫工作过程中,时常会被目标网站禁止访问,但又找不到缘故,这是让人十分郁闷的事情。通常情况下,目标网站的反爬虫策略全是依靠IP来标识爬虫的,许多情况下,我们访问网站的IP地址会被记录,当服务器指出这个IP是爬虫,那么便会限制或是禁止此IP访问。被限制IP最普遍的一个缘故是抓取频率过快,超出了目标网站所设置的阈值,将会被服务器禁止访问。因此,许多爬虫工作者会选择运用代理IP来辅助爬虫工作的正常的运行。
送TA礼物
1楼
2020-07-15 15:49
回复
小柠檬与老柠檬
高级粉丝
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
但有时迫不得已面对这样一个问题,代理IP不够用,该怎么办?有人说,不足用就去买呀。这里有两个问题,一是成本问题,二是高效代理IP并不是随处都有。
一般 ,爬虫工程师会采取这样两个手段来处理问题:
一、放慢抓取速度,降低IP或是其他资源的消耗,但这样会降低单位时间的抓取量,有可能会影响到任务是否能按时完成。
二、优化爬虫程序,减少一些不必要的程序,提供程序的工作效率,降低对IP或是其余资源的消耗,这就需要资深爬虫工程师了。如果说这两个办法都已经做到极致了,依然难以解决问题,那么只有加大投入继续购买高效的代理IP来保障爬虫工作的高效、持续、稳定的进行。
2楼
2020-07-15 15:49
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
中美关税升级谁先扛不住
2145210
2
奉陪到底!对美关税超级加倍
1860089
3
北京大风到哪了
1576008
4
争议太大!nikke庆余年联动取消
1473876
5
TES被iG狠狠抽陀螺
1050270
6
甲亢哥人在蒙古心在中国
917450
7
毒贩改行向老美走私鸡蛋
646632
8
张维为对关税形势早有预判
608143
9
小米回应SU7撞电动车后焚毁
342048
10
欧盟要给中国电动车开绿灯了吗
261800
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示