网络爬虫是什么意思 网络爬虫( 二 )


希望能帮你解决问题 。
有什么好的方法可以防止 *** 爬虫抓取数据?
要防止爬虫爬上你的网站 , 需要区分爬虫和正常用户的行为差异 。从单个请求看不出来区别 , 因为前端所有的用户行为都可以被爬虫模拟出来 。所以统计某个时间范围内单个IP的请求次数是很常见的 。如果超过一定量 , 就被认为是爬行动物 , 被屏蔽 。也许你有自己的压力测试程序 , 只需将它们添加到白名单中 。当然 , 这并不能真正阻止爬行动物 , 因为道高一尺魔高一丈 。据我所知 , 一个爬虫准备了200个手机和手机卡 , 100个同时爬行 。因为用的手机卡 , 你看到的IP基本不一样 。爬了2分钟就断网了 , 断网手机卡IP基本都变了 , 所以基本都到了 。对于不需要登录的页面 ,  , agent , jwt等 。可以处理 , 所以必须加上其他因素 , 比如最近N个独立页面上同一IP的请求的平均间隔 。如果用时不到一秒 , 可以确定不是自然人的要求 , 因为自然人没那么快 。再比如 , 最近n次请求中对同一个IP没有合理的请求顺序 , 因为爬虫一般是取一个页面 , 然后按顺序请求链接 , 而自然人没有 。这些规则看起来很复杂 , 需要根据自己的业务指定 , 然后异步判断 , 防止影响正常的请求速度 。
这里只有一个想法 , 希望对你有帮助 。
【网络爬虫是什么意思网络爬虫】以上内容就是为大家分享的 *** 爬虫( *** 爬虫是什么意思)相关知识 , 希望对您有所帮助 , 如果还想搜索其他问题 , 请收藏本网站或点击搜索更多问题 。