网络爬虫是什么意思网络爬虫( 二 ) _网络爬虫

希望能帮你解决问题。
有什么好的方法可以防止 *** 爬虫抓取数据？
要防止爬虫爬上你的网站，需要区分爬虫和正常用户的行为差异。从单个请求看不出来区别，因为前端所有的用户行为都可以被爬虫模拟出来。所以统计某个时间范围内单个IP的请求次数是很常见的。如果超过一定量，就被认为是爬行动物，被屏蔽。也许你有自己的压力测试程序，只需将它们添加到白名单中。当然，这并不能真正阻止爬行动物，因为道高一尺魔高一丈。据我所知，一个爬虫准备了200个手机和手机卡， 100个同时爬行。因为用的手机卡，你看到的IP基本不一样。爬了2分钟就断网了，断网手机卡IP基本都变了，所以基本都到了。对于不需要登录的页面，， agent ， jwt等。可以处理，所以必须加上其他因素，比如最近N个独立页面上同一IP的请求的平均间隔。如果用时不到一秒，可以确定不是自然人的要求，因为自然人没那么快。再比如，最近n次请求中对同一个IP没有合理的请求顺序，因为爬虫一般是取一个页面，然后按顺序请求链接，而自然人没有。这些规则看起来很复杂，需要根据自己的业务指定，然后异步判断，防止影响正常的请求速度。
这里只有一个想法，希望对你有帮助。
【网络爬虫是什么意思网络爬虫】以上内容就是为大家分享的 *** 爬虫（ *** 爬虫是什么意思）相关知识，希望对您有所帮助，如果还想搜索其他问题，请收藏本网站或点击搜索更多问题。

网络爬虫是什么意思 网络爬虫( 二 )

网络爬虫是什么意思网络爬虫( 二 )