robots协定( 三 )


robots协定

文章插图
360甘冒行业道德风险 撕毁Robots自律协定2012年8月29日,上线不到十日即轻鬆登上国内第二大搜寻引擎宝座的奇虎360搜寻遭遇滑铁卢,在百度一项打击违规抓取和匿名访问的措施上线后,360搜寻通过山寨加绑架用户的模式被彻底揭穿,这个故事也正是对所谓“搜寻引擎技术无用论”的当头棒喝 。“360综合搜寻已超出Robots协定的‘底线’,不仅未经授权大量抓取百度、google内容,还记录国内知名网游的后台订单、优惠码等,甚至一些用户的电子信箱、帐号、密码也被360通过浏览器悄然记录在案” 。2012年8月28日业内一位有10年搜寻工程师经验的专业人士表示 。奇虎360搜寻8月16 日上线,已连续遭到业界“违规”的警告 。不仅UI设计,搜寻结果直接剽窃、篡改百度、google等搜寻引擎,还不顾国际通行的Robots协定,抓取百度、google等搜寻引擎的内容,很多商业网站和个人信息的私密内容也被抓取泄密 。据悉,这种匿名访问和违规抓取其他网站内容的行为,不仅严重违反了行业底线,也伤害到了用户的体验 。在国外,这种行为甚至会受到法律方面的制裁 。“这已经严重触碰了Robots协定的底线!这些让如百度这样踏踏实实做技术的公司进行反击行动,是必然的!”这位搜寻工程师告诉采访人员,所谓Robots协定,通俗的讲就是网站会通过robots.txt协定来自主控制是否愿意被搜寻引擎收录,或者指定搜寻引擎只收录指定的内容 。而搜寻引擎会按照每个网站主给与自己的许可权来进行抓取 。这就好比,一个正常的人去到别人家里,需要先敲门,得到许可以后才能进入客厅 。除非有主人的进一步许可和邀请,否则你不能擅自进入内室,或者在别人家里四处溜达 。当然,强盗或者小偷例外 。对于奇虎360综合搜寻被爆出无视国际通行的robots协定,抓取百度、Google等搜寻引擎内容,导致众多网站出于安全和隐私考虑不允许搜寻引擎抓取的区域网路信息被泄露一事,资深网际网路观察家洪波指出,做搜寻就要遵守搜寻行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争,这种行为不能从法律和政府监管上及时制止,将引发行业大乱 。百度并没有禁止所有爬虫抓取问答、知道和贴吧的内容,百度只是禁止了不规矩的、存在潜在安全风险的爬虫,这恰是保护市场秩序,保护用户隐私的合理举措 。2008年淘宝也曾禁止百度爬虫,而百度则严格遵守robots协定,停止抓取淘宝网内容,并没有以淘宝不正当竞争为藉口违反robots协定 。中国工程院院士高文:Robots协定是搜寻引擎在抓取网站信息时要遵守的一个规则,是国际网际网路界通行的道德规範 。网站主人通过Robots协定明示自动抓取程式,伺服器上什幺内容可以被抓取,什幺内容不可以被抓取 。这是保证网际网路行业健康发展的自律準则,儘管不是强制命令,但业界都应该遵守 。中国网际网路企业要想在国际舞台受到更多关注、得到更大的发展,没有理由不遵守这个游戏规则 。如果不遵守,不仅损害了违规企业自身的形象,也损害了中国网际网路行业的整体声誉,得不偿失 。浙江大学计算机学院院长庄越挺:网际网路网站页面,如同广阔农村中的一个菜园,各有其主 。一般而言,访客进去逛逛无可厚非,但是如果主人在边界立下界碑:未经允许不得入内,这就意味着主人的意愿成为外界是否获準入园参观的标準 。Robots协定就是这样一块界碑,它虽然不具法律效应,但是人们都普遍遵循 。未经允许入园就参观不仅违反了游戏规则,也有违道德标準 。同样的道理,违反Robots协定,等同于违背了搜寻引擎的行业规範,以这种方式获取资源是一种不道德的竞争 。哈尔滨工业大学教授刘挺:Robots协定是网际网路中网站为搜寻引擎所制定的内容抓取规则,体现了业界同行之间的相互信任 。如果不遵循Robots协定,将会破其业界信任,使得网站的内容不愿意被抓取的内容被搜寻引擎索引,最终伤害用户的利益 。而清华大学计算机系教授马少平则指出,如果不遵守Robots协定,肆意抓取网站的内容,网站的信息被任意泄漏,将对网际网路的良性发展产生巨大的破坏作用 。百度起诉360百度诉奇虎360违反“Robots协定”抓取、複製其网站内容侵权一案,2013年10月16日上午在北京市第一中级人民法院开庭审理 。百度方面认为,360搜寻在未获得百度公司允许的情况下,违反业内公认的Robots协定,抓取百度旗下百度知道、中文百科、百度贴吧等网站的内容,已经构成了不正当竞争,并向奇虎索赔1亿元 。百度公关部郭彪向媒体表示,Robots协定是网站信息和网民隐私保护的国际通行规範之一,理应得到全球网际网路公司的共同遵守 。不尊重Robots协定将可能导致网民隐私大规模泄露 。郭彪表示,更严重的是,奇虎360还利用360浏览器等客户端,强行抓取网民的浏览数据和信息到搜寻伺服器,完全无视Robots协定 。这一做法目前已经导致大量企业区域网路信息被泄露 。2012年年底,百度工程师通过一个名为“鬼节捉鬼”的测试,证明了360浏览器存在私自上传“孤岛页面”等隐私内容到360搜寻的行为 。360方面则认为,360搜寻索引这些内容页面并不涉嫌侵犯百度的权益,实际上还为百度带来了大量的用户和流量,百度应该感谢360 。