robots协定( 二 )


robots协定

文章插图
维基百科上描述的robots协定的最原始起源影响Robots协定是网站出于安全和隐私考虑,防止搜寻引擎抓取敏感信息而设定的 。搜寻引擎的原理是通过一种爬虫spider程式,自动蒐集网际网路上的网页并获取相关信息 。而鑒于网路安全与隐私的考虑,每个网站都会设定自己的Robots协定,来明示搜寻引擎,哪些内容是愿意和允许被搜寻引擎收录的,哪些则不允许 。搜寻引擎则会按照Robots协定给予的许可权进行抓取 。Robots协定代表了一种契约精神,网际网路企业只有遵守这一规则,才能保证网站及用户的隐私数据不被侵犯 。违背Robots协定将带来巨大安全隐忧——此前,曾经发生过这样一个真实的案例:国内某公司员工郭某给别人发了封求职的电子邮件,该Email存储在某邮件服务公司的伺服器上 。因为该网站没有设定robots协定,导致该Email被搜寻引擎抓取并被网民搜寻到,为郭某的工作生活带来极大困扰 。如今,在中国国内网际网路行业,正规的大型企业也都将Robots协定当做一项行业标準,国内使用Robots协定最典型的案例,就是淘宝网拒绝百度搜寻、京东拒绝一淘搜寻 。不过,绝大多数中小网站都需要依靠搜寻引擎来增加流量,因此通常并不排斥搜寻引擎,也很少使用Robots协定 。北京市汉卓律师事务所首席律师赵虎表示,Robots协定是维护网际网路世界隐私安全的重要规则 。如果这种规则被破坏,对整个行业就是灭顶之灾 。搜寻引擎百度对robots.txt是有反应的,但比较慢,在减少禁止目录抓取的同时也减少了正常目录的抓取 。原因应该是入口减少了,正常目录收录需要后面再慢慢增加 。Google对robots.txt反应很到位,禁止目录马上消失了,部分正常目录收录马上上升了 。/comment/目录收录也下降了,还是受到了一些老目标减少的影响 。搜狗抓取呈现普遍增加的均势,部分禁止目录收录下降了 。总结一下:Google似乎最懂站长的意思,百度等其它搜寻引擎只是被动的受入口数量影响了 。淘宝封杀2008年9月8日,淘宝网宣布封杀百度爬虫,百度忍痛遵守爬虫协定 。因为一旦破坏协定,用户的隐私和利益就无法得到保障,搜寻网站就谈不到人性关怀 。京东封杀2011年10月25日,京东商城正式将一淘网的搜寻爬虫禁止,以防止一淘网对其的内容抓取 。违反事例BE违规抓取eBay在12年前,美国加州北部的联邦地方法院就在着名的eBayVS. Bidder's Edge案中(NO.C-99-21200RMW,2000 U.S Dist. LEXI 7282),引用robots协定对案件进行裁定 。Bidder's Edge(简称BE)成立于1997年,是专门提供拍卖信息的聚合网站 。12年前,BE利用“蜘蛛”抓取来自eBay等各个大型拍卖网站的商品信息,放在自己的网站上供用户浏览,并获得可观的网站流量 。对于eBay来说,来自BE蜘蛛每天超过十万次的访问,给自己的伺服器带来了巨大的压力 。而虽然eBay早已设定了robots协定禁止BE蜘蛛的抓取,但BE却无视这个要求——原因很简单,据估算,BE网站69%的拍卖信息都来自eBay, 如果停止抓取eBay内容,这意味着BE将损失至少三分之一的用户 。数次沟通交涉未果后,2000年2月,忍无可忍的eBay终于一纸诉状,将BE告上联邦法庭,要求禁止BE的违规抓取行为 。3个月后,受理此案的美国联邦法官Ronald M. Whyte在经过多方调查取证后做出裁定,认定BE侵权成立,禁止了BE在未经eBay允许的情况下,通过任何自动查询程式、网路蜘蛛等设定抓取eBay的拍卖内容 。在当时的庭审中,双方争议的焦点主要集中在“网站是否有权设定robots协定禁止其他网站蜘蛛的抓取” 。被告BE认为,eBay的网站内容属于网民自创,因此是公共资源,eBay无权设立robots协定进行限制 。然而,法院对这一说辞却并不认同 。在法官看来:“eBay 的网站内容属于私有财产,eBay有权通过robots协定对其进行限制 。”违规抓取的行为无异于“对于动产的非法侵入” 。也正是出于这一判断,即使当年BE还只是搜寻了eBay计算机系统里的一小部分数据,其违反robots协定的抓取行为,仍然被判为侵犯了eBay将别人排除在其计算机系统以外的基本财产权 。作为美国历史上第一个保护网际网路信息内容的法律裁定,eBay与BE的这起纠纷,成为网路侵权案的标誌性案例,并在当时引发了美国网际网路产业乃至社会的广泛讨论 。SearchEngine Watch的知名专栏作家DannySullivan 曾专门在文章中指出,robots协定是规範搜寻引擎爬虫行为的极少数约定之一,理应遵守,它不仅仅让整个网际网路的开放性变成可能,最终也让整个网际网路用户受益 。360搜寻无视robots协定2012年8月,360综合搜寻被指违反robots协定: