Hadoop十大应用领域--从互联网行业到传统行业( 三 )


eBay是全球最大的拍卖网站,8千万名用户每天产生的数据量就达到50TB,相当于五天就增加了1座美国国会图书馆的数据量 。这些数据报括了结构化的数据,和非结构化的数据如照片、影片、电子邮件、用户的网站浏览Log记录等 。eBay正是用来解决同时要分析大量结构化数据和非结构化的难题 。
eBay分析平台高级总监 也坦言,数据分析最大的挑战就是要同时处理结构化以及非结构化的数据 。
eBay在5年多前就另外建置了一个软硬件整合的平台,搭配压缩技术来解决结构化数据和半结构化数据的分析问题,3年前更在这个平台整合了来处理非结构化数据,透过来进行数据预先处理,将大块结构的非结构化数据拆解成小型数据,再放入数据仓储系统的数据模型中分析,来加快分析速度,也减轻对数据仓储系统的分析负载 。
应用案例3-全球最大信用卡公司Visa
Visa快速发现可疑交易,1个月分析时间缩短成13分钟
Visa公司则是拥有一个全球最大的付费网络系统,作为信用卡付款验证之用 。2009年时,每天就要处理1.3亿次授权交易和140万台ATM的联机存取 。为了降低信用卡各种诈骗、盗领事件的损失,Visa公司得分析每一笔事务数据,来找出可疑的交易 。虽然每笔交易的数据记录只有短短200位,但每天要处理全球上亿笔交易,2年累积的资料多达36TB,过去光是要分析5亿个用户账号之间的关联,得等1个月才能得到结果,所以,Visa也在2009年时导入了,建置了2套丛集(每套不到50个节点),让分析时间从1个月缩短到13分钟,更快速地找出了可疑交易,也能更快对银行提出预警,甚至能及时阻止诈骗交易 。
这套被众多企业赖以解决大数据难题的分布式计算技术,并不是一项全新的技术,早在2006年就出现了,而且的核心技术原理,更是源自打造搜索引擎的关键技术,后来由Yahoo支持的开源开发团队发展成一套分布式计算平台,也成为Yahoo内部打造搜索引擎的关键技术 。