CV未来,路在何方?李飞飞指路( 二 )


一个主要原因是过去的模型倾向于使用手工设计的模板来捕捉图像中的特征,模型缺乏大规模图像数据的输入,无法应付物体的多样性 。
这意味着,我们需要一个全新的数据集来实现三个设计目标:大规模、多样性和高质量 。
首先是规模,心理学家假设,类似人类的感知需要接触上千种不同的物体 。当幼儿开始学习时,他每天的生活已经开始接触大量的图像 。例如,六岁的孩子大概已经看过了三千个不同的物体,并且学到了足够多的特征来帮助区分三万多个类别 。
而当时,最常用的物体识别数据集只包含20种物体,所以扩展数据集很重要,我们从互联网搜集了1500万张图像,并将其标注出对应的物体类别 。
参照,李飞飞将新的数据集命名为
第二是多样性 。从互联网上搜集的图像涵盖了许多类别,光鸟类就有八百多种,总共包括21841个类别来组织这上千万张图像 。为了让训练后的模型更鲁棒,中的数据包含了各种场景下的图像,例如「厨房中的德国牧羊犬」等,并且还给类别标注了上下位词,如哈士奇包括「阿拉斯加哈士奇」和「重毛北极雪橇犬」
第三点是质量 。为了创造一个可以复制人类视力敏锐度的金标准数据集,只接收高分辨率的图像 。为了让标签的准确率更高,研究团队请普林斯顿大学的本科生来标记并验证这些标签,后来使用了亚马逊的众包平台,最终在2007年至2009年间迅速从167个国家和地区雇佣了大约5万名标注人员来标记和验证数据集中的物体 。
有了数据,如何让它发挥作用成了关键 。
团队一致认为:免费开放给任何感兴趣的研究人员,还设立了年度竞赛来激励相关模型的开发 。
转折点出现在2012年,横空出世,首次将卷积神经网络应用于物体识别,并且准确率碾压第二名参赛者 。
虽然此前神经网络已经研究了几十年,但正是让神经网络发挥了其本来的威力 。
一年之内,几乎所有的AI论文都是关于神经网络了 。随着更多人参与研究,物体识别的准确率也越来越高 。
2017年,挑战赛完结 。八年来,参赛选手将算法正确识别率从71.8%提升到97.3%,这样的精度甚至已经超越了我们人类自己(95%) 。
学会识别物体只是学习「看」的一种形式,计算机视觉领域还有更多的任务,如目标检测等,但它们之间都存在着某些相似之处,这也意味着经验可以用来参考借鉴 。
从理论上来讲,计算机应该可以利用到这些相似之处,这一过程也称之为「迁移学习」
人类非常擅长迁移学习,并且迁移学习对AI也有极大的帮助,目前帮助计算机进行迁移学习的方法就是预训练,起点就是用数据集学习物体识别 。
但这并不是说对所有计算机视觉都有用 。
一个例子是医学成像 。在概念上讲,对医学图像(如筛查肿瘤)进行分类的任务与识别手机拍摄的图像没有本质区别,都需要视觉图像和类别标签,也可以经过适当训练的模型来判断 。
但数据集并不能用来筛查肿瘤,因为里面根本没有这个任务的相关数据 。更重要的是,使用众包平台也基本不可行,标注医疗诊断相关的数据需要非常高的专业知识,稀缺且昂贵 。
计算机视觉当然也有其他应用场景,例如分析卫星图像来帮助政府评估作物产量,水位、森林砍伐和野火的变化,并跟踪气候变化 。
的使用也带来一个问题,人们过于关注大规模数据,而忽视了单一数据的影响 。例如某些「对抗样例」通过修改单个像素,就可以让模型错误地分类图像,目前有研究人员也在致力于研究如何抵御攻击 。