CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒( 三 )


本质上,旷视希望通过挑战赛的形式,由数据层面出发推动算法性能,拉高技术的上限达到实际产品需要的水准 。俞刚负责此次挑战赛的筹备,他告诉机器之心,此次挑战赛总共有 300 多个队伍报名注册,有 70 多个队伍给出了实验结果 。参赛的前几名选手的结果比旷视内部的基准都高了很多,这给旷视带来了许多创新思路 。

CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒

文章插图
DIW现场
夜摄 Demo 展示:底层架构加快产品转化
自 2016 年起,CVPR 专门辟出一块区域用作工业展区,允许科技公司展示技术产品,增加和学界的交流 。旷视今年带来了 4 个 demo:动作控制街头霸王对打、单摄视频虚化、夜摄超画质以及 SLAM 机器人 。
夜摄超画质的 demo 位于旷视 CVPR 展台的一角,有一个用纸箱搭建的暗光环境,纸箱内摆放了各种玩偶作为拍摄对象 。用来测试的机型是刚刚搭载旷视夜摄技术的 Oppo Reno 10 。
CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒

文章插图
旷视超画质样张展示(右),遇到有多点灯光等人工照明的城市风光场景时,旷视超画质技术都能给用户带来非凡的夜拍体验
经过测试,机器之心采访人员发现该 demo 体现了两个特点:一是拍照速度快,和传统夜摄功能要求握住手机拍摄几秒不同,Oppo Reno 10 的夜摄拍照和平时拍照的速度差异不大;二是图像细节逼真,因为纸箱里有毛线团,在暗光环境里手机依然能清晰地呈现出一根根毛线的细节 。
目前,高端手机在正常光线下拍照下的成像差距不大,只有在极端情况才能体现差异,比如夜摄 。去年谷歌发布的 Pixel 3 和今年华为发布的 P30 都依靠优秀的夜摄能力收获了一票用户 。
但旷视的视觉专家王珏告诉机器之心,谷歌和华为背后所使用的图像降噪方法依然有缺点 。传统的图像降噪是用多帧降噪来弥补夜间进光量不足的问题,归根结底是图像噪声和信号比太高,通过照片叠加可以增强信号去掉噪声,但弊端是需要拍多张并且保持手机不动,这需要用户等上 3-4 秒的时间 。手一抖就容易在照片出现拖影,也就是摄影界俗称的「鬼影」 。
王珏团队想到了针对原始图像的神经网络方法 。这条路过去几乎没有人走过,不仅仅是由于学界对原始图像的图像降噪还处于早期阶段,体量巨大的神经网络模型如何在手机端上快速运行是另一大挑战 。
一个看似简单的手机夜摄业务,中间有许多不为人知的细节打磨 。这个过程,既有研究思路上的创新:比如旷视研究员从上世纪 70、80 年代的一些经典论文中研究了噪声的统计规律和模拟的方法,研究了成像模式以后,数据生成的流程就被极大地简化 。
同时,也依赖于旷视内部多年来的技术积累 。王珏透露,公司内部有一个 Model Zoo 的「武器库」,这个平台存储了许多模型,基于不同的平台、功耗要求、运算速度 。研究团队基于自身业务的需求,只要从 Model Zoo 中挑选几十个模型架构加以微调,就可以极大地加快开发速度 。最终模型的大小只有 2.5G,整个拍照曝光时间控制在 300 毫秒左右 。
项目落地之余,王珏也带领团队「顺便」参加了 CVPR 的去噪挑战赛—NTIRE 2019 Real Image- Track 1: Raw-RGB,获得了冠军 。团队在研讨会上分享完技术细节后,台下的来自谷歌和三星的研究员都对旷视如何能将模型做到这么小、在终端跑地那么快表示好奇 。
CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒

文章插图
王珏透露,这里面有旷视的底层系统化人工智能框架「旷视 Brain++」和人工智能数据管理平台「旷视 Data++」的功劳 。旷视从 2014 年开始就在开发 Brain++,在还未出世、Caffe 和等机器学习框架不适用自身业务的年代,旷视希望通过「旷视 Brain++」打造一套端到端的算法引擎,打通从数据到部署的算法全要素、全流程生产 。王珏说,他们的模型一旦训练完之后,Brain++ 可以做到一键打包在手机上封装,实现终端优化和加速 。