基于AI的图像视觉处理技术

计算机视觉是一门研究如何使机器”看“的科学 , 作为一个学科 , 它试图建立能够从图像或多维数据中获取”信息“的人工智能系统 。
一、检测跟踪
?
1.MTCNN
【基于AI的图像视觉处理技术】MTCNN是比较经典快速的人脸检测技术 , 它可实现两个任务:人脸检测与人脸关键点检测 。这个过程由三个级联的轻量级CNN完成:PNet , RNet和Onet;图像数据先后经这三个网络的处理 , 最终输出人脸检测和关键点检测结果 。
技术思想及原理分析
本项目的一大技术亮点就是使用了级联卷积的思想 , 将复杂问题简单化 , 化整为零 , 逐一攻破 , 既减小了问题的难度、提高了模型训练效率 , 还为以后解决这一类问题提供了可参考的方法 。项目中的级联思想、图像金字塔、IOU、NMS、图像坐标缩放及坐标反算等技术在后续的目标检测中仍然能够看到它们的身影 。
应用场景及商业价值
本项目应用最为广泛的场景就是人脸检测 , 如果将本项目怒扩展 , 实际上是可以使用在任何单类多目标的检测项目上的 。比如交通车辆检测、工厂生产零部件检测、农业农作物检测、商场人流量检测等等 , 但凡是同类别的目标 , 都能够检测 。本项目的商业价值在于它的普适性 , 目标检测类项目的应用场景广泛 , 在AI行业实际落地应用最多 , 从而也使得其商业应用价值大大增加 。下图为MTCNN的测试效果展示 。
2.YOLO系列
“You Only Look Once”或“YOLO”是一个对象检测算法的名字 , 这是等人在2016年的一篇研究论文中命名的 。YOLO实现了自动驾驶汽车等前沿技术中使用的实时对象检测 。
技术思想及原理分析
YOLO的渊源应该从RCNN系列说起 , 比较早的多类别检测识别模型是RCNN系列 , 包含了RCNN、fast-RCNN以及-RCNN , 但是RCNN系列都是两阶段的 , 就是先检测、再分类 , 这样虽然说提高了检测分类精度 , 但是却降低了速度 , 所以才有了后来的YOLO系列 , YOLO系列使用了划分区域和设置建议框的方法 , 直接把检测和分类融合成了一个阶段 , 模型能够同时学习检测和分类 , 实现了真正的端到端的模式 , 使得模型大大减小 , 从而提高的模型使用效率 。虽然最早的YOLO子精度上并不能和RCNN系列比 , 但是在以后 , 无论是在精度上还是在效率上都已经超越了RCNN系列 。
YOLO将对象检测重新定义为一个回归问题 。它将单个卷积神经网络(CNN)应用于整个图像 , 将图像分成网格 , 并预测每个网格的类概率和边界框 。
应用场景及商业价值
本项目和MTCNN最大的区别就是MTCNN为单类目标检测项目 , 而YOLO则为多类目标检测项目 , 而且YOLO不但能够检测目标 , 还能同时识别出所检测目标的类别 , 也就是说YOLO是同时可以检测和识别目标的 , 而MTCNN只能检测目标而不能识别目标 , MTCNN要识别目标 , 则需要配上识别类模板 , 比如后面要介绍的 loss和arc loss等分类模型 。YOLO的应用场景包括了MTCNN的应用场景 , 除此之外 , YOLO还能够做多类别目标检测和识别 , 比如同时检测识别路上的车辆和人等 。
二、分类识别
1. loss
loss是一种损失函数 , 有效提高了人脸识别类别的辨识度 。它来自的一篇论文《Afor Deep Face 》 。