基于AI和NPU的Codec变革——VPU与NPU的协同创新

编者按：在这个快速变化的数字媒体时代，Codec技术在视频和音频处理中扮演着至关重要的角色。AI的崛起为Codec带来了前所未有的机遇和挑战，同时VPU与NPU的发展与协同创新，使得Codec能够更好地适应复杂的场景和需求，并实现更高水平的图像和声音处理能力。2北京站邀请到了中心微电子多媒体技术总监的孔德辉老师，从多个角度探讨AI和NPU对Codec的影响，包括算法优化、性能提升、能效改进等方面。深入了解基于AI和NPU的Codec变革的关键因素和潜在机会，进一步推动数字媒体领域的创新和发展。
文/孔德辉
整理/
大家好，我是来自中兴微电子的多媒体技术总监孔德辉，今天和大家分享的主题是AI和NPU的Codec的变革-VPU与NPU的协同创新。
目前，人们普遍认为AI对于Codec有一个比较强的冲击。但在底层思维的角度看，这个变化改变了工作方式的同时，也局部地替代或降低了一些无效劳动。降低无效劳动后，人们可以更多地关注机器不善于但人善于的东西。正如《三体》中所描述的“三体人最不了解的是人的思维”，人的创造性是目前甚至在未来的一段时间内，机器都可能不具备的东西。
今天分享的主要，主要包括以下四个方面展开：
第一部分，总体的介绍；
第二部分，AI和Codec的趋势；
第三部分，NPU与VPU的形态；
第四部分，NPU与VPU的融合探讨。
-01-
总体介绍
多媒体技术的发展历程中，从最初的有线无线通讯容量，到2G、3G、4G，再到现在的5G，变化是显而易见的。在这个过程中，人们会发现3G时代经历时间短，而4G则持续时间长。这是因为4G能够更充分地容纳对于生活体验或生活方式的需求。其中最重要的一点是可以更便捷地接入音视频数据和信息，包括现在的短视频。正是因为有了更大更宽的数据通路，能够将我们想呈现的内容传输到用户侧。
在3G和4G出现之前，包括在G出现之前，Codec技术一直存在，压缩能力也并不是到4G之后才有突飞猛进的。恰恰是因为现在随着做管道的能力变宽后，可容纳更多的数据，这是从“不能”到“能”的过程。
现在有了AI技术，更希望它能够发挥出更好的作用，加速从“不能”到“能”的变化过程。以前需要1万人干一年的工作，现在有了10万人，只需要半年就可以完成。这种技术的冲击加速了中国市场的发展。在5G时代，有些人可能会感到疑惑“为什么没有感受到5G带来的翻天覆地的变化?” 。其实，需要的是找到或者说转变用户的需求，从以前的“不能”或者受限到现在的“能” 。以前大家认为WiFi是很重要的东西，但现在已经不再关心饭店是否有WiFi，因为手机已经可以通过室内小基站实现对应的诉求。
下一步，需要确保用户看到的内容是否符合他们的需求，比如在延迟和画质量方面如何满足用户的诉求？除了娱乐生活中的短视频，在工作中是否也和视频息息相关？早些年，出现了多媒体技术，但却没有相对应的产品，因为多媒体技术已经融入到了云或端的用户体验当中，不需要专门的技术。如果想要将“能”变得“更好”，需要逐步实现音视频技术的智能化。
智能化的方向不仅仅是生活和娱乐，还包括交通、政务服务、出行、健康等领域。这些数据往往需要通过视频作为媒介进行传输，而不是单纯的文字，例如企业的数字服务等。“我们是看到的每一本书其实都是对人思想的一个裁剪”，所以视频记录的意义在于记录人与信息所有者面对面交流的过程，因此视频业务不仅仅是娱乐活动，还包括很多其他领域，之后也有很多机会去拓展这些领域。