受到最近扩散模型在高质量的图像以及视频生成方面已经取得了快速 _音频

近日，国际语音及信号处理领域顶级会议在希腊成功举办。大会邀请了全球范围内各大研究机构、专家学者以及等谷歌、苹果华为、Meta AI、等知名企业近 4000 人共襄盛会，探讨技术、产业发展趋势，交流最新成果。
云从科技与上海交通大学联合研究团队的《基于扩散模型的音频驱动说话人生成》成功入选会议论文，并于大会进行现场宣讲，获得多方高度关注。
论文地址：
（on ,and）是语音、声学领域的顶级国际会议之一，学术会议上展示的研究成果，被认为代表着声学、语音领域的前沿水平与未来发展方向。
本次入选论文，围绕 “基于音频驱动的说话人视频生成” 这一视觉 - 音频的跨模态任务，将语音与视觉技术结合，提出的方法能够根据输入的语音片段技术，生成自然的头部动作，准确的唇部动作和高质量的面部表情说话视频。该项成果在多个数据集上，都取得了优于过去研究的表现。
此外，在实战场景中，随着现实生活中对于数字人引用的愈来愈广泛，实现用音频驱动的生成与输入音频同步的说话人脸视频的需求也越来越大。本项成果基于扩散模型的跨模态说话人生成技术，可以推广到广泛的应用场景，例如虚拟新闻广播，虚拟演讲和视频会议等等。
基于音频驱动的说话人视频生成任务（Audio-face Video ）：该任务是根据目标人物的一张照片和任意一段语音音频，生成与音频同步的目标人物说话的视频。由于其生成的说话人更自然、准确的唇形运动和保真度更高的头部姿态、面部表情，该任务广泛应用于如数字人、虚拟视频会议和人机交互等领域，作为视觉 - 音频的跨模态任务，基于音频驱动的说话人视频生成也受到了越来越多的关注。
为了构建音频信号到面部形变的映射，现有方法引入了中间人脸表征，包括 2D 关键点或者 3Dface model (3DMM) ，尽管这些方法在音频驱动的面部重演任务上取得了良好的视觉质量，但由于中间人脸表征造成的信息损失，可能会导致原始音频信号和学习到的人脸变形之间的语义不匹配。
此外基于 GAN 的方法训练不稳定，很容易陷入模型崩塌，往往它们只能生成具有固定分辨率的图像。针对以上问题， AD-Nerf 引入了神经辐射场，将音频信号直接输入动态辐射场的隐式函数，最后渲染得到逼真的合成视频。但是基于神经辐射场的方法计算量大导致训练耗时长，算力要求高。并且这些工作大多忽略了个性化的人脸属性，无法准确的将音频和唇部运动进行同步。因此本文的研究者们提出了本方法，通过借助去噪扩散模型来高效地优化人脸各部分个性化属性特征，进而合成高保真度的高清晰视频。
方法
该方法首先基于一个关键的直觉：唇部运动与语音信号高度相关，而个性化信息，如头部姿势和眨眼，与音频的关联较弱且因人而异。受到最近扩散模型在高质量的图像以及视频生成方面已经取得了快速进展的启发，因此研究者们基于扩散模型重新构造音频驱动面部重演的新框架，本方法来优化说话人脸视频的生成质量和真实度。