SpeechGen:用Prompt解锁语音语言模型生成能力

出品 | CSDN(ID:)
引言与动机
大型语言模型 (LLMs)在人工智能生成内容(AIGC)方面引起了相当大的关注,特别是随着的出现 。
然而,如何用大型语言模型处理连续语音仍然是一个未解决的挑战,这一挑战阻碍了大型语言模型在语音生成方面的应用 。
因为语音信号包含丰富的信息,包括说话者和情感,超越了纯文本数据,基于语音的语言模型 (Model,LM)不断涌现 。
虽然与基于文本的语言模型相比,语音语言模型仍处于早期阶段,但由于语音数据中蕴含着比文本更丰富的信息,它们具备巨大的潜力,令人充满期待 。
研究人员们正积极探索提示 () 范式的潜力,以发挥预训练语言模型的能力 。这种提示通过微调少量参数,引导预训练语言模型做特定的下游任务 。这种技术因其高效和有效而在 NLP领域备受青睐 。在语音处理领域,展示出了在参数效率方面的显著改进,并在各种语音分类任务中取得了竞争性的表现 。
然而,提示能否帮助语音语言模型做生成任务仍是未解之谜 。在本文中,我们提出一个创新的统一框架,,旨在激发语音语言模型进行生成任务的潜力 。如下图所示,将一段语音、一个特定的提示()喂给LM 作为输入,LM就能做特定的任务 。比如将红色的当作输入,LM 就能做的任务 。
我们提出的框架有以下优点:
无文本 ():我们的框架以及其所依赖的语音语言模型独立于文字数据,拥有无可估量的价值 。毕竟,获取标记文本与语音配对的过程耗时繁琐,而且在某些语言中甚至无法找到合适的文本 。无需文字的特性使得我们的强大语音生成能力得以覆盖各种语言需求,让全人类受益匪浅 。
多功能性 ():我们开发的框架通用性极高,能应用于各种各样的语音生成任务 。文章中的实验使用语音翻译、语音修复、语音连续当作例子 。
【SpeechGen:用Prompt解锁语音语言模型生成能力】简易性 (Easy to ):我们提出的框架为各类语音生成任务提供了通用解决方案,让设计下游模型和损失函数变得轻而易举 。
可迁移性 ():我们的框架不仅容易适应未来更先进的语音语言模型,还蕴藏着巨大的潜力,让效率和效果得到进一步提升 。尤其令人振奋的是,随着先进语音语言模型即将问世,我们的框架将迎来更为强大的发展 。
经济性 ():我们的框架经过精心的设计,只需训练少量参数,而不是整个庞大的语言模型 。这极大地减轻了计算负担,并允许在GTX 2080 GPU上执行训练过程 。大学的实验室也能负担得起这样的运算开销 。
我们的研究方法在于构建一个全新的框架 ,该框架主要用于利用语音语言模型 (Model,LM)进行各种下游语音生成任务的微调 。在训练过程中,LMs的参数保持不变,我们的方法侧重于学习任务特定的提示()向量 。LMs通过同时对提示向量和输入单元进行条件设置,有效地生成特定语音生成任务所需的输出 。然后,这些离散单元输出被输入到基于单元的语音合成器中,生成对应的波形 。
我们的框架由三个元素组成:语音编码器、 LM 和语音解码器( ) 。首先,语音编码器将波形作为输入,并将其转换为由有限词汇表导出的单位序列 。为了缩短序列长度,会移除重复的连续单位以生成压缩的单位序列 。然后,LM 作为单位序列的语言模型,通过预测前一单位和单位序列的后续单位来优化可能性 。我们对LM 进行提示调整,以引导其根据任务生成适当的单位 。最后,LM生成的标记由语音解码器处理,将其转换回波形 。在我们的提示调整策略中,提示向量会在输入序列的开始处插入,这将引导LMs 在生成过程中的方向 。具体插入的提示数量,则取决于LMs 的架构 。在序列到序列的模型中,编码器输入和解码器输入都会加入提示,但在只有编码器或只有解码器的架构中,只会在输入序列前面添加一个提示 。