深入解读tts涵义 tts是什么意思( 二 )


2)目前业内各家公司的产品效果都差不多,基本都已经商业化了 。
2、个性化 TTS
1)在用户期望不严的场景下,“基本”可以满足商业需求,但效果不如一般的TTS 。但如果用户的期望值很高,暂时还不能满足 。
2)目前,科大讯飞是业内可以成熟和商业化的,在这个领域也有一些初创公司,比如HEARD,一家致力于海量内容音频的公司,声音产生并存储在不同的类别中,他们所针对的企业级需求将更加个性化和品牌化,例如阿里巴巴的“动物园”品牌(如天猫、闲鱼、盒马、菜鸟等)、有特色的 TTS 等因为“小猪佩奇”将被生成并商业化 。
3、情感 TTS
1)目前行业内的情感合成比较多,因为数据本身越来越有节奏感,超越了传统的播出方式,但并不是真正意义上的情感合成,比如“情感、忧愁忧愁”(这种想快乐就快乐的智慧) 。
2)在情感TTS的理论方面,学术界有储备,但目前整个行业做的不多(或做得不好),因为情感TTS严重依赖“情感意图识别” ”、“情感特征挖掘”、“情感数据”和“情感声学技术”是系统工程 。第一点与自然语言处理有关,比如需要知道“什么时候该高兴或悲伤”;同时,带有情感解释的语音数据的储备也很重要 。
三、瓶颈和机遇
瓶颈主要有5个方向(也有机会) 。
1、基础技术
1)TTS 技术正在发生重大变化:
End-to-End TTS建模方式,加上声码器的思想,是TTS未来的发展方向 。
端到端TTS一般是指提出的将原有时长模型和声学模型相结合的中段结构,可以连接到任何TTS前端和TTS后端 。TTS的前端,如中文分词、拼音、词性等,将提高性能;后端,参数,拼接,可选 。
关于技术的商业化:
第二代技术于今年早些时候商业化,比第一代快 10,000 倍 。而且国内公司基本都在抄袭(论文算法),但是工程化还需要时间,成本还是太高,短期内应该不会商用 。
关于效果:
TTS最终效果好坏,技术占比不到50% 。在技??术相似的情况下,音质和数据量是最重要的,其次是相同部署规模和成本的TTS可以相互比较,也就是说,不简单哪个公司的效果比另一个好,a) 比如百度/腾讯/阿里巴巴/图灵等很多AI公司的v1的效果一般可以超过讯飞在线的接口,但是部署成本高出几万倍,而且不真实——时间; V2商业化后,虽然可以实时,但部署成本至少比高端拼接TTS高10倍左右 。b) 成本部分与采样率有关 。例如科大讯飞/百度TTS的采样率为16k 。如果使用24k和48k,主观体验至少要强50%,但成本会翻倍;也就是其他AI公司最好的MOS可以击败科大讯飞/百度的API,但不能说他们的技术比科大讯飞/百度强,因为在商业化的时候,会牺牲效果来降低成本 。
2)如何让离线版和在线版一样有效 。
许多客户希望(希望)有一个与在线版本一样有效的离线版本......在这个阶段,这可能是不可能的 。
2、缺少数据
一方面,个性化 TTS 尤其需要大量数据 。比如默认男声,改成女声比较难 。
另一方面,数据获取(生产)的成本和周期也是前期竞争的重点 。例如,一般来说,一个(组)TTS数据需要先记录至少20000到30000个句子 。然后,加上数据标注,一般需要3个月以上的时间(并且需要主播的全力配合) 。30小时的数据,价格通常在30万-50万,上面提到的微分贝(HEARD)就是这家公司调动了8000+优质播主 。在配音不同内容的同时,也存储了大量的结构化数据(备货),这样对于大部分客户的数据需求,就不需要找主播了 。对于记录,可以直接从仓库中调取数据进行解冻(数据标注);通过规范“做生意,赚数据”的流程,数据获取成本大幅降低至行业One的五分之一,有需求1个月内交付 。这家公司在南方建的数据标注工厂规模也很大,包括华为在内的公司都从那里采购语音合成数据 。