深入解读tts涵义 tts是什么意思( 二 ) _tts

2）目前业内各家公司的产品效果都差不多，基本都已经商业化了。
2、个性化 TTS
1）在用户期望不严的场景下，“基本”可以满足商业需求，但效果不如一般的TTS 。但如果用户的期望值很高，暂时还不能满足。
2）目前，科大讯飞是业内可以成熟和商业化的，在这个领域也有一些初创公司，比如HEARD，一家致力于海量内容音频的公司，声音产生并存储在不同的类别中，他们所针对的企业级需求将更加个性化和品牌化，例如阿里巴巴的“动物园”品牌（如天猫、闲鱼、盒马、菜鸟等）、有特色的 TTS 等因为“小猪佩奇”将被生成并商业化。
3、情感 TTS
1）目前行业内的情感合成比较多，因为数据本身越来越有节奏感，超越了传统的播出方式，但并不是真正意义上的情感合成，比如“情感、忧愁忧愁”（这种想快乐就快乐的智慧）。
2）在情感TTS的理论方面，学术界有储备，但目前整个行业做的不多（或做得不好），因为情感TTS严重依赖“情感意图识别” ”、“情感特征挖掘”、“情感数据”和“情感声学技术”是系统工程。第一点与自然语言处理有关，比如需要知道“什么时候该高兴或悲伤”；同时，带有情感解释的语音数据的储备也很重要。
三、瓶颈和机遇
瓶颈主要有5个方向（也有机会）。
1、基础技术
1）TTS 技术正在发生重大变化：
End-to-End TTS建模方式，加上声码器的思想，是TTS未来的发展方向。
端到端TTS一般是指提出的将原有时长模型和声学模型相结合的中段结构，可以连接到任何TTS前端和TTS后端。TTS的前端，如中文分词、拼音、词性等，将提高性能；后端，参数，拼接，可选。
关于技术的商业化：
第二代技术于今年早些时候商业化，比第一代快 10,000 倍。而且国内公司基本都在抄袭（论文算法），但是工程化还需要时间，成本还是太高，短期内应该不会商用。
关于效果：
TTS最终效果好坏，技术占比不到50% 。在技??术相似的情况下，音质和数据量是最重要的，其次是相同部署规模和成本的TTS可以相互比较，也就是说，不简单哪个公司的效果比另一个好，a) 比如百度/腾讯/阿里巴巴/图灵等很多AI公司的v1的效果一般可以超过讯飞在线的接口，但是部署成本高出几万倍，而且不真实——时间; V2商业化后，虽然可以实时，但部署成本至少比高端拼接TTS高10倍左右。b) 成本部分与采样率有关。例如科大讯飞/百度TTS的采样率为16k 。如果使用24k和48k，主观体验至少要强50%，但成本会翻倍；也就是其他AI公司最好的MOS可以击败科大讯飞/百度的API，但不能说他们的技术比科大讯飞/百度强，因为在商业化的时候，会牺牲效果来降低成本。
2）如何让离线版和在线版一样有效。
许多客户希望（希望）有一个与在线版本一样有效的离线版本......在这个阶段，这可能是不可能的。
2、缺少数据
一方面，个性化 TTS 尤其需要大量数据。比如默认男声，改成女声比较难。
另一方面，数据获取（生产）的成本和周期也是前期竞争的重点。例如，一般来说，一个（组）TTS数据需要先记录至少20000到30000个句子。然后，加上数据标注，一般需要3个月以上的时间（并且需要主播的全力配合）。30小时的数据，价格通常在30万-50万，上面提到的微分贝（HEARD）就是这家公司调动了8000+优质播主。在配音不同内容的同时，也存储了大量的结构化数据（备货），这样对于大部分客户的数据需求，就不需要找主播了。对于记录，可以直接从仓库中调取数据进行解冻（数据标注）；通过规范“做生意，赚数据”的流程，数据获取成本大幅降低至行业One的五分之一，有需求1个月内交付。这家公司在南方建的数据标注工厂规模也很大，包括华为在内的公司都从那里采购语音合成数据。