深入解读tts涵义 tts是什么意思( 三 )


3、人才不足
TTS不仅比不上NLP、CV等流行的AI人才,即使和同样不受欢迎的ASR相比,TTS的人才也少 。
4、制作难度
由于技术限制,现阶段不可能有非常完美的TTS效果,所以
1)尽量选择用户期望不苛刻的场景,或者在设计产品体验的时候把用户期望管理好(比如打车软件,郭德纲/林志玲的配音,差不多就够了) 。
2)选择“参数法”还是“拼接法”,与公司的技术储备、成本、产品目标有关 。
在垂直领域,现有的TTS技术(参数或拼接)可以为产品做好 。目前,该行业还没有取得很好的成绩 。主要原因是产品经理没有深入参与,还有很多细节要踩(产品设计+工程实现)——未来应该会有惊艳的产品 。
3)体验细节设计,与一般互联网产品有很大不同,比如
A) 文案设计很重要;因为在语音交互场景中,不宜过长,用户没有耐心和时间去听 。
B) 可以添加背景音乐来掩盖噪音等细节 。
C) 对于特殊场景,也有特殊要求 。例如,远场场景和耳机场景之间会有差异 。
D) 中英文混合TTS 。例如,用户想播放一首英文歌曲,难点在于:在所有中文发音中,很难读懂中英文 。为什么?因为倾向于记录的人 。录中文是一群人,录英文是一群人 。将两种语言结合起来,用机器学习来学习,声音就变得很诡异 。对此,小雅音箱花费了大量精力和成本“死战”来解决问题 。详情见《傅盛:人工智能的突破点是技术与产品的结合【猎户星发布小雅语音OS】 。
5、商业压力
如果有足够的市场竞争力,至少需要12个月,2到6人的团队(如果有人做过前端相关的工作,会节省巨大的成本——工作量主要在中国前线-end NLP部分,如分词、拼音、词性文本的正则化等),百万资金投入(每年1个GPU,10万,仅支持几十个并发) 。而且大公司有巨大的先发优势,小公司必须细分场景 。
郑重声明:本文版权归原作者所有,转载文章仅出于传播更多信息之目的 。如果作者信息标注有误,请尽快联系我们修改或删除,谢谢 。