解说tts定义及其使用方法 tts什么意思中文翻译


解说tts定义及其使用方法  tts什么意思中文翻译

文章插图
01 语音交互的构成
我们以智能音箱为例开始今天的讨论:
假设我们对智能音箱天猫精灵说:“播放一首周杰伦的《晴天》 。天猫精灵会说,“好的,我马上给你播放周杰伦的《晴天》,然后开始播放音乐 。
猫精灵在这个过程中做了什么?
天猫精灵首先将听到的声音转化为文本,然后理解内容,最后做出相应的策略,将响应策略转化为语音 。
因此,语音交互可以分为以下三个模块:
解说tts定义及其使用方法  tts什么意思中文翻译

文章插图
我们将在下面详细介绍每个模块 。
02 语音识别 (ASR)
一般来说,语音识别有两种方法:
这两种方式都需要经过“输入-编码-解码-输出”的过程 。
2.1 种编码
编码就是将声音转换成机器可以识别的模式,即用数字向量表示 。
解说tts定义及其使用方法  tts什么意思中文翻译

文章插图
电脑无法直接识别输入的声音信号 。首先需要将声音信号切成小段,然后将每个段按照一定的规则用一个向量表示 。
2.2 解码
解码是将数字向量拼接成文本的形式 。
解说tts定义及其使用方法  tts什么意思中文翻译

文章插图
首先将编译好的向量放入声学模型中,即可得到每个小段对应的字母;
然后,将翻译后的字母通过语言模型后,就可以组装成单词了 。
当然,声学模型和语言模型也是神经网络,是通过大量的语音和语言数据训练出来的,这里就不多说了 。
这是一场头脑风暴:
神经网络能不能做到,不需要编码和解码的过程,不需要声学和语言模型 。声音信号直接丢入神经网络进行训练,最终输出为文本 。具体的中间过程是什么?让机器自己学习 。我觉得如果能实现就很酷了,是不是看起来很聪明 。
03 自然语言处理 (NLP)
NLP 是语音交互中最核心也是最难的模块 。
NLP主要涉及以下技术:文本预处理、词法分析、句法分析、语义理解、分词、文本分类、文本相似度处理、情感分析、文本生成等 。所涉及的技术越来越复杂 。下面简单说一下主要的技术点 。
解说tts定义及其使用方法  tts什么意思中文翻译

文章插图
3.1 文本预处理
1)去噪:
只要与输出无关,我们就称之为噪声,比如空格、换行符、斜杠等 。
去噪后,文本变得更加规范化,没有各种乱七八糟的符号,这对后续处理非常重要 。
2)字规范化
这在处理英文文本时比较常用,比如“play”、“”、“”、“plays”和“”是“play”的各种表示 。虽然它们的含义不同,但上下文相似,这些不同形式的词都可以归一化 。
规范化是文本特征工程中的关键步骤,因为它将高维特征(N 个不同的特征)转换为低维空间 。
3.2 词法分析
1)分词
分词就是把一个句子分成多个词 。
例如:输入“明天深圳的天气怎么样?”,句子将分为“明天/深圳/的/天气/怎么样” 。其中“明天”、“深圳”、“天气”是这句话的关键词,内容是通过关键词来匹配的 。
2)实体识别
实体提取:是指提取文本中特定的、特定类型的实体,如人名、地名、数值、专有名词等 。
例如:输入“詹姆斯在NBA打了多少年”,其中??“詹姆斯”是实体词,计算机或许可以给出詹姆斯在NBA的出场年龄,通过当前时间和当詹姆斯加入了 NBA 。
实体识别广泛应用于信息检索、自动问答、知识图谱等领域 。目的是告诉计算机该词属于某类实体,有助于识别用户的意图 。