即时通讯中音频编码标准发展现状及发展趋势( 二 )


混合编码:将上述两种编码方法结合起来 , 采用混合编码的方法 , 可以在较低的数码率上得到较高的音质 。它的基本原理是合成分析法 , 将综合滤波器引入编码器 , 与分析器相结合 , 在编码器中将激励输入综合滤波器产生与译码器端完全一致的合成语音 , 然后将合成语音与原始语音相比较(波形编码思想) , 根据均方误差最小原则 , 求得最佳的激励信号 , 然后把激励信号以及分析出来的综合滤波器编码送给解码端 。这种得到综合滤波器和最佳激励的过程称为分析(得到语音参数);用激励和综合滤波器合成语音的过程称为综合;由此我们可以看出CELP编码把参数编码和波形编码的优点结合在了一起 , 使得用较低码率产生较好的音质成为可能 。通过设计不同的码本和码本搜索技术 , 产生了很多编码标准 , 目前我们通讯中用到的大多数语音编码器都采用了混合编码技术 。例如在互联网上的 G.723.1和G.729标准 , 在GSM上的EFR、HR标准 , 在3GPP2上的EVRC、QCELP标准 , 在3GPP上的AMR-NB/WB标准等等 。
音乐的编码技术主要有自适应变换编码(频域编码)、心理声学模型和熵编码等技术 。
自适应变换编码:利用正交变换 , 把时域音频信号变换到另一个域 , 由于去相关的结果 , 变换域系数的能量集中在一个较小的范围 , 所以对变换域系数最佳量化后 , 可以实现码率的压缩 。理论上的最佳量化很难达到 , 通常采用自适应比特分配和自适应量化技术来对频域数据进行量化 。在MPEG 和AAC标准及Dolby AC-3标准中都使用了改进的余弦变换(MDCT);在ITU G.722.1标准中则用的是重叠调制变换(MLT) 。本质上它们都是余弦变换的改进 。
心理声学模型:其基本思想是对信息量加以压缩 , 同时使失真尽可能不被觉察出来 , 利用人耳的掩蔽效应就可以达到此目的 , 即较弱的声音会被同时存在的较强的声音所掩盖 , 使得人耳无法听到 。在音频压缩编码中利用掩蔽效应 , 就可以通过给不同频率处的信号分量分配以不同的量化比特数的方法来控制量化噪声 , 使得噪声的能量低于掩蔽阈值 , 从而使得人耳感觉不到量化过程的存在 。在MPEG 、3和AAC标准及AC-3标准中都采用了心理声学模
型 , 在目前的高质量音频标准中 , 心理声学模型是一个最有效的算法模型 。
熵编码:根据信息论的原理 , 可以找到最佳数据压缩编码的方法 , 数据压缩的理论极限是信息熵 。如果要求编码过程中不丢失信息量 , 即要求保存信息熵 , 这种信息保持编码叫熵编码 , 它是根据信息出现概率的分布特性而进行的 , 是一种无损数据压缩编码 。常用的有霍夫曼编码和算术编码 。在MPEG 、2、3和AAC标准及ITU G.722.1标准中都使用了霍夫曼编码;在
2.3数字音频编码的主要应用
对数字音频信息的编码进行压缩的目的是在不影响人们使用的情况下使数字音频信息的数据量最少 。通常用如下6个属性来衡量:
—比特率;
—主观/客观的语音质量;
—计算复杂度和对存储器的要求;
—延迟;
—对于通道误码的灵敏度;
—信号的带宽 。
由于不同的应用 , 人们对数字音频信息的要求是不同的 , 并且在选择数字音频信息编码所采用的技术时也需要了解人们对音频信息的各种应用 。目前数字音频信息处理技术主要应用于: