新浪博客

语音编码的分类

2012-08-28 16:13阅读:
1. 按编码方法分类
按编码方法分类,语音编码可以分为波形编码、参数编码以及混合编码。
语音信号的波形编码力图使重建语音信号的波形维持原语音信号的波形形状。该类编码算法通常将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好的优点,但需要的编码速率高。脉冲编码调制(PCM)、自适应增量调制(ADM)、自适应差分编码(ADPCM)、自适应预测编码(APC)、自适应子带编码(ASBC)、自适应变换编码(ATC)等都属于该类编码器。它们分别在64kbps-16kbps的编码速率上给出高的编码质量,当速率进一步降低时,其性能下降较快。
语音信号的参数编码通过对语音信号特征参数的提取及编码,力图使重建语音信号具有尽可能高的可懂度,即保持原语音的语义,而重建信号的波形可能同原始语音信号有较大的差别。此类编码器的优点是编码速率低,可以达到2.4kbps甚至更低,主要问题是合成语音质量较差,自然度较低,连熟人都不一定能听出讲话人是谁。另外,该类编码器对环境噪声比较敏感,需要在安静的环境才能给出较高的可懂度,对信道误码也比较敏感。通道声码器、共振峰声码器以及目前广泛使用的线性预测声码器都是典型的参数编码。
混合编码采用参数编码和波形编码的混合编码形式。该类算法的共同特点是:先进行线性预测分析,去掉语音信号的短时相关性,然后利用合成分析法及感觉加权均方误差最小原则分析出合适的替代余量信号的最佳激励源,最后对LP参数和激励信号源进行编码和传送。由于混合编码方案的激励模型和误差计算与时域波形相联系,使合成语音具有较强的跟踪输入语音变化的性能,从而能够改善合成语音的质量以及抗噪声的能力。
2. 按编码速率分类

按语音编码速率分类是根据语音信号压缩编码后进行存储或传输所需要的数据速率进行分类的一种方法。例如,按照编码后的数据速率,可以将窄带语音编码划分为五类:
1. 高速率语音编码,其编码速率为32kbps以上;
2. 中高速率语音编码,其编码速率为16~32kbps;
3. 中速率语音编码,其编码速率为4.8~16kpbs;
4. 低速率语音编码,其编码速率为1.2~4.8kbps;
5. 超低速率或极低速率语音编码,其编码速率低于1.2kbps。
目前,语音编码的国际标准主要集中于中速率以上,低速率以及超低速率语音编码算法的研究仍然是一个热点。
3. 按编码语音带宽分类
通常将人耳可以听到的频率在20Hz到20kHz的声波称为为音频信号。标准的话路频带语音信号是300~3400Hz,若加上少量保护带宽,一般意义上说的标准话路频带宽度应该是4kHz,根据奈奎斯特采样定律,带宽为4kHz的语音信号采样频率应为8kHz,量化精度一般在16位左右。通常所说的窄带语音编码指的就是这种频带范围内的语音信号编码。
随着网络传输带宽的不断增加,语音编码的另一研究领域也开始引起广泛重视,这就是宽带语音编码。宽带语音编码的频率范围通常在50~7000Hz,加上保护带宽,通常为8kHz,采样频率一般为16kHz。国际电信联盟公布的自适应多速率宽带(AMR-WB)语音编码器的标准为G.722.2协议,其频率带宽就在50~7000Hz,采样频率为16kHz,属于宽带语音编码的范畴。
在多媒体领域中,处理的主要是音频信号,它包括音乐、语音、风声、雨声、鸟叫声、机器声等。音频编码主要针对频率范围较宽的音频信号进行的编码,主要应用于数字广播和数字电视广播、消费电子产品等。典型的编码有MPEG1/MPEG2的layer1、2、3和MPEG 4 AAC的音频编码等。
表1  按带宽对语音编码划分
信号类型
频率范围(Hz)
采样率(kHz)
量化精度(采样位数)
电话话音(窄带)
200~3400
8
13~16
宽带话音(宽带)
50~7000
16
16
调频广播(超宽带)
20~15k
32
16
高质量音频(全带)
20~20k
44.1
16







4. 按编码信号所在域分类
语音信号具有短时平稳性,通常假定语音信号在10ms~30ms之内的时间段内,某些物理特征参数是可以看作不变的,所以语音信号的参数编码及混合编码通常以语音帧为单位进行。按照被编码的语音信号所在域可以将编码算法分为时域编码和频域编码。时域编码是指对语音的时域信号进行编码,如PCM编码等。而频域编码是指对语音的频域信号进行编码,子带编码(SBC)就是一种频域编码方法。

我的更多文章

下载客户端阅读体验更佳

APP专享