数码语音实验研究

技术2022-06-29 112

声音常识

人类听力音频上限约20,000HZ

采样定律

设采样频率为FS，则其可以再现的上限频率为：F=FS/2

在数字音频领域，常用的采样率有：

* 8,000 Hz - 电话所用采样率，对于人的说话已经足够； * 11,025 Hz； * 22,050 Hz - 无线电广播所用采样率； * 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率； * 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD, SVCD, MP3）所用采样率； * 47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用 PCM 录音机所用采样率； * 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率； * 50,000 Hz - 二十世纪七十年代后期出现的 3M 和 Soundstream 开发的第一款商用数字录音机所用采样率； * 50,400 Hz - 三菱 X-80 数字录音机所用所用采样率； * 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM（蓝光盘）音轨、和 HD-DVD （高清晰度 DVD）音轨所用所用采样率； * 2.8224 MHz - SACD、索尼和飞利浦联合开发的称为 Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。

常用压缩算法

Codec Sampling G. Coding Rate Number Method (kHz) Bit Rates (kBps) G.711 Mu-Law PCM 8 64 G.711 A-Law PCM 8 64 G.721 ADPCM 8 32 G.722 ASPCM 7 48, 56, 64 G.722.1 MLT 16 24, 32 G.722.2 ACELP 16 9 bit rates (6.6-23.85) G.723 (withdrawn) G.723.1 MP-MLQ 8 6.3 G.723.1 ACELP 8 5.3 G.726 ADPCM 8 16, 24, 32, 40, 64 G.727 ADPCM 8 16, 24, 32, 40, 64 G.728 LD-CELP 8 16 G.729 CS-ACELP 8 8

长话质量语音研究

长话语音指采样率为8000每秒的语音, 这是网络语音常用标准, 无特殊说明,本研究只针对单Channel的情形,研究表明样本宽度为8Bits时,语音质量差,背景噪音大, 而16Bits语音则无此现象,无特别说明，本研究只研究16Bits语音。

研究手段：采用支持无锁循环录/放缓冲区的Recorder/Player作为研究手段，该工具可调整语音帧尺寸，循环缓冲区尺寸等参数

语音材料：新闻朗读

录音帧尺寸与录音缓冲区尺寸对语音质量的影响

测试表明，录音帧尺寸(AF)和录音缓冲区尺寸(CWIN)的乘积对录音质量有影响，

测试表明，AF*CWIN<20ms时，语音难以听清，而当录音缓冲时间AF*CWIN=20ms时，语音清晰，但略有不平滑感，有一点背景杂音，但为保持流畅的录音效果，应保持CWIN>=2,

测试表明，当AF*CWIN=40ms,且CWIN=2时，录音流畅平滑。

放音帧尺寸与放音缓冲区尺寸对语音质量的影响

测试表明，放音帧尺寸(AF)和放音缓冲区尺寸(CWIN)对放音质量影响较大。

录CWIN=1时，无论AF大小，语音总不连续，在语音帧边界能听出明显变化;

CWIN=2时，AF=40时语音基本流畅，但能听出不平滑，有背景杂音; 而当AF>=50时，语音流畅;

测试表明，在相同AF*CWIN积时，较小的AF将有着更好的语音质量，最小AF*CWIN=60ms（AF=1）时，语音流畅，但当CWIN变小时，要达到相同质量的语音，AF*CWIN需较大。

放音帧尺寸与录音帧尺寸无关，即无论录音帧尺寸多少，放音时可以以任意自己喜欢的语音帧大小播放。

AF*CWIN=64(CWIN=4)时的语音质量接近AF*CWIN=60(CWIN=60)，因此，播放缓冲区尺寸CWIN=4是相对合理的取值。

语音帧丢失对语音质量的影响

均匀丢帧

测试条件：调整适当的CWIN尺寸，使无丢帧条件下放音质量良好。

测试表明，丢帧将引起噪音增加，声音模糊不清，语速加快，丢帧率越高，这些现象将越严重。在合适的范围内，语音帧尺寸越大，丢帧越易引起声音模糊不清（过大的语音帧，e.g.>500ms,丢帧将引起语音片断缺失，适成可感知的不连贯）。

Loss Percentage(%)

AF=5

AF=20

AF=30

AF=50

AF=100

语音质量等级：

Green：无明显可觉查的质量下降(噪音不明显，语音总体清晰自然，语速无明显异常)

Yellow: 音质下降，但可以听清（噪音明显，声音欠流畅，但仍清晰可分辨，语速偏快）

Red: 音质下降严重，模糊不清（噪音大，声音变调，语速太快，模糊不清）

结论：语音帧尺寸越大，对丢帧将敏感，帧尺寸达到50MS时，25%的丢帧将引起声音模糊不清，而在语音帧尺寸为20MS时，该现象可被推迟到33%以上的丢帧率才会发生。

均匀丢帧的空白帧替换

用空白帧替换丢失帧，将不会出现语速随丢帧率而变化的现象，其语音质量评估如下表所示：

Loss Percentage(%)

AF=5

AF=20

AF=30

AF=50

AF=100

Green：无明显可觉察的质量下降

Yellow: 音质下降，但可以听清

Red: 音质下降严重，模糊不清

用空白帧替换丢失帧，可保持语速的恒定，此时丢包率对语音质量的影响不再表现在语速上，而是表现在噪音水平和音调上，较高的丢帧率表现为噪音水平较高，语音变调等，小帧尺寸（如AF=5ms）时，可提高语音在高丢帧率（如50%）时的可分辩性。但当AF尺寸较大时，空白帧替换并不能提高语音在高丢帧率情况下的可分辩性，仅能保持语速的恒定。

以下为文献对上述方法的定义与描述：

another simple alternative is replacing the loss packets with "silence", that is with zero packets. This technique is called- Silence Substitution ,Zero stuffing, and is especially effective for speech signals with packet length of 4[msec] or less and with a loss rate of no more than 2%.

The performance of this technique, deteriorate rapidly as the packet is getting larger. And so the sound quality of a signal with 40[msec] packet length for example, is unacceptable.

Despite all that, due to its implementation simplicity, this technique is widely common.

帧能量法

语音帧能量的算法：将一个语音帧中的所有样本值取绝对值后相加，其和被作为语音帧能量（AFE）。计算每个输出帧的能量值，若低于设定值，则丢弃，同样可选择直接丢弃，或用空白帧替换。

测试表明，直接丢弃方式在相同丢帧率的情况下，AFE法语音更加模糊不清，但在空白帧替换方式下，语音质量明显较均匀丢帧算法好。

Loss Percentage(%)

AF=5

AF=20

AF=30

AF=50

AF=100

结论：在采用空白帧替换时，基于帧能量的丢帧算法较均匀丢帧算法有着明显的质量改善，即是在丢帧率很高，整体语音质量不佳的情况下，仍能保持主音部分的较好音质。(2007-12-23)

Packet Loss Concealment之重放最后一帧

对于均匀丢帧，重放最后一帧，可取得相当好的效果，在丢包率高达50%时，仍可听清，只是噪音较大; 较空白帧替换法效果好很多;

但对于帧能量法，重放最后一帧的效果则非常差，空白帧替换法效果要好得多

抖动对语音质量的影响

语音帧比需要的时刻早到达不会影响播放质量，因此，这里抖动特指比预定时间晚到达的延迟抖动，这更能模拟Internet上实时语音传输的情况――即语音采集和语音播放都为实时过程。

AF=5, CWIN=20, delay=0-15ms (3AF) -- 无明显语音质量下降

15-20ms (4AF) -- 语音质量下降明显，但仍可听清

>20ms --难以听清

AF=20, CWIN=4，delay=(0-35ms) (1.75AF) --无明显语音质量下降

35-60ms (3AF) --语音质量下降明显，但仍可听清

>60ms --难以听清

AF=40, CWIN=2, delay=0-60ms (1.5AF)-- 无明显语音质量下降

60-100ms (2.5AF)--语音质量下降明显，但仍可听清

>100ms --难以听清

,CWIN尺寸可改善Jitter对音质的影响，但不足以从根本上改善音质。

结论：随机抖动在2*AF以下时，音质通常无明显下降; 2-3*AF时，可听清，大于3*AF时则音质下降厉害，常听不清――随着AF增大，这种倍率关系则趋向减小。较大CWIN对降低抖动对音质影响都有好处，但不足以从根本上改善音质。

Inter-Leave分帧语音质量评估

对8000每秒的标准PCM样本按等间距取样，其它标准样本则复制成该样本值，例如，标准样本序列如下：0,1,2,3,4,5,6,7,…, 设Inter-Leave间距为2，则生成的Inter-Leave样本序列如下：0,0,2,2,4,4,6,6,…, Inter-Leave间距为3,则生成的Inter-Leave样本序列如下：0,0,0,3,3,3,6,6,6,…

Inter-Leave 间距=2时，语音可听清，略有变调，有一定的伴生噪音

=3时，勉强听清，变调严重，伴生噪音大

=4时，较3更恶化

=5时，基本完全听不清，语音完全淹没在伴生噪音中

Inter-Leave的结果相当于降低了采样率，但该算法用于语音传输时可将标准PCM序列间隔采样到不同的Inter-Leave帧，在传输情况良好时，接收端可将多个Inter-Leave帧还原成原始的帧，保持语音质量，若传输出现拥塞，则可通过丢弃部分Inter-Leave帧的办法降低带宽占用，同时最大限度保持语音质量。

上述测试表明：当Inter-Leave间距大于2时（相当于采样频率小于4000HZ）时，语音质量基本不可接受。因此，有意义的Inter-Leave传输分帧是分两帧。

人耳对音频的感受能力

用16bit 8000采样率的正弦波PCM生成器测试得到：人耳通过普通耳机能感受到的音频下限越30HZ左右，此时，振幅接近上限（取30000）时，能感受到有振动存在。

60HZ，有明显类似于音箱交流声的声音; 240HZ,则感觉声音开始明亮;480HZ，则有哨音; 960HZ，则如电台报时般清脆的声音;

用16bit 44100采样率的正弦波PCM生成器测试得到：人耳通过耳机能感受的音频上限约15000HZ左右，

听出来象是“声音”的频率区间则在：[50HZ, 15000HZ]之间。

专利

最新回复(0)