设采样频率为FS,则其可以再现的上限频率为:F=FS/2
* 8,000 Hz - 电话所用采样率, 对于人的说话已经足够; * 11,025 Hz; * 22,050 Hz - 无线电广播所用采样率; * 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率; * 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率; * 47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用 PCM 录音机所用采样率; * 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率; * 50,000 Hz - 二十世纪七十年代后期出现的 3M 和 Soundstream 开发的第一款商用数字录音机所用采样率; * 50,400 Hz - 三菱 X-80 数字录音机所用所用采样率; * 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率; * 2.8224 MHz - SACD、 索尼 和 飞利浦 联合开发的称为 Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。
长话语音指采样率为8000每秒的语音, 这是网络语音常用标准, 无特殊说明,本研究只针对单Channel的情形,研究表明样本宽度为8Bits时,语音质量差,背景噪音大, 而16Bits语音则无此现象,无特别说明,本研究只研究16Bits语音。
研究手段:采用支持无锁循环录/放缓冲区的Recorder/Player作为研究手段,该工具可调整语音帧尺寸,循环缓冲区尺寸等参数
语音材料:新闻朗读
测试表明,录音帧尺寸(AF)和录音缓冲区尺寸(CWIN)的乘积对录音质量有影响,
测试表明,AF*CWIN<20ms时,语音难以听清,而当录音缓冲时间AF*CWIN=20ms时,语音清晰,但略有不平滑感,有一点背景杂音,但为保持流畅的录音效果,应保持CWIN>=2,
测试表明,当AF*CWIN=40ms,且CWIN=2时,录音流畅平滑。
测试表明,放音帧尺寸(AF)和放音缓冲区尺寸(CWIN)对放音质量影响较大。
录CWIN=1时,无论AF大小,语音总不连续,在语音帧边界能听出明显变化;
CWIN=2时,AF=40时语音基本流畅,但能听出不平滑,有背景杂音; 而当AF>=50时,语音流畅;
测试表明,在相同AF*CWIN积时,较小的AF将有着更好的语音质量,最小AF*CWIN=60ms(AF=1)时,语音流畅,但当CWIN变小时,要达到相同质量的语音,AF*CWIN需较大。
放音帧尺寸与录音帧尺寸无关,即无论录音帧尺寸多少,放音时可以以任意自己喜欢的语音帧大小播放。
AF*CWIN=64(CWIN=4)时的语音质量接近AF*CWIN=60(CWIN=60),因此,播放缓冲区尺寸CWIN=4是相对合理的取值。
测试条件:调整适当的CWIN尺寸,使无丢帧条件下放音质量良好。
测试表明,丢帧将引起噪音增加,声音模糊不清,语速加快,丢帧率越高,这些现象将越严重。在合适的范围内,语音帧尺寸越大,丢帧越易引起声音模糊不清(过大的语音帧,e.g.>500ms,丢帧将引起语音片断缺失,适成可感知的不连贯)。
Loss Percentage(%)
1
5
10
20
25
33
50
AF=5
G
G
Y
Y
Y
Y
R
AF=20
G
G
Y
Y
Y
Y
R
AF=30
G
G
Y
Y
Y
R
R
AF=50
G
Y
Y
Y
R
R
R
AF=100
G
Y
R
R
R
R
R
语音质量等级:
Green: 无明显可觉查的质量下降(噪音不明显,语音总体清晰自然,语速无明显异常)
Yellow: 音质下降,但可以听清(噪音明显,声音欠流畅,但仍清晰可分辨,语速偏快)
Red: 音质下降严重,模糊不清(噪音大,声音变调,语速太快,模糊不清)
结论:语音帧尺寸越大,对丢帧将敏感,帧尺寸达到50MS时,25%的丢帧将引起声音模糊不清,而在语音帧尺寸为20MS时,该现象可被推迟到33%以上的丢帧率才会发生。
用空白帧替换丢失帧,将不会出现语速随丢帧率而变化的现象,其语音质量评估如下表所示:
Loss Percentage(%)
1
5
10
20
25
33
50
AF=5
G
G
Y
Y
Y
Y
Y
AF=20
G
G
Y
Y
Y
Y
R
AF=30
G
G
Y
Y
Y
R
R
AF=50
G
Y
Y
Y
R
R
R
AF=100
G
Y
R
R
R
R
R
Green: 无明显可觉察的质量下降
Yellow: 音质下降,但可以听清
Red: 音质下降严重,模糊不清
用空白帧替换丢失帧,可保持语速的恒定,此时丢包率对语音质量的影响不再表现在语速上,而是表现在噪音水平和音调上,较高的丢帧率表现为噪音水平较高,语音变调等,小帧尺寸(如AF=5ms)时,可提高语音在高丢帧率(如50%)时的可分辩性。但当AF尺寸较大时,空白帧替换并不能提高语音在高丢帧率情况下的可分辩性,仅能保持语速的恒定。
以下为文献对上述方法的定义与描述:
another simple alternative is replacing the loss packets with "silence", that is with zero packets. This technique is called- Silence Substitution ,Zero stuffing, and is especially effective for speech signals with packet length of 4[msec] or less and with a loss rate of no more than 2%.
The performance of this technique, deteriorate rapidly as the packet is getting larger. And so the sound quality of a signal with 40[msec] packet length for example, is unacceptable.
Despite all that, due to its implementation simplicity, this technique is widely common.
语音帧能量的算法:将一个语音帧中的所有样本值取绝对值后相加,其和被作为语音帧能量(AFE)。计算每个输出帧的能量值,若低于设定值,则丢弃,同样可选择直接丢弃,或用空白帧替换。
测试表明,直接丢弃方式在相同丢帧率的情况下,AFE法语音更加模糊不清,但在空白帧替换方式下,语音质量明显较均匀丢帧算法好。
Loss Percentage(%)
1
5
10
20
25
33
50
AF=5
G
G
G
G
G
G
Y
AF=20
G
G
G
G
G
Y
Y
AF=30
G
G
G
G
G
Y
Y
AF=50
G
G
G
G
G
Y
R
AF=100
G
G
G
Y
Y
R
R
结论:在采用空白帧替换时,基于帧能量的丢帧算法较均匀丢帧算法有着明显的质量改善,即是在丢帧率很高,整体语音质量不佳的情况下,仍能保持主音部分的较好音质。(2007-12-23)
对于均匀丢帧,重放最后一帧,可取得相当好的效果,在丢包率高达50%时,仍可听清,只是噪音较大; 较空白帧替换法效果好很多;
但对于帧能量法,重放最后一帧的效果则非常差,空白帧替换法效果要好得多
语音帧比需要的时刻早到达不会影响播放质量,因此,这里抖动特指比预定时间晚到达的延迟抖动,这更能模拟Internet上实时语音传输的情况――即语音采集和语音播放都为实时过程。
AF=5, CWIN=20, delay=0-15ms (3AF) -- 无明显语音质量下降
15-20ms (4AF) -- 语音质量下降明显,但仍可听清
>20ms --难以听清
AF=20, CWIN=4,delay=(0-35ms) (1.75AF) --无明显语音质量下降
35-60ms (3AF) --语音质量下降明显,但仍可听清
>60ms --难以听清
AF=40, CWIN=2, delay=0-60ms (1.5AF)-- 无明显语音质量下降
60-100ms (2.5AF)--语音质量下降明显,但仍可听清
>100ms --难以听清
,CWIN尺寸可改善Jitter对音质的影响,但不足以从根本上改善音质。
结论:随机抖动在2*AF以下时,音质通常无明显下降; 2-3*AF时,可听清,大于3*AF时则音质下降厉害,常听不清――随着AF增大,这种倍率关系则趋向减小。较大CWIN对降低抖动对音质影响都有好处,但不足以从根本上改善音质。
对8000每秒的标准PCM样本按等间距取样,其它标准样本则复制成该样本值,例如,标准样本序列如下:0,1,2,3,4,5,6,7,…, 设Inter-Leave间距为2,则生成的Inter-Leave样本序列如下:0,0,2,2,4,4,6,6,…, Inter-Leave间距为3,则生成的Inter-Leave样本序列如下:0,0,0,3,3,3,6,6,6,…
Inter-Leave 间距=2时,语音可听清,略有变调,有一定的伴生噪音
=3时,勉强听清,变调严重,伴生噪音大
=4时,较3更恶化
=5时,基本完全听不清,语音完全淹没在伴生噪音中
Inter-Leave的结果相当于降低了采样率,但该算法用于语音传输时可将标准PCM序列间隔采样到不同的Inter-Leave帧,在传输情况良好时,接收端可将多个Inter-Leave帧还原成原始的帧,保持语音质量,若传输出现拥塞,则可通过丢弃部分Inter-Leave帧的办法降低带宽占用,同时最大限度保持语音质量。
上述测试表明:当Inter-Leave间距大于2时(相当于采样频率小于4000HZ)时,语音质量基本不可接受。因此,有意义的Inter-Leave传输分帧是分两帧。
用16bit 8000采样率的正弦波PCM生成器测试得到:人耳通过普通耳机能感受到的音频下限越30HZ左右,此时,振幅接近上限(取30000)时,能感受到有振动存在。
60HZ,有明显类似于音箱交流声的声音; 240HZ,则感觉声音开始明亮;480HZ,则有哨音; 960HZ,则如电台报时般清脆的声音;
用16bit 44100采样率的正弦波PCM生成器测试得到: 人耳通过耳机能感受的音频上限约15000HZ左右,
听出来象是“声音”的频率区间则在:[50HZ, 15000HZ]之间。