数码语音实验研究

    技术2022-06-29  56

    声音常识

    人类听力音频上限约20,000HZ

    采样定律

    设采样频率为FS,则其可以再现的上限频率为:F=FS/2

     

    在数字音频领域,常用的采样率有:

        * 8,000 Hz - 电话所用采样率, 对于人的说话已经足够;    * 11,025 Hz    * 22,050 Hz - 无线电广播所用采样率;    * 32,000 Hz - miniDV 数码视频 camcorderDAT (LP mode)所用采样率;    * 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率;    * 47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用 PCM 录音机所用采样率;    * 48,000 Hz - miniDV、数字电视、DVDDAT、电影和专业音频所用的数字声音所用采样率;    * 50,000 Hz - 二十世纪七十年代后期出现的 3M Soundstream 开发的第一款商用数字录音机所用采样率;    * 50,400 Hz - 三菱 X-80 数字录音机所用所用采样率;    * 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率;    * 2.8224 MHz - SACD 索尼 飞利浦 联合开发的称为 Direct Stream Digital 1 sigma-delta modulation 过程所用采样率。

    常用压缩算法

    Codec            Sampling G.       Coding     Rate Number   Method    (kHz)   Bit Rates (kBps) G.711    Mu-Law PCM   8    64 G.711    A-Law PCM    8    64 G.721    ADPCM        8    32 G.722    ASPCM        7    48, 56, 64 G.722.1  MLT         16    24, 32 G.722.2  ACELP       16    9 bit rates (6.6-23.85) G.723    (withdrawn) G.723.1  MP-MLQ       8    6.3 G.723.1  ACELP        8    5.3 G.726    ADPCM        8    16, 24, 32, 40, 64 G.727    ADPCM        8    16, 24, 32, 40, 64 G.728    LD-CELP      8    16 G.729    CS-ACELP     8    8

     

    长话质量语音研究

    长话语音指采样率为8000每秒的语音, 这是网络语音常用标准, 无特殊说明,本研究只针对单Channel的情形,研究表明样本宽度为8Bits,语音质量差,背景噪音大, 16Bits语音则无此现象,无特别说明,本研究只研究16Bits语音。

     

    研究手段:采用支持无锁循环录/放缓冲区的Recorder/Player作为研究手段,该工具可调整语音帧尺寸,循环缓冲区尺寸等参数

    语音材料:新闻朗读

    录音帧尺寸与录音缓冲区尺寸对语音质量的影响

    测试表明,录音帧尺寸(AF)和录音缓冲区尺寸(CWIN)的乘积对录音质量有影响,

    测试表明,AF*CWIN<20ms时,语音难以听清,而当录音缓冲时间AF*CWIN=20ms时,语音清晰,但略有不平滑感,有一点背景杂音,但为保持流畅的录音效果,应保持CWIN>=2,

    测试表明,当AF*CWIN=40ms,CWIN=2时,录音流畅平滑。

     

    放音帧尺寸与放音缓冲区尺寸对语音质量的影响

    测试表明,放音帧尺寸(AF)和放音缓冲区尺寸(CWIN)对放音质量影响较大。

    CWIN=1时,无论AF大小,语音总不连续,在语音帧边界能听出明显变化;

    CWIN=2时,AF=40时语音基本流畅,但能听出不平滑,有背景杂音; 而当AF>=50时,语音流畅;

    测试表明,在相同AF*CWIN积时,较小的AF将有着更好的语音质量,最小AF*CWIN=60msAF=1时,语音流畅,但当CWIN变小时,要达到相同质量的语音,AF*CWIN需较大。

    放音帧尺寸与录音帧尺寸无关,即无论录音帧尺寸多少,放音时可以以任意自己喜欢的语音帧大小播放。

    AF*CWIN=64(CWIN=4)时的语音质量接近AF*CWIN=60(CWIN=60),因此,播放缓冲区尺寸CWIN=4是相对合理的取值。

     

    语音帧丢失对语音质量的影响

    均匀丢帧

    测试条件:调整适当的CWIN尺寸,使无丢帧条件下放音质量良好。

    测试表明,丢帧将引起噪音增加,声音模糊不清,语速加快,丢帧率越高,这些现象将越严重。在合适的范围内,语音帧尺寸越大,丢帧越易引起声音模糊不清(过大的语音帧,e.g.>500ms,丢帧将引起语音片断缺失,适成可感知的不连贯)。

     

     

    Loss Percentage(%)

    1

    5

    10

    20

    25

    33

    50

    AF=5

    G

    G

    Y

    Y

    Y

    Y

    R

    AF=20

    G

    G

    Y

    Y

    Y

    Y

    R

    AF=30

    G

    G

    Y

    Y

    Y

    R

    R

    AF=50

    G

    Y

    Y

    Y

    R

    R

    R

    AF=100

    G

    Y

    R

    R

    R

    R

    R

     

    语音质量等级:

    Green 无明显可觉查的质量下降(噪音不明显,语音总体清晰自然,语速无明显异常)

    Yellow: 音质下降,但可以听清(噪音明显,声音欠流畅,但仍清晰可分辨,语速偏快)

    Red: 音质下降严重,模糊不清(噪音大,声音变调,语速太快,模糊不清)

     

    结论:语音帧尺寸越大,对丢帧将敏感,帧尺寸达到50MS时,25%的丢帧将引起声音模糊不清,而在语音帧尺寸为20MS时,该现象可被推迟到33%以上的丢帧率才会发生。

     

    均匀丢帧的空白帧替换

    用空白帧替换丢失帧,将不会出现语速随丢帧率而变化的现象,其语音质量评估如下表所示:

     

     

    Loss Percentage(%)

    1

    5

    10

    20

    25

    33

    50

    AF=5

    G

    G

    Y

    Y

    Y

    Y

    Y

    AF=20

    G

    G

    Y

    Y

    Y

    Y

    R

    AF=30

    G

    G

    Y

    Y

    Y

    R

    R

    AF=50

    G

    Y

    Y

    Y

    R

    R

    R

    AF=100

    G

    Y

    R

    R

    R

    R

    R

                               

    Green 无明显可觉察的质量下降

    Yellow: 音质下降,但可以听清

    Red: 音质下降严重,模糊不清

     

    用空白帧替换丢失帧,可保持语速的恒定,此时丢包率对语音质量的影响不再表现在语速上,而是表现在噪音水平和音调上,较高的丢帧率表现为噪音水平较高,语音变调等,小帧尺寸(如AF=5ms)时,可提高语音在高丢帧率(如50%)时的可分辩性。但当AF尺寸较大时,空白帧替换并不能提高语音在高丢帧率情况下的可分辩性,仅能保持语速的恒定。

     

    以下为文献对上述方法的定义与描述:

    another simple alternative is replacing the loss packets with "silence",   that is with zero packets. This technique is called- Silence Substitution ,Zero stuffing, and is especially effective for speech signals with packet length of 4[msec] or less and with a loss rate of no more than 2%.

    The performance of this technique, deteriorate rapidly as the packet is getting larger. And so the sound quality of a signal with 40[msec] packet length for example, is unacceptable.

    Despite all that, due to its implementation simplicity, this technique is widely common.

    帧能量法

    语音帧能量的算法:将一个语音帧中的所有样本值取绝对值后相加,其和被作为语音帧能量(AFE)。计算每个输出帧的能量值,若低于设定值,则丢弃,同样可选择直接丢弃,或用空白帧替换。

    测试表明,直接丢弃方式在相同丢帧率的情况下,AFE法语音更加模糊不清,但在空白帧替换方式下,语音质量明显较均匀丢帧算法好。

     

     

     

     

    Loss Percentage(%)

    1

    5

    10

    20

    25

    33

    50

    AF=5

    G

    G

    G

    G

    G

    G

    Y

    AF=20

    G

    G

    G

    G

    G

    Y

    Y

    AF=30

    G

    G

    G

    G

    G

    Y

    Y

    AF=50

    G

    G

    G

    G

    G

    Y

    R

    AF=100

    G

    G

    G

    Y

    Y

    R

    R

     

    结论:在采用空白帧替换时,基于帧能量的丢帧算法较均匀丢帧算法有着明显的质量改善,即是在丢帧率很高,整体语音质量不佳的情况下,仍能保持主音部分的较好音质。(2007-12-23)

     

    Packet Loss Concealment之重放最后一帧

    对于均匀丢帧,重放最后一帧,可取得相当好的效果,在丢包率高达50%时,仍可听清,只是噪音较大; 较空白帧替换法效果好很多;

    但对于帧能量法,重放最后一帧的效果则非常差,空白帧替换法效果要好得多

    抖动对语音质量的影响

    语音帧比需要的时刻早到达不会影响播放质量,因此,这里抖动特指比预定时间晚到达的延迟抖动,这更能模拟Internet上实时语音传输的情况――即语音采集和语音播放都为实时过程。

     

    AF=5, CWIN=20, delay=0-15ms (3AF) -- 无明显语音质量下降

                             15-20ms (4AF)    -- 语音质量下降明显,但仍可听清

                               >20ms    --难以听清

    AF=20, CWIN=4delay=(0-35ms) (1.75AF) --无明显语音质量下降

                              35-60ms  (3AF)    --语音质量下降明显,但仍可听清

                              >60ms            --难以听清

     

    AF=40, CWIN=2, delay=0-60ms (1.5AF)-- 无明显语音质量下降

                     60-100ms (2.5AF)--语音质量下降明显,但仍可听清

                      >100ms --难以听清

     

    ,CWIN尺寸可改善Jitter对音质的影响,但不足以从根本上改善音质。

     

    结论:随机抖动在2*AF以下时,音质通常无明显下降; 2-3*AF时,可听清,大于3*AF时则音质下降厉害,常听不清――随着AF增大,这种倍率关系则趋向减小。较大CWIN对降低抖动对音质影响都有好处,但不足以从根本上改善音质。

     

    Inter-Leave分帧语音质量评估

    8000每秒的标准PCM样本按等间距取样,其它标准样本则复制成该样本值,例如,标准样本序列如下:0,1,2,3,4,5,6,7,…, Inter-Leave间距为2,则生成的Inter-Leave样本序列如下:0,0,2,2,4,4,6,6,…, Inter-Leave间距为3,则生成的Inter-Leave样本序列如下:0,0,0,3,3,3,6,6,6,…

     

    Inter-Leave 间距=2时,语音可听清,略有变调,有一定的伴生噪音

                           =3时,勉强听清,变调严重,伴生噪音大

                           =4时,较3更恶化

    =5时,基本完全听不清,语音完全淹没在伴生噪音中

     

    Inter-Leave的结果相当于降低了采样率,但该算法用于语音传输时可将标准PCM序列间隔采样到不同的Inter-Leave帧,在传输情况良好时,接收端可将多个Inter-Leave帧还原成原始的帧,保持语音质量,若传输出现拥塞,则可通过丢弃部分Inter-Leave帧的办法降低带宽占用,同时最大限度保持语音质量。

    上述测试表明:当Inter-Leave间距大于2时(相当于采样频率小于4000HZ)时,语音质量基本不可接受。因此,有意义的Inter-Leave传输分帧是分两帧。

     

     

    人耳对音频的感受能力

    16bit 8000采样率的正弦波PCM生成器测试得到:人耳通过普通耳机能感受到的音频下限越30HZ左右,此时,振幅接近上限(取30000)时,能感受到有振动存在。

    60HZ,有明显类似于音箱交流声的声音; 240HZ,则感觉声音开始明亮;480HZ,则有哨音; 960HZ,则如电台报时般清脆的声音;

     

    16bit 44100采样率的正弦波PCM生成器测试得到: 人耳通过耳机能感受的音频上限约15000HZ左右,

    听出来象是“声音”的频率区间则在:[50HZ, 15000HZ]之间。


    最新回复(0)