fbpx
维基百科

梅尔频率倒谱系数

在聲音處理領域中,梅爾頻率倒譜(Mel-Frequency Cepstrum)是基於聲音頻率的非線性梅爾刻度(mel scale)的對數能量頻譜的線性變換。

梅爾頻率倒譜系數 (Mel-Frequency Cepstral Coefficients,MFCCs)就是組成梅爾頻率倒譜的係數。它衍生自音訊片段的倒頻譜(cepstrum)。倒譜和梅爾頻率倒譜的區別在於,梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,它比用於正常的對數倒頻譜中的線性間隔的頻帶更能近似人類的聽覺系統。 這樣的非線性表示,可以在多個領域中使聲音信號有更好的表示。例如在音訊壓縮中。

梅爾頻率倒譜係數(MFCC)廣泛被應用於語音識別的功能。他們由Davis和Mermelstein在1980年代提出,並在其後持續是最先進的技術之一。在MFCC之前,線性預測係數(LPCS)和線性預測倒譜系數(LPCCs)是自動語音識別的的主流方法。


MFCC通常有以下之過程:[1][2]

  1. 將一段語音信號分解為多個訊框
  2. 將語音信號預強化,通過一個高通濾波器
  3. 進行傅立叶变换,將信號轉換至頻域。
  4. 將每個訊框獲得的频譜通過梅爾濾波器(三角重叠窗口),得到梅爾刻度
  5. 在每个梅爾刻度上提取對數能量。
  6. 对上面获得的结果进行離散餘弦轉換,轉換到倒頻譜域。
  7. MFCC就是這個倒频谱图的幅度(amplitudes)。一般使用12個係數,與訊框能量疊加得13維的係數。

MFCC的原理

聲音信號是連續變化的,為了將連續變化信號簡化,我們假設在一個短時間尺度內,音頻信號不發生改變。因此將信號以多個取樣點集合成一個單位,稱為'''訊框'''。一個訊框多為20-40毫秒,如果訊框長度更短,那每個訊框內的取樣點將不足以做出可靠的頻譜計算,但若長度太長,則每個訊框信號會變化太大。

預強化的目的就是為了消除發聲過程中,聲帶和嘴唇造成的效應,來補償語音信號受到發音系統所壓抑的高頻部分。並且能突顯高頻的共振峰。

由於訊號在時域上的變化通常很難看出訊號的特性,所以通常透過傅立葉轉換將它轉換成頻域上的能量分佈來觀察,不同的能量分佈,就能代表不同語音的特性。

由於能量頻譜中還存在大量的無用訊息,尤其人耳無法分辨高頻的頻率變化,因此讓頻譜通過梅爾濾波器。 梅爾濾波器,也就是一組20個非線性分布的三角帶通濾波器(Triangular Bandpass Filters),能求得每一個濾波器輸出的對數能量。必須注意的是:這 20 個三角帶通濾波器在'''梅爾刻度'''的頻率上是平均分佈的。 梅爾頻率代表一般人耳對於頻率的感受度,由此也可以看出人耳對於頻率 f 的感受是呈對數變化的。


http://i.stack.imgur.com/YUH48.gif (页面存档备份,存于互联网档案馆


最後的步驟是計算對數濾波器的能量的離散傅立葉反變換,在此相當於離散餘弦反變換(IDCT)。值得注意的是,雖然通常的會有24-26個係數,但我們只保留前12個係數。這是因為丟棄高倒頻域值的DCT係數,代表一個類似低通濾波器的概念,可以使信號平滑化,能增進語音處理的性能。

[3][4][5]


在此过程中可以有很多变化,例如,映射时的窗口的形状和间距。[6] The 欧洲电信标准协会在2000年初定义了一个可以用在移动电话上的标准MFCC算法.[7]


參考

  1. ^ Min Xu; et al. HMM-based audio keyword generation. Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh (编). (PDF). Springer. 2004 [2013-04-26]. ISBN 3-540-23985-5. (原始内容 (PDF)存档于2007-05-10). 
  2. ^ Sahidullah, Md.; Saha, Goutam. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Communication. May 2012, 54 (4): 543–565 [2013-04-26]. doi:10.1016/j.specom.2011.11.004. (原始内容于2015-09-24). 
  3. ^ 存档副本. [2014-06-27]. (原始内容于2015-09-21). 
  4. ^ 存档副本. [2014-06-27]. (原始内容于2014-06-27). 
  5. ^ http://djj.ee.ntu.edu.tw/ADSP_tutorial_D98921028.pdf[永久失效連結]
  6. ^ Fang Zheng, Guoliang Zhang and Zhanjiang Song (2001), "Comparison of Different Implementations of MFCC (页面存档备份,存于互联网档案馆)," J. Computer Science & Technology, 16(6): 582–589.
  7. ^ European Telecommunications Standards Institute (2003), Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms (页面存档备份,存于互联网档案馆). Technical standard ES 201 108, v1.1.3.

詳細推導

1.對該信號做傅立葉變換
X[k]=FT{x[n]}
2.根據下面公式算出Y[m]
 

其中 是梅爾頻率倒頻譜的遮罩

 
梅爾頻率倒頻譜的遮罩

 

3.對Y[m]做IDCT得 
因為Y[m]是偶函數,故用IDCT(反離散餘弦變換)取代IDFT(反離散傅立葉變換)
 

與原倒頻譜的差異
一.log裡面因為使用了sum,故等於0的機率變小
二.避免了相位的問題
三.使用IDCT取代IDFT,減少了運算量
四. 隨著頻率的增加而增寬,該特性符合人類聽覺,更適合用來描述語音特徵

应用

MFCC主要作为语音识别系统中的特征,这样的系统可以自动识别语音中的数字内容。MFCC同样也用于说话人识别英语Speaker Recognition,该技术尝试通过语音该鉴别说话人。[1]

MFCC也被用于语音信息检索英语music information retrieval领域,如流派分类(genre classification)、音频相似性计算等。[2]


比起倒頻譜,梅爾倒頻譜更接近人耳對於語音的區別性(因為遮罩 )
 ,MFCCs的前13項足以描述語音特徵

噪声的敏感性

MFCC特征在加性噪声的情况下并不稳定,因此在语音识别系统中通常要对其进行归一化处理(normalise)以降低噪声的影响。一些研究人员对MFCC算法进行修改以提升其強健性,如在进行DCT之前将log-mel-amplitudes提升到一个合适的能量(2到3之间),以此来降低低能量成分的影响.[3]

参考文献

  1. ^ T. Ganchev, N. Fakotakis, and G. Kokkinakis (2005), "Comparative evaluation of various MFCC implementations on the speaker verification task 互联网档案馆的,存档日期2011-07-17.," in 10th International Conference on Speech and Computer (SPECOM 2005), Vol. 1, pp. 191–194.
  2. ^ Meinard Müller. Information Retrieval for Music and Motion. Springer. 2007: 65. ISBN 978-3-540-74047-6. 
  3. ^ V. Tyagi and C. Wellekens (2005), On desensitizing the Mel-Cepstrum to spurious spectral components for Robust Speech Recognition, in Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP ’05). IEEE International Conference on, vol. 1, pp. 529–532.

外部链接

  • A tutorial on MFCCs for Automatic Speech Recognition (页面存档备份,存于互联网档案馆

梅尔频率倒谱系数, 建議将此條目或章節併入梅爾倒頻譜, 討論, 在聲音處理領域中, 梅爾頻率倒譜, frequency, cepstrum, 是基於聲音頻率的非線性梅爾刻度, scale, 的對數能量頻譜的線性變換, 梅爾頻率倒譜系數, frequency, cepstral, coefficients, mfccs, 就是組成梅爾頻率倒譜的係數, 它衍生自音訊片段的倒頻譜, cepstrum, 倒譜和梅爾頻率倒譜的區別在於, 梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的, 它比用於正常的對數倒頻譜中的線性間隔的. 建議将此條目或章節併入梅爾倒頻譜 討論 在聲音處理領域中 梅爾頻率倒譜 Mel Frequency Cepstrum 是基於聲音頻率的非線性梅爾刻度 mel scale 的對數能量頻譜的線性變換 梅爾頻率倒譜系數 Mel Frequency Cepstral Coefficients MFCCs 就是組成梅爾頻率倒譜的係數 它衍生自音訊片段的倒頻譜 cepstrum 倒譜和梅爾頻率倒譜的區別在於 梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的 它比用於正常的對數倒頻譜中的線性間隔的頻帶更能近似人類的聽覺系統 這樣的非線性表示 可以在多個領域中使聲音信號有更好的表示 例如在音訊壓縮中 梅爾頻率倒譜係數 MFCC 廣泛被應用於語音識別的功能 他們由Davis和Mermelstein在1980年代提出 並在其後持續是最先進的技術之一 在MFCC之前 線性預測係數 LPCS 和線性預測倒譜系數 LPCCs 是自動語音識別的的主流方法 MFCC通常有以下之過程 1 2 將一段語音信號分解為多個訊框 將語音信號預強化 通過一個高通濾波器 進行傅立叶变换 將信號轉換至頻域 將每個訊框獲得的频譜通過梅爾濾波器 三角重叠窗口 得到梅爾刻度 在每个梅爾刻度上提取對數能量 对上面获得的结果进行離散餘弦轉換 轉換到倒頻譜域 MFCC就是這個倒频谱图的幅度 amplitudes 一般使用12個係數 與訊框能量疊加得13維的係數 目录 1 MFCC的原理 2 參考 3 詳細推導 4 应用 5 噪声的敏感性 6 参考文献 7 外部链接 MFCC的原理 编辑 聲音信號是連續變化的 為了將連續變化信號簡化 我們假設在一個短時間尺度內 音頻信號不發生改變 因此將信號以多個取樣點集合成一個單位 稱為 訊框 一個訊框多為20 40毫秒 如果訊框長度更短 那每個訊框內的取樣點將不足以做出可靠的頻譜計算 但若長度太長 則每個訊框信號會變化太大 預強化的目的就是為了消除發聲過程中 聲帶和嘴唇造成的效應 來補償語音信號受到發音系統所壓抑的高頻部分 並且能突顯高頻的共振峰 由於訊號在時域上的變化通常很難看出訊號的特性 所以通常透過傅立葉轉換將它轉換成頻域上的能量分佈來觀察 不同的能量分佈 就能代表不同語音的特性 由於能量頻譜中還存在大量的無用訊息 尤其人耳無法分辨高頻的頻率變化 因此讓頻譜通過梅爾濾波器 梅爾濾波器 也就是一組20個非線性分布的三角帶通濾波器 Triangular Bandpass Filters 能求得每一個濾波器輸出的對數能量 必須注意的是 這 20 個三角帶通濾波器在 梅爾刻度 的頻率上是平均分佈的 梅爾頻率代表一般人耳對於頻率的感受度 由此也可以看出人耳對於頻率 f 的感受是呈對數變化的 http i stack imgur com YUH48 gif 页面存档备份 存于互联网档案馆 最後的步驟是計算對數濾波器的能量的離散傅立葉反變換 在此相當於離散餘弦反變換 IDCT 值得注意的是 雖然通常的會有24 26個係數 但我們只保留前12個係數 這是因為丟棄高倒頻域值的DCT係數 代表一個類似低通濾波器的概念 可以使信號平滑化 能增進語音處理的性能 3 4 5 在此过程中可以有很多变化 例如 映射时的窗口的形状和间距 6 The 欧洲电信标准协会在2000年初定义了一个可以用在移动电话上的标准MFCC算法 7 參考 编辑 Min Xu et al HMM based audio keyword generation Kiyoharu Aizawa Yuichi Nakamura Shin ichi Satoh 编 Advances in Multimedia Information Processing PCM 2004 5th Pacific Rim Conference on Multimedia PDF Springer 2004 2013 04 26 ISBN 3 540 23985 5 原始内容 PDF 存档于2007 05 10 引文格式1维护 显式使用等标签 link Sahidullah Md Saha Goutam Design analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition Speech Communication May 2012 54 4 543 565 2013 04 26 doi 10 1016 j specom 2011 11 004 原始内容存档于2015 09 24 引文使用过时参数coauthors 帮助 存档副本 2014 06 27 原始内容存档于2015 09 21 存档副本 2014 06 27 原始内容存档于2014 06 27 http djj ee ntu edu tw ADSP tutorial D98921028 pdf 永久失效連結 Fang Zheng Guoliang Zhang and Zhanjiang Song 2001 Comparison of Different Implementations of MFCC 页面存档备份 存于互联网档案馆 J Computer Science amp Technology 16 6 582 589 European Telecommunications Standards Institute 2003 Speech Processing Transmission and Quality Aspects STQ Distributed speech recognition Front end feature extraction algorithm Compression algorithms 页面存档备份 存于互联网档案馆 Technical standard ES 201 108 v1 1 3 詳細推導 编辑1 對該信號做傅立葉變換 X k FT x n 2 根據下面公式算出Y m Y m log k f m 1 f m 1 X k 2 B m k displaystyle Y m log left sum k f m 1 f m 1 left X k right 2 B m k right 其中B m k displaystyle B m k 是梅爾頻率倒頻譜的遮罩 梅爾頻率倒頻譜的遮罩 B m k 0 for k lt f m 1 and k gt f m 1 k f m 1 f m f m 1 for f m 1 k f m f m 1 k f m 1 f m for f m k f m 1 displaystyle B m k begin cases 0 amp mbox for k lt f m 1 mbox and k gt f m 1 cfrac k f m 1 f m f m 1 amp mbox for f m 1 leq k leq f m cfrac f m 1 k f m 1 f m amp mbox for f m leq k leq f m 1 end cases 3 對Y m 做IDCT得c x n displaystyle c x n 因為Y m 是偶函數 故用IDCT 反離散餘弦變換 取代IDFT 反離散傅立葉變換 c x n 1 M m 1 M Y m c o s p n m 1 2 M displaystyle c x n frac 1 M sum m 1 M Y m cos left cfrac pi n m 1 2 M right 與原倒頻譜的差異 一 log裡面因為使用了sum 故等於0的機率變小 二 避免了相位的問題 三 使用IDCT取代IDFT 減少了運算量 四 B m k displaystyle B m k 隨著頻率的增加而增寬 該特性符合人類聽覺 更適合用來描述語音特徵应用 编辑MFCC主要作为语音识别系统中的特征 这样的系统可以自动识别语音中的数字内容 MFCC同样也用于说话人识别 英语 Speaker Recognition 该技术尝试通过语音该鉴别说话人 1 MFCC也被用于语音信息检索 英语 music information retrieval 领域 如流派分类 genre classification 音频相似性计算等 2 比起倒頻譜 梅爾倒頻譜更接近人耳對於語音的區別性 因為遮罩B k displaystyle B k 用c x 1 c x 2 c x 13 displaystyle c x 1 c x 2 c x 13 MFCCs的前13項足以描述語音特徵噪声的敏感性 编辑MFCC特征在加性噪声的情况下并不稳定 因此在语音识别系统中通常要对其进行归一化处理 normalise 以降低噪声的影响 一些研究人员对MFCC算法进行修改以提升其強健性 如在进行DCT之前将log mel amplitudes提升到一个合适的能量 2到3之间 以此来降低低能量成分的影响 3 参考文献 编辑 T Ganchev N Fakotakis and G Kokkinakis 2005 Comparative evaluation of various MFCC implementations on the speaker verification task 互联网档案馆的存檔 存档日期2011 07 17 in 10th International Conference on Speech and Computer SPECOM 2005 Vol 1 pp 191 194 Meinard Muller Information Retrieval for Music and Motion Springer 2007 65 ISBN 978 3 540 74047 6 V Tyagi and C Wellekens 2005 On desensitizing the Mel Cepstrum to spurious spectral components for Robust Speech Recognition in Acoustics Speech and Signal Processing 2005 Proceedings ICASSP 05 IEEE International Conference on vol 1 pp 529 532 外部链接 编辑A tutorial on MFCCs for Automatic Speech Recognition 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title 梅尔频率倒谱系数 amp oldid 63777381, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。