fbpx
维基百科

梅爾倒頻譜

訊號處理中,梅爾倒頻譜(Mel-Frequency Cepstrum, MFC)係一個可用來代表短期音訊的頻譜,其原理基于用非線性的梅爾刻度(mel scale)表示的對數頻譜及其線性餘弦轉換(linear cosine transform)上。

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)是一組用來建立梅爾倒頻譜的關鍵係數。由音樂訊號當中的片段,可以得到一組足以代表此音樂訊號之倒頻譜(Cepstrum),而梅爾倒頻譜係數即是從這個倒頻譜中推得的倒頻譜(也就是頻譜的頻譜)。與一般的倒頻譜不同 ,梅爾倒頻譜最大的特色在於,於梅爾倒頻譜上的頻帶是均勻分布於梅爾刻度上的,也就是說,這樣的頻帶相較於一般所看到、線性的倒頻譜表示方法,和人類非線性的聽覺系統更為接近。例如:在音訊壓縮的技術中,便常常使用梅爾倒頻譜來處理。

梅爾倒頻譜係數通常是用以下方法得到的:[1][2]

  1. 將一訊號進行傅利葉轉換
  2. 利用三角窗函數(triangular overlapping window),將頻譜映射(mapping)至梅爾刻度
  3. 對數
  4. 離散餘弦轉換
  5. MFCC是轉換後的頻譜

取得梅爾倒頻譜的方法眾多,上述只是其中一種。

另外,ETSI在2000年左右有定義一套專為行動電話設計的梅爾倒頻譜係數演算法。

應用

梅爾倒頻譜係數通常可以用於作為语音识别系統中的特徵質觀察,例如:可以自動辨認一個人透過電話說的數字。梅爾倒頻譜係數通常也可以作為声纹识别(Speaker Recognition),也就是、用來辨識某段語音訊號的發話者是誰的技術。

梅爾倒頻譜係數在近年來於音樂分類(music genre classification)相關應用的領域也逐漸嶄露頭角,例如尋找一段音樂的相似程度等。 [3]

語音辨識

梅爾頻率倒譜係數MFCC和感知線性預測PLP:不同於LPC等通過對人的發聲機理的研究而得到的聲學特徵,Mel倒譜係數MFCC和感知線性預測PLP是受人的聽覺系統研究成果推動而導出的聲學特徵。對人的聽覺機理的研究發現,當兩個頻率相近的音調同時發出時,人只能聽到一個音調。臨界帶寬指的就是這樣一種令人的主觀感覺發生突變的帶寬邊界,當兩個音調的頻率差小於臨界帶寬時,人就會把兩個音調聽成一個,這稱之為屏蔽效應。Mel刻度是對這一臨界帶寬的度量方法之一。 MFCC的計算首先用FFT將時域信號轉化成頻域,之後對其對數能量譜用依照Mel刻度分布的三角濾波器組進行卷積,最後對各個濾波器的輸出構成的向量進行離散餘弦變換DCT,取前N個係數。PLP仍用德賓法去計算LPC參數,但在計算自相關參數時用的也是對聽覺激勵的對數能量譜進行DCT的方法。

雜訊

梅爾倒頻譜係數並非相當穩定,在計算當中,一組係數其實相當容易受到外加的雜訊影響;為了對抗雜訊,通常會將梅爾倒頻譜係數在語音辨認上進行正規化(normalization)的動作,以減少雜訊造成的影響。

另外,有些研究者會將梅爾倒頻譜係數基礎的演算法設計的更加頑強,例如:在進行餘弦轉換前增加對數化梅爾係數的能量值至一個合適的範圍,以減少諸如雜訊等低能量項對於整個係數結果的影響。

歷史

一般認為Paul Mermelstein[4][5] 是主要致力於發展梅爾倒頻譜的人,然而 Mermelstein 本人卻將主要的概念功勞歸給 Bridle 和 Brown[6] for the idea:

Bridle 和 Brown 運用了一組十九個、由餘弦轉換導出的頻譜型的係數,轉換的輸入值是訊號在一組在頻帶上有非均勻間隔分布的帶通濾波器後的輸出。

濾波器的間隔是呈現對數分布的;因此,一般稱之為梅爾式的導頻譜係數[4]

通常此兩組起源都會被人當作參照使用。

另外,許多作者包括Mermelstein都認為,梅爾倒頻譜中這樣以頻譜為基準的餘弦轉換函式,非常接近早期用於語音表徵和辨認、對對數化頻譜進型的主成分分析;關於這部分相關的資訊,可參考Pols和它同事的研究。[7][8]

係數推導

1. 對該信號做傅立葉變換


 


2. 根據下面公式算出Y[m]


 


其中 是梅爾頻率倒頻譜的遮罩


 


3.對Y[m]做IDCT得 ,因為Y[m]是偶函數,故用IDCT(反離散餘弦變換)取代IDFT(反離散傅立葉變換)


 


參考

  1. ^ Min Xu; et al. HMM-based audio keyword generation. Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh (编). (PDF). Springer. 2004 [2015-07-02]. ISBN 3-540-23985-5. (原始内容 (PDF)存档于2007-05-10). 
  2. ^ Sahidullah, Md.; Saha, Goutam. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Communication. May 2012, 54 (4): 543–565 [2015-07-02]. doi:10.1016/j.specom.2011.11.004. (原始内容于2015-09-24). 
  3. ^ Meinard Müller. Information Retrieval for Music and Motion. Springer. 2007: 65. ISBN 978-3-540-74047-6. 
  4. ^ 4.0 4.1 P. Mermelstein (1976), "Distance measures for speech recognition, psychological and instrumental," in Pattern Recognition and Artificial Intelligence, C. H. Chen, Ed., pp. 374–388. Academic, New York.
  5. ^ S.B. Davis, and P. Mermelstein (1980), "Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences," in IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4), pp. 357–366.
  6. ^ J. S. Bridle and M. D. Brown (1974), "An Experimental Automatic Word-Recognition System", JSRU Report No. 1003, Joint Speech Research Unit, Ruislip, England.
  7. ^ L. C. W. Pols (1966), "Spectral Analysis and Identification of Dutch Vowels in Monosyllabic Words," Doctoral dissertion, Free University, Amsterdam, The Netherlands
  8. ^ R. Plomp, L. C. W. Pols, and J. P. van de Geer (1967). "Dimensional analysis of vowel spectra (页面存档备份,存于互联网档案馆)." J. Acoustical Society of America, 41(3):707–712.

梅爾倒頻譜, 建議将梅尔频率倒谱系数併入此條目或章節, 討論, 沒有或很少條目链入本條目, 2015年7月2日, 請根据格式指引, 在其他相關條目加入本條目的內部連結, 來建構維基百科內部網絡, 在訊號處理中, frequency, cepstrum, 係一個可用來代表短期音訊的頻譜, 其原理基于用非線性的梅爾刻度, scale, 表示的對數頻譜及其線性餘弦轉換, linear, cosine, transform, 梅尔频率倒谱系数, frequency, cepstral, coefficients, mfcc. 建議将梅尔频率倒谱系数併入此條目或章節 討論 沒有或很少條目链入本條目 2015年7月2日 請根据格式指引 在其他相關條目加入本條目的內部連結 來建構維基百科內部網絡 在訊號處理中 梅爾倒頻譜 Mel Frequency Cepstrum MFC 係一個可用來代表短期音訊的頻譜 其原理基于用非線性的梅爾刻度 mel scale 表示的對數頻譜及其線性餘弦轉換 linear cosine transform 上 梅尔频率倒谱系数 Mel Frequency Cepstral Coefficients MFCC 是一組用來建立梅爾倒頻譜的關鍵係數 由音樂訊號當中的片段 可以得到一組足以代表此音樂訊號之倒頻譜 Cepstrum 而梅爾倒頻譜係數即是從這個倒頻譜中推得的倒頻譜 也就是頻譜的頻譜 與一般的倒頻譜不同 梅爾倒頻譜最大的特色在於 於梅爾倒頻譜上的頻帶是均勻分布於梅爾刻度上的 也就是說 這樣的頻帶相較於一般所看到 線性的倒頻譜表示方法 和人類非線性的聽覺系統更為接近 例如 在音訊壓縮的技術中 便常常使用梅爾倒頻譜來處理 梅爾倒頻譜係數通常是用以下方法得到的 1 2 將一訊號進行傅利葉轉換 利用三角窗函數 triangular overlapping window 將頻譜映射 mapping 至梅爾刻度 取對數 取離散餘弦轉換 MFCC是轉換後的頻譜取得梅爾倒頻譜的方法眾多 上述只是其中一種 另外 ETSI在2000年左右有定義一套專為行動電話設計的梅爾倒頻譜係數演算法 目录 1 應用 1 1 語音辨識 2 雜訊 3 歷史 4 係數推導 5 參考應用 编辑梅爾倒頻譜係數通常可以用於作為语音识别系統中的特徵質觀察 例如 可以自動辨認一個人透過電話說的數字 梅爾倒頻譜係數通常也可以作為声纹识别 Speaker Recognition 也就是 用來辨識某段語音訊號的發話者是誰的技術 梅爾倒頻譜係數在近年來於音樂分類 music genre classification 相關應用的領域也逐漸嶄露頭角 例如尋找一段音樂的相似程度等 3 語音辨識 编辑 梅爾頻率倒譜係數MFCC和感知線性預測PLP 不同於LPC等通過對人的發聲機理的研究而得到的聲學特徵 Mel倒譜係數MFCC和感知線性預測PLP是受人的聽覺系統研究成果推動而導出的聲學特徵 對人的聽覺機理的研究發現 當兩個頻率相近的音調同時發出時 人只能聽到一個音調 臨界帶寬指的就是這樣一種令人的主觀感覺發生突變的帶寬邊界 當兩個音調的頻率差小於臨界帶寬時 人就會把兩個音調聽成一個 這稱之為屏蔽效應 Mel刻度是對這一臨界帶寬的度量方法之一 MFCC的計算首先用FFT將時域信號轉化成頻域 之後對其對數能量譜用依照Mel刻度分布的三角濾波器組進行卷積 最後對各個濾波器的輸出構成的向量進行離散餘弦變換DCT 取前N個係數 PLP仍用德賓法去計算LPC參數 但在計算自相關參數時用的也是對聽覺激勵的對數能量譜進行DCT的方法 雜訊 编辑梅爾倒頻譜係數並非相當穩定 在計算當中 一組係數其實相當容易受到外加的雜訊影響 為了對抗雜訊 通常會將梅爾倒頻譜係數在語音辨認上進行正規化 normalization 的動作 以減少雜訊造成的影響 另外 有些研究者會將梅爾倒頻譜係數基礎的演算法設計的更加頑強 例如 在進行餘弦轉換前增加對數化梅爾係數的能量值至一個合適的範圍 以減少諸如雜訊等低能量項對於整個係數結果的影響 歷史 编辑一般認為Paul Mermelstein 4 5 是主要致力於發展梅爾倒頻譜的人 然而 Mermelstein 本人卻將主要的概念功勞歸給 Bridle 和 Brown 6 for the idea Bridle 和 Brown 運用了一組十九個 由餘弦轉換導出的頻譜型的係數 轉換的輸入值是訊號在一組在頻帶上有非均勻間隔分布的帶通濾波器後的輸出 濾波器的間隔是呈現對數分布的 因此 一般稱之為梅爾式的導頻譜係數 4 通常此兩組起源都會被人當作參照使用 另外 許多作者包括Mermelstein都認為 梅爾倒頻譜中這樣以頻譜為基準的餘弦轉換函式 非常接近早期用於語音表徵和辨認 對對數化頻譜進型的主成分分析 關於這部分相關的資訊 可參考Pols和它同事的研究 7 8 係數推導 编辑1 對該信號做傅立葉變換X k F T x n displaystyle X k FT x n 2 根據下面公式算出Y m Y m log k f m 1 f m 1 X k 2 B m k displaystyle Y m log left sum k f m 1 f m 1 left X k right 2 B m k right 其中B m k displaystyle B m k 是梅爾頻率倒頻譜的遮罩B m k 0 for k lt f m 1 and k gt f m 1 k f m 1 f m f m 1 for f m 1 k f m f m 1 k f m 1 f m for f m k f m 1 displaystyle B m k begin cases 0 amp mbox for k lt f m 1 mbox and k gt f m 1 cfrac k f m 1 f m f m 1 amp mbox for f m 1 leq k leq f m cfrac f m 1 k f m 1 f m amp mbox for f m leq k leq f m 1 end cases 3 對Y m 做IDCT得c x n displaystyle c x n 因為Y m 是偶函數 故用IDCT 反離散餘弦變換 取代IDFT 反離散傅立葉變換 c x n 1 M m 1 M Y m c o s p n m 1 2 M displaystyle c x n frac 1 M sum m 1 M Y m cos left cfrac pi n m 1 2 M right 參考 编辑 Min Xu et al HMM based audio keyword generation Kiyoharu Aizawa Yuichi Nakamura Shin ichi Satoh 编 Advances in Multimedia Information Processing PCM 2004 5th Pacific Rim Conference on Multimedia PDF Springer 2004 2015 07 02 ISBN 3 540 23985 5 原始内容 PDF 存档于2007 05 10 引文格式1维护 显式使用等标签 link Sahidullah Md Saha Goutam Design analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition Speech Communication May 2012 54 4 543 565 2015 07 02 doi 10 1016 j specom 2011 11 004 原始内容存档于2015 09 24 Meinard Muller Information Retrieval for Music and Motion Springer 2007 65 ISBN 978 3 540 74047 6 4 0 4 1 P Mermelstein 1976 Distance measures for speech recognition psychological and instrumental in Pattern Recognition and Artificial Intelligence C H Chen Ed pp 374 388 Academic New York S B Davis and P Mermelstein 1980 Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences in IEEE Transactions on Acoustics Speech and Signal Processing 28 4 pp 357 366 J S Bridle and M D Brown 1974 An Experimental Automatic Word Recognition System JSRU Report No 1003 Joint Speech Research Unit Ruislip England L C W Pols 1966 Spectral Analysis and Identification of Dutch Vowels in Monosyllabic Words Doctoral dissertion Free University Amsterdam The Netherlands R Plomp L C W Pols and J P van de Geer 1967 Dimensional analysis of vowel spectra 页面存档备份 存于互联网档案馆 J Acoustical Society of America 41 3 707 712 取自 https zh wikipedia org w index php title 梅爾倒頻譜 amp oldid 63777388, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。