fbpx
维基百科

基音檢測算法

基音檢測演算法(英語:pitch detection algorithm,縮寫:PDA)是估計周期性準周期性英语Quasiperiodicity訊號音高基本頻率的算法。該算法主要用於語音或樂音的信號處理中。基音檢測算法既可以單獨從時域頻域的角度實現,也可以同時利用時域和頻域。

基音檢測算法的用途廣泛,在語音學音樂分析英语Music information retrieval語音編碼電子音樂表演中均有重要位置。這些不同的需求使得通用算法的產生更為困難,故目前尚不存在完美的基音檢測算法,實際使用中有一系列算法共存。多數基音檢測算法大致可歸類為下述分類中的一種[1]

通常情況下,基音檢測算法會估計準周期性信號的周期。周期的倒數即為頻率。

常見的算法

最簡單的方法之一是算出信號零點間的間隔(過零率)。這種方法的缺點在於它無法應對諸如多個周期不同的正弦波或噪音這樣的覆雜波形。不過這並不意味著這種方法一無是處,在只有單一聲源的情景中過零率是個不錯的基音檢測指標。這種算法相當易於實現。

更複雜的方法會將原訊號平移一些時間,去跟原本訊號內積比對相似度,若平移若幹時間後的訊號與原訊號很相似,則平移時間非常可能是該訊號之週期,透過嘗試不同的平移時間,可把平移時間對相似度作圖,找出相似度最大的週期, 像是AMDF演算法 (平均幅度差函數), ASMDF演算法 (平均方均差函數)和其他類似的自相關函數法,可以精確的找出基音。但是自相關函數法有時會因為雜訊太多、複音、泛音等因素(通常是“八度音程錯誤”),導致判斷錯誤。他們可以很好地應對噪聲信號(取決於實際狀況),但不能很好地處理複音音樂(涉及多個音符)。[來源請求]

目前最精確的基音檢測算法會先結合各種找相似度的方法(內積、差值),並透過人類的經驗法則去修正去設門檻值,像是若訊號為音訊,可確定頻率範圍在20赫茲到20000赫茲間,可先鎖定平移時間在0.00005秒到0.05秒的範圍間,最後透過機率模型機器學習的方法來判斷音高。像是廣泛被採用的YIN演算法[2]與MPM演算法[3],皆為自相關函數法的進階版,但仍侷限在單音的音頻偵測,若訊號為複音,同時有兩個音源,往往會採用頻域的方法。

基于頻域的算法

若訊號為複音,要同時偵測兩個以上的音源之頻率,在頻域中是可行的,首先會先將訊號轉為頻譜[4] ,常見的方法是透過快速傅立葉變換,可在有限運算資源下,得到非常有效的準確度。

常見的頻域方法包含泛音內積頻譜法[5][6]、倒頻譜分析[7],最大似然估計法,他們都是由預設的頻率對照表,試圖從訊號頻譜特徵中,找到對應之頻率[8]

為了改進從離散傅立葉頻譜得到的基音估計,可以使用重新分佈法 (基於相位) or 格蘭徳克插值 (基於幅度) 的技術超出離散傅立葉頻段提供的精度。 布朗和普克特提供了另一種基於階段的方法 [9]

基于频域和时域的算法

頻譜/動態的基音檢測法,像是YAAPT[10][11],結合了時域和頻域,時域方面,透過自相關函數法,頻域則是透過頻譜資訊來辨識出音高,並從較為可能的音高種類中,利用動態規劃找出最佳的音高選擇,這種結合時域和頻域的演算法,可以結合更多資訊,降低時域或頻域所獨立造成的誤差。

語音訊號的基本頻率

語音訊號的基本頻率範圍大約為40赫茲到600赫茲。[12]


自相關函數法需要至少兩個周期才能偵測頻率,假如音訊的基本頻率為40赫茲,至少需要0.05秒的語音訊號才能分析。然而在0.05秒內,具有較高基頻的語音不一定在整個窗口中具有相同的基頻。[12]

參考資料

  1. ^ D. Gerhard. Pitch Extraction and Fundamental Frequency: History and Current Techniques (页面存档备份,存于互联网档案馆), technical report, Dept. of Computer Science, University of Regina, 2003.
  2. ^ A. de Cheveigné and H. Kawahara. YIN, a fundamental frequency estimator for speech and music.[永久失效連結] The Journal of the Acoustical Society of America, 111:1917, 2002. doi:10.1121/1.1458024
  3. ^ P. McLeod and G. Wyvill. A smarter way to find pitch. (页面存档备份,存于互联网档案馆) In Proceedings of the International Computer Music Conference (ICMC’05), 2005.
  4. ^ Hayes, Monson. Statistical Digital Signal Processing and Modeling. John Wiley & Sons, Inc. 1996: 393. ISBN 0-471-59431-8. 
  5. ^ Pitch Detection Algorithms (页面存档备份,存于互联网档案馆), online resource from Connexions
  6. ^ A. Michael Noll, “Pitch Determination of Human Speech by the Harmonic Product Spectrum, the Harmonic Sum Spectrum and a Maximum Likelihood Estimate,” Proceedings of the Symposium on Computer Processing in Communications, Vol. XIX, Polytechnic Press: Brooklyn, New York, (1970), pp. 779-797.
  7. ^ A. Michael Noll, “Cepstrum Pitch Determination,” Journal of the Acoustical Society of America, Vol. 41, No. 2, (February 1967), pp. 293-309.
  8. ^ Mitre, Adriano; Queiroz, Marcelo; Faria, Régis. Accurate and Efficient Fundamental Frequency Determination from Precise Partial Estimates. (页面存档备份,存于互联网档案馆) Proceedings of the 4th AES Brazil Conference. 113-118, 2006.
  9. ^ Brown JC and Puckette MS (1993). A high resolution fundamental frequency determination based on phase changes of the Fourier transform. J. Acoust. Soc. Am. Volume 94, Issue 2, pp. 662-667 [1]
  10. ^ Stephen A. Zahorian and Hongbing Hu. A Spectral/temporal method for Robust Fundamental Frequency Tracking. (页面存档备份,存于互联网档案馆) The Journal of the Acoustical Society of America, 123 (6), 2008. doi:10.1121/1.2916590
  11. ^ Stephen A. Zahorian and Hongbing Hu. YAAPT Pitch Tracking MATLAB Function (页面存档备份,存于互联网档案馆
  12. ^ 12.0 12.1 Huang, Xuedong; Alex Acero; Hsiao-Wuen Hon. Spoken Language Processing. Prentice Hall PTR. 2001: 325. ISBN 0-13-022616-5. 

另请参阅

基音檢測算法, 此條目需要編修, 以確保文法, 用詞, 语气, 格式, 標點等使用恰当, 2015年7月3日, 請按照校對指引, 幫助编辑這個條目, 幫助, 討論, 此條目目前正依照en, pitch, detection, algorithm上的内容进行翻译, 2018年8月28日, 如果您擅长翻译, 並清楚本條目的領域, 欢迎协助翻譯, 改善或校对本條目, 此外, 长期闲置, 未翻譯或影響閱讀的内容可能会被移除, 基音檢測演算法, 英語, pitch, detection, algorithm, 縮寫, 是估計. 此條目需要編修 以確保文法 用詞 语气 格式 標點等使用恰当 2015年7月3日 請按照校對指引 幫助编辑這個條目 幫助 討論 此條目目前正依照en Pitch detection algorithm上的内容进行翻译 2018年8月28日 如果您擅长翻译 並清楚本條目的領域 欢迎协助翻譯 改善或校对本條目 此外 长期闲置 未翻譯或影響閱讀的内容可能会被移除 基音檢測演算法 英語 pitch detection algorithm 縮寫 PDA 是估計周期性或準周期性 英语 Quasiperiodicity 訊號的音高或基本頻率的算法 該算法主要用於語音或樂音的信號處理中 基音檢測算法既可以單獨從時域或頻域的角度實現 也可以同時利用時域和頻域 基音檢測算法的用途廣泛 在語音學 音樂分析 英语 Music information retrieval 語音編碼和電子音樂表演中均有重要位置 這些不同的需求使得通用算法的產生更為困難 故目前尚不存在完美的基音檢測算法 實際使用中有一系列算法共存 多數基音檢測算法大致可歸類為下述分類中的一種 1 通常情況下 基音檢測算法會估計準周期性信號的周期 周期的倒數即為頻率 目录 1 常見的算法 2 基于頻域的算法 3 基于频域和时域的算法 4 語音訊號的基本頻率 5 參考資料 6 另请参阅 常見的算法 编辑 最簡單的方法之一是算出信號零點間的間隔 過零率 這種方法的缺點在於它無法應對諸如多個周期不同的正弦波或噪音這樣的覆雜波形 不過這並不意味著這種方法一無是處 在只有單一聲源的情景中過零率是個不錯的基音檢測指標 這種算法相當易於實現 更複雜的方法會將原訊號平移一些時間 去跟原本訊號內積比對相似度 若平移若幹時間後的訊號與原訊號很相似 則平移時間非常可能是該訊號之週期 透過嘗試不同的平移時間 可把平移時間對相似度作圖 找出相似度最大的週期 像是AMDF演算法 平均幅度差函數 ASMDF演算法 平均方均差函數 和其他類似的自相關函數法 可以精確的找出基音 但是自相關函數法有時會因為雜訊太多 複音 泛音等因素 通常是 八度音程錯誤 導致判斷錯誤 他們可以很好地應對噪聲信號 取決於實際狀況 但不能很好地處理複音音樂 涉及多個音符 來源請求 目前最精確的基音檢測算法會先結合各種找相似度的方法 內積 差值 並透過人類的經驗法則去修正去設門檻值 像是若訊號為音訊 可確定頻率範圍在20赫茲到20000赫茲間 可先鎖定平移時間在0 00005秒到0 05秒的範圍間 最後透過機率模型或機器學習的方法來判斷音高 像是廣泛被採用的YIN演算法 2 與MPM演算法 3 皆為自相關函數法的進階版 但仍侷限在單音的音頻偵測 若訊號為複音 同時有兩個音源 往往會採用頻域的方法 基于頻域的算法 编辑 若訊號為複音 要同時偵測兩個以上的音源之頻率 在頻域中是可行的 首先會先將訊號轉為頻譜 4 常見的方法是透過快速傅立葉變換 可在有限運算資源下 得到非常有效的準確度 常見的頻域方法包含泛音內積頻譜法 5 6 倒頻譜分析 7 最大似然估計法 他們都是由預設的頻率對照表 試圖從訊號頻譜特徵中 找到對應之頻率 8 為了改進從離散傅立葉頻譜得到的基音估計 可以使用重新分佈法 基於相位 or 格蘭徳克插值 基於幅度 的技術超出離散傅立葉頻段提供的精度 布朗和普克特提供了另一種基於階段的方法 9 基于频域和时域的算法 编辑 頻譜 動態的基音檢測法 像是YAAPT 10 11 結合了時域和頻域 時域方面 透過自相關函數法 頻域則是透過頻譜資訊來辨識出音高 並從較為可能的音高種類中 利用動態規劃找出最佳的音高選擇 這種結合時域和頻域的演算法 可以結合更多資訊 降低時域或頻域所獨立造成的誤差 語音訊號的基本頻率 编辑 語音訊號的基本頻率範圍大約為40赫茲到600赫茲 12 自相關函數法需要至少兩個周期才能偵測頻率 假如音訊的基本頻率為40赫茲 至少需要0 05秒的語音訊號才能分析 然而在0 05秒內 具有較高基頻的語音不一定在整個窗口中具有相同的基頻 12 參考資料 编辑 D Gerhard Pitch Extraction and Fundamental Frequency History and Current Techniques 页面存档备份 存于互联网档案馆 technical report Dept of Computer Science University of Regina 2003 A de Cheveigne and H Kawahara YIN a fundamental frequency estimator for speech and music 永久失效連結 The Journal of the Acoustical Society of America 111 1917 2002 doi 10 1121 1 1458024 P McLeod and G Wyvill A smarter way to find pitch 页面存档备份 存于互联网档案馆 In Proceedings of the International Computer Music Conference ICMC 05 2005 Hayes Monson Statistical Digital Signal Processing and Modeling John Wiley amp Sons Inc 1996 393 ISBN 0 471 59431 8 Pitch Detection Algorithms 页面存档备份 存于互联网档案馆 online resource from Connexions A Michael Noll Pitch Determination of Human Speech by the Harmonic Product Spectrum the Harmonic Sum Spectrum and a Maximum Likelihood Estimate Proceedings of the Symposium on Computer Processing in Communications Vol XIX Polytechnic Press Brooklyn New York 1970 pp 779 797 A Michael Noll Cepstrum Pitch Determination Journal of the Acoustical Society of America Vol 41 No 2 February 1967 pp 293 309 Mitre Adriano Queiroz Marcelo Faria Regis Accurate and Efficient Fundamental Frequency Determination from Precise Partial Estimates 页面存档备份 存于互联网档案馆 Proceedings of the 4th AES Brazil Conference 113 118 2006 Brown JC and Puckette MS 1993 A high resolution fundamental frequency determination based on phase changes of the Fourier transform J Acoust Soc Am Volume 94 Issue 2 pp 662 667 1 Stephen A Zahorian and Hongbing Hu A Spectral temporal method for Robust Fundamental Frequency Tracking 页面存档备份 存于互联网档案馆 The Journal of the Acoustical Society of America 123 6 2008 doi 10 1121 1 2916590 Stephen A Zahorian and Hongbing Hu YAAPT Pitch Tracking MATLAB Function 页面存档备份 存于互联网档案馆 12 0 12 1 Huang Xuedong Alex Acero Hsiao Wuen Hon Spoken Language Processing Prentice Hall PTR 2001 325 ISBN 0 13 022616 5 另请参阅 编辑 节拍检测 英语 Beat detection 谱密度估计 英语 Spectral density estimation 线性预测编码 MUSIC演算法 取自 https zh wikipedia org w index php title 基音檢測算法 amp oldid 71260119, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。