fbpx
维基百科

VocaListener

VocaListener(簡稱ぼかりす)是一個自動測定用戶歌聲的語音合成參數的系統,可以簡單地把輸入的歌聲轉換成另一種風格或聲質的技術。技術分為三部分:一是合成歌聲模仿目標歌聲的核心技術「VocaListener-core」,二是編輯目標歌聲的技術「VocaListener-plus」,三是分析歌聲的技術「VocaListener-front-end」。主要由中野倫靖和後藤真孝參與研究,先後以VOCALOID 2初音未來鏡音鈴、連GACKPOID和VOCALOID的MEIKOKAITO作研究測試,採用的原因是因為產品已發放於市場,較容易入手。而音樂採用RWC研究用音樂資料庫(流行音樂)(RWC-MDB-P-2001)。研究目的是希望可以做到輕易合成高品質的歌聲,從而探索動聽歌聲的技巧,並在歌唱中得知人類個人的知覺。

VocaListener
開發者產業技術綜合研究所
网站staff.aist.go.jp/m.goto/VocaListener/index-j.html
語音合成系統

歷史

技術早於2006年8月已進行研究[1]。最初於2008年4月28日公開,於NICONICO動畫上載音樂軟件初音未來版本的《PROLOGUE (页面存档备份,存于互联网档案馆)》,歌曲原唱為聲優緒方智美。但最初只是寫作簡稱「ぼかりす」,並沒有正式發表技術,是一個試驗性質的公開。當時正值初音未來熱潮後不久,其極為自然、非常接近人類的歌聲大大超越初音未來平常歌曲的水準而被稱為「神調教」(把初音未來的歌曲調整得十分自然之意),更引起一段短暫對新技術真相的猜測[2]。同年5月2日承認「ぼかりす」就是VocaListener[3]。在5月28日的第75回音樂資訊科學研究會 (页面存档备份,存于互联网档案馆)正式發表。6月6日再公開鏡音鈴版本的《Game of Love (页面存档备份,存于互联网档案馆)》,歌曲原唱為吉井弘美。9月22日再同時公開KAITO、MEIKO、初音未來、鏡音鈴、連ACT2、GACKPOID和合唱版本的演歌《大漁船》,2009年2月6日再公開巡音流歌的版本,歌曲原唱為西一男。4月27日開始Yamaha的「Netぼかりす」Alpha版測試,只提供部份功能[4]

技術

系統先以VocaListener-front-end分析目標歌聲和歌詞,辨認音高、音量、歌詞等,再由用戶以VocaListener-plus編輯修正,其後以VocaListener-core分析歌聲並加以合成,反覆測定音高、音量、歌詞等的相似度,由用戶加以微調,最後得到合成歌聲的參數。

VocaListener-core

這是合成歌聲模仿目標歌聲的核心技術,由歌聲分析、歌聲合成、反覆的合成參數更新三種要素組成。歌聲分析的對象不止目標歌聲,亦會對合成後的歌聲作出分析,但分析的使用技術Viterbi alignment會有辨認錯誤的問題,需要反覆分析,務求兩者的風格盡量相近。判定音高分為MIDI的音名數值和滑音斜率。在音名數值中,組合VOCALOID 2滑音斜率(PIT、Pitch Bend)和滑音斜率敏感度(PBS、Pitch Bend Sensitivity)最多可以做出高或低兩個八度的滑音,而音名數值由以下數式選擇(NoteNumber:音名數值、σ=0.03、t是音符長度。):

 

而合成歌聲是 、目標歌聲則是 。經過重複計算而把兩個數值不斷更新,變得相似。把PIT和PBS轉換為數式則是如此:

 

而音量測定上是使用相對數值,反覆測定而得到從0至127的強弱(DYN、Dynamics)數值。

VocaListener-plus

這是編輯目標歌聲的技術,可以令歌聲有更廣闊的種類,但並非一定要使用。技術中分為兩種類,分別是改變音高和改變歌唱風格的機能。前者的改變音高,用途可以是修正走音,或可以合成原唱者不能唱出的音高。然而在音符較短的時候,可能會不能修正音高。後者可調整振音的強弱、音高、音量的平滑感,藉以改變歌唱風格,甚至加強歌唱的表現。

VocaListener-front-end

VocaListener-front-end則分為歌聲分析及歌聲合成,在歌聲分析中需要從原歌聲中抽出音高、音量、發音開始時間和音長

音高
由以下數式轉換為MIDI音名數值(fHz:基本頻率、fNoteNumber:MIDI的音名數值):

 

音量
由以下數式計算(N:窗幅、x(t):聲音波形、h(t):窗函數):

 

技術中N為2048(約46毫秒)、h(t)為漢寧(Hanning)窗
發音開始時間和音長
使用Viterbi alignment辨認音聲,再從歌詞轉換為音素,但偶然會有辨認錯誤,需要用戶修正。

參見

参考資料

  1. ^ ([//web.archive.org/web/20160305001026/http://hil.t.u-tokyo.ac.jp/publications/download.php?bib=Kameoka2006MUS08.pdf 页面存档备份,存于互联网档案馆) (页面存档备份,存于互联网档案馆スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ] (页面存档备份,存于互联网档案馆),發佈頁 (页面存档备份,存于互联网档案馆
  2. ^ . ITmedia. 2008年5月1日 [2008年5月3日]. (原始内容存档于2022年3月8日) (日语). 
  3. ^ 「NICONICO」的「初音未來歌聲」 達到「神的領域」令網絡騷然. J-CAST. 2008年5月2日 [2008年5月3日]. (原始内容于2008年5月3日) (日语). 
  4. ^ . ITmedia. 2009年4月27日 [2009年4月27日]. (原始内容存档于2021年10月7日) (日语). 
  • 中野倫靖、後藤真孝. (PDF). 産業技術綜合研究所. 2008年6月1日 [2008年6月1日]. (原始内容 (PDF)存档于2021年10月12日) (日语). 
  • 中野倫靖、後藤真孝. (PDF). 産業技術綜合研究所. 2008年6月1日 [2008年6月1日]. (原始内容 (PDF)存档于2021年10月12日) (日语). 

外部連結

  • (日語)VocaListener (页面存档备份,存于互联网档案馆
  • (日語)NICONICO動畫:VocaListener Demonstrations (页面存档备份,存于互联网档案馆
  • (英文)(日語)產業技術綜合研究所 (页面存档备份,存于互联网档案馆
  • (日語)後藤 真孝's Home Page (页面存档备份,存于互联网档案馆
  • (日語)
  • (英文)(日語)RWC音樂資料庫:流行音樂 (页面存档备份,存于互联网档案馆
  • (英文)(日語)RWC音樂資料庫:音樂分類 (页面存档备份,存于互联网档案馆

vocalistener, 簡稱ぼかりす, 是一個自動測定用戶歌聲的語音合成參數的系統, 可以簡單地把輸入的歌聲轉換成另一種風格或聲質的技術, 技術分為三部分, 一是合成歌聲模仿目標歌聲的核心技術, core, 二是編輯目標歌聲的技術, plus, 三是分析歌聲的技術, front, 主要由中野倫靖和後藤真孝參與研究, 先後以vocaloid, 2的初音未來, 鏡音鈴, gackpoid和vocaloid的meiko, kaito作研究測試, 採用的原因是因為產品已發放於市場, 較容易入手, 而音樂採用rwc研究用. VocaListener 簡稱ぼかりす 是一個自動測定用戶歌聲的語音合成參數的系統 可以簡單地把輸入的歌聲轉換成另一種風格或聲質的技術 技術分為三部分 一是合成歌聲模仿目標歌聲的核心技術 VocaListener core 二是編輯目標歌聲的技術 VocaListener plus 三是分析歌聲的技術 VocaListener front end 主要由中野倫靖和後藤真孝參與研究 先後以VOCALOID 2的初音未來 鏡音鈴 連 GACKPOID和VOCALOID的MEIKO KAITO作研究測試 採用的原因是因為產品已發放於市場 較容易入手 而音樂採用RWC研究用音樂資料庫 流行音樂 RWC MDB P 2001 研究目的是希望可以做到輕易合成高品質的歌聲 從而探索動聽歌聲的技巧 並在歌唱中得知人類個人的知覺 VocaListener開發者產業技術綜合研究所网站staff aist go jp m goto VocaListener index j html語音合成系統 目录 1 歷史 2 技術 2 1 VocaListener core 2 2 VocaListener plus 2 3 VocaListener front end 3 參見 4 参考資料 5 外部連結歷史 编辑技術早於2006年8月已進行研究 1 最初於2008年4月28日公開 於NICONICO動畫上載音樂軟件初音未來版本的 PROLOGUE 页面存档备份 存于互联网档案馆 歌曲原唱為聲優緒方智美 但最初只是寫作簡稱 ぼかりす 並沒有正式發表技術 是一個試驗性質的公開 當時正值初音未來熱潮後不久 其極為自然 非常接近人類的歌聲大大超越初音未來平常歌曲的水準而被稱為 神調教 把初音未來的歌曲調整得十分自然之意 更引起一段短暫對新技術真相的猜測 2 同年5月2日承認 ぼかりす 就是VocaListener 3 在5月28日的第75回音樂資訊科學研究會 页面存档备份 存于互联网档案馆 正式發表 6月6日再公開鏡音鈴版本的 Game of Love 页面存档备份 存于互联网档案馆 歌曲原唱為吉井弘美 9月22日再同時公開KAITO MEIKO 初音未來 鏡音鈴 連ACT2 GACKPOID和合唱版本的演歌 大漁船 2009年2月6日再公開巡音流歌的版本 歌曲原唱為西一男 4月27日開始Yamaha的 Netぼかりす Alpha版測試 只提供部份功能 4 技術 编辑系統先以VocaListener front end分析目標歌聲和歌詞 辨認音高 音量 歌詞等 再由用戶以VocaListener plus編輯修正 其後以VocaListener core分析歌聲並加以合成 反覆測定音高 音量 歌詞等的相似度 由用戶加以微調 最後得到合成歌聲的參數 VocaListener core 编辑 這是合成歌聲模仿目標歌聲的核心技術 由歌聲分析 歌聲合成 反覆的合成參數更新三種要素組成 歌聲分析的對象不止目標歌聲 亦會對合成後的歌聲作出分析 但分析的使用技術Viterbi alignment會有辨認錯誤的問題 需要反覆分析 務求兩者的風格盡量相近 判定音高分為MIDI的音名數值和滑音斜率 在音名數值中 組合VOCALOID 2滑音斜率 PIT Pitch Bend 和滑音斜率敏感度 PBS Pitch Bend Sensitivity 最多可以做出高或低兩個八度的滑音 而音名數值由以下數式選擇 NoteNumber 音名數值 s 0 03 t是音符長度 N o t e N u m b e r n a r g m a x t e x p n F 0 t 2 2 s 2 displaystyle NoteNumber overset argmax n Big sum t exp Big frac n F 0 t 2 2 sigma 2 Big Big 而合成歌聲是F 0 s y n n t displaystyle F0 overset n syn t 目標歌聲則是F 0 o r g t displaystyle F0 org t 經過重複計算而把兩個數值不斷更新 變得相似 把PIT和PBS轉換為數式則是如此 P b n 1 t P b n t F 0 o r g t F 0 s y n n t displaystyle Pb n 1 t Pb n t Big F0 org t F0 overset n syn t Big 而音量測定上是使用相對數值 反覆測定而得到從0至127的強弱 DYN Dynamics 數值 VocaListener plus 编辑 這是編輯目標歌聲的技術 可以令歌聲有更廣闊的種類 但並非一定要使用 技術中分為兩種類 分別是改變音高和改變歌唱風格的機能 前者的改變音高 用途可以是修正走音 或可以合成原唱者不能唱出的音高 然而在音符較短的時候 可能會不能修正音高 後者可調整振音的強弱 音高 音量的平滑感 藉以改變歌唱風格 甚至加強歌唱的表現 VocaListener front end 编辑 VocaListener front end則分為歌聲分析及歌聲合成 在歌聲分析中需要從原歌聲中抽出音高 音量 發音開始時間和音長 音高 由以下數式轉換為MIDI的音名數值 fHz 基本頻率 fNoteNumber MIDI的音名數值 f N o t e N u m b e r 12 log 2 f H z 440 69 displaystyle fNoteNumber 12 log 2 frac fHz 440 69 音量 由以下數式計算 N 窗幅 x t 聲音波形 h t 窗函數 P o w t r t N 2 t N 2 x r h r t 2 displaystyle Pow t sum r t N 2 t N 2 Big sqrt x r h r t 2 Big 技術中N為2048 約46毫秒 h t 為漢寧 Hanning 窗 發音開始時間和音長 使用Viterbi alignment辨認音聲 再從歌詞轉換為音素 但偶然會有辨認錯誤 需要用戶修正 參見 编辑語音合成 VOCALOID 產業技術綜合研究所参考資料 编辑 web archive org web 20160305001026 http hil t u tokyo ac jp publications download php bib Kameoka2006MUS08 pdf 页面存档备份 存于互联网档案馆 页面存档备份 存于互联网档案馆 スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ 页面存档备份 存于互联网档案馆 發佈頁 页面存档备份 存于互联网档案馆 初音未來的 神調教 是自動 ぼかりす 話題騷然 ITmedia 2008年5月1日 2008年5月3日 原始内容存档于2022年3月8日 日语 NICONICO 的 初音未來歌聲 達到 神的領域 令網絡騷然 J CAST 2008年5月2日 2008年5月3日 原始内容存档于2008年5月3日 日语 VOCALOID 神調教 技術 ぼかりす 実用化へ ヤマハと産総研が連携 VOCALOID 神調教 技術 VocaListener 實用化 Yamaha與產總研合作 ITmedia 2009年4月27日 2009年4月27日 原始内容存档于2021年10月7日 日语 中野倫靖 後藤真孝 VocaListener ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案 情報処理学会 研究報告 2008 MUS 75 vol 2008 no 50 pp 49 56 2008 論文PDF PDF 産業技術綜合研究所 2008年6月1日 2008年6月1日 原始内容 PDF 存档于2021年10月12日 日语 中野倫靖 後藤真孝 VocaListener ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案 情報処理学会 研究報告 2008 MUS 75 vol 2008 no 50 pp 49 56 2008 発表資料PDF PDF 産業技術綜合研究所 2008年6月1日 2008年6月1日 原始内容 PDF 存档于2021年10月12日 日语 外部連結 编辑 日語 VocaListener 页面存档备份 存于互联网档案馆 日語 NICONICO動畫 VocaListener Demonstrations 页面存档备份 存于互联网档案馆 英文 日語 產業技術綜合研究所 页面存档备份 存于互联网档案馆 日語 後藤 真孝 s Home Page 页面存档备份 存于互联网档案馆 日語 中野倫靖個人檔案 英文 日語 RWC音樂資料庫 流行音樂 页面存档备份 存于互联网档案馆 英文 日語 RWC音樂資料庫 音樂分類 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title VocaListener amp oldid 73588682, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。