fbpx
维基百科

语音合成

語音合成是將人類語音用人工的方式所產生。若是將電腦系統用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬體所實現。文字轉語音(Text-To-Speech,TTS)系統則是將一般語言的文字轉換為語音,其他的系統可以描繪語言符號的表示方式,就像音標轉換至語音一樣[1]

而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來。系統則因為儲存的語音單元大小不同而有所差異,若是要儲存phone以及diphone的話,系統必須提供大量的儲存空間,但是在語意上或許會不清楚。而用在特定的使用領域上,儲存整字或整句的方式可以達到高品質的語音輸出。另外,包含了聲道模型以及其他的人類聲音特徵參數的合成器則可以創造出完整的合成聲音輸出[2]

一個語音合成器的品質通常是決定於人聲的相似度以及語意是否能被了解。一個清晰的文字轉語音程式應該提供人類在視覺受到傷害或是得到失讀症時,能夠聽到並且在個人電腦上完成工作。從80年代早期開始,許多的電腦作業系統已經包含了語音合成器了。

文字處理的概觀

歷史

早在17世紀就有法國人研發機械式的說話裝置。[來源請求]直到19世紀,貝爾實驗室對於電子語音合成技術的研究,才開啟近代語音合成技術的發展。貝爾實驗室在1939年製作出第一個電子語音合成器VODER[3],是一種利用共振峰原理所製作的合成器。 1960年,瑞典語言學家G. Fant則提出利用線性預測編碼技術(LPC)來作為語音合成分析技術,並推動了日後的發展。後來1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA,此技術可以合成比較自然的語音。

合成器技術

串接合成

單位選擇合成

這通常是使用字詞預錄的方式,將各字詞的發音預先錄製好,經處理後存放在資料庫中。使用時再將預發音的字句斷成字詞,再把發音的資料自資料庫中取出,交由DSP去處理發音的合成。

Diphone合成

Domain-specific合成

共振峰合成

發音合成

HMM基礎合成

正弦波合成

深度學習合成

深度學習語音合成使用深度神經網絡(DNN)從文本(文本到語音)或頻譜(聲碼器)產生人工語音。深度神經網絡使用大量錄製的語音進行訓練,如果是文本到語音系統,則使用和語音相對的文本。

基於DNN的語音合成器正在接近人聲的自然度。該方法的缺點的例子是當數據不充分時強健性較低,缺乏可控性,自動回歸模型的性能低。一些局限性(如缺乏可控性)可以通過未來的研究得到解決。

目前以 Tacotron2 (https://pytorch.org/hub/nvidia_deeplearningexamples_tacotron2/ (页面存档备份,存于互联网档案馆)) + Waveglow (https://arxiv.org/abs/1811.00002 (页面存档备份,存于互联网档案馆)) 只需要數十個小時的錄音語料加以訓練即可合成出品質非常高的語音。但是對於聲調語言 (如中文),因為有不同程度的變調需求,有時合成的語音會出現變調錯誤的情況。

相关比赛

含有語音合成器的軟體

  • NVDA(开源多国语言螢幕報讀軟體
  • 台灣工研院資通所語音團隊開發出的mTTS
  • JAWS(商業付費螢幕報讀軟體
  • 內建於蘋果電腦相關產品的VoiceOver Utility
  • Android 1.6版加入支援語音合成的功能。[7]
  • 微軟在1995年開始,開發了一套Microsoft Speech API英语Microsoft Speech API,微軟的一些作業系統或軟體有提供支援語音功能。
  • VOCALOIDVOICEROID,前者偏重歌唱而后者偏重 TTS。
  • 盛大遊戲在2012年初,發佈了Android語音合成平臺聼聼中心,支援本地中英文合成及變聲等服務。
  • [8]為台灣話的語音輸出 (Taiwanese Text-to-speech) 軟體。系統使用 (Taiwanese tone group parser)[9]、語音引擎 (Speech engine) 及語音合成器 (Speech synthesizer)直接安裝於個人電腦獨立運作,不需連結 MS Speech SDK或 IBM TTS Engine 。使用者圖行形介面包含可用台語羅馬字或中文輸入、有聲辭典同步顯示、有聲讀本製作、外部應用程式/網路瀏覽器語音輸出、台語調符轉換及使用中英文語詞搜尋等功能 。

語音合成標記語言

参见

参考資料

  1. ^ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis. From Text to Speech: The MITalk system . Cambridge University Press. 1987. ISBN 978-0-521-30641-6. 
  2. ^ Rubin, P.; Baer, T.; Mermelstein, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780. 
  3. ^ 柳春、于洪志(2008年):《現代教育技術》,第26期第64頁,北京:清華大學電教中心。
  4. ^ 存档副本. [2020-05-28]. (原始内容于2022-07-02). 
  5. ^ 存档副本. [2020-05-28]. (原始内容于2020-04-23). 
  6. ^ 存档副本. [2020-05-28]. (原始内容于2020-02-19). 
  7. ^ Jean-Michel Trivi. An introduction to Text-To-Speech in Android. Android-developers.blogspot.com. 2009-09-23 [2010-02-17]. (原始内容于2011-07-08). 
  8. ^ 田村志津枝 (页面存档备份,存于互联网档案馆)(2010)。初めて台湾語をパソコンに喋らせた男―母語を蘇らせる物語。 東京:現代書館。[Tamura, S.(2010).Hajimete Taiwango o pasokon ni shaberaseta otoko: bogo o yomigaeraseru monogatari.Tokyo, Japan: Gendai Shokan.]
  9. ^ Chang, Y. C. (2017). 以知識表徵方法建構台語聲調群剖析器 (A Knowledge Representation Method to Implement A Taiwanese Tone Group Parser)[In Chinese]. International Journal of Computational Linguistics & Chinese Language Processing; 22:2 2017.12[民106.12]; 頁73-86

外部連結

语音合成, 本條目存在以下問題, 請協助改善本條目或在討論頁針對議題發表看法, 此條目需要补充更多来源, 2019年6月13日, 请协助補充多方面可靠来源以改善这篇条目, 无法查证的内容可能會因為异议提出而被移除, 致使用者, 请搜索一下条目的标题, 来源搜索, 网页, 新闻, 书籍, 学术, 图像, 以检查网络上是否存在该主题的更多可靠来源, 判定指引, 此條目可参照英語維基百科相應條目来扩充, 若您熟悉来源语言和主题, 请协助参考外语维基百科扩充条目, 请勿直接提交机械翻译, 也不要翻译不可靠, 低品质内容, . 本條目存在以下問題 請協助改善本條目或在討論頁針對議題發表看法 此條目需要补充更多来源 2019年6月13日 请协助補充多方面可靠来源以改善这篇条目 无法查证的内容可能會因為异议提出而被移除 致使用者 请搜索一下条目的标题 来源搜索 语音合成 网页 新闻 书籍 学术 图像 以检查网络上是否存在该主题的更多可靠来源 判定指引 此條目可参照英語維基百科相應條目来扩充 若您熟悉来源语言和主题 请协助参考外语维基百科扩充条目 请勿直接提交机械翻译 也不要翻译不可靠 低品质内容 依版权协议 译文需在编辑摘要注明来源 或于讨论页顶部标记 a href Template Translated page html title Template Translated page Translated page a 标签 此條目使用外部链接的方式可能不符合维基百科的方针或指引 或致使內文成為链接農場 請協助清理過度與不適當的外部連結 并将有用的链接移到参考文献中 详情请参见条目的讨论页 語音合成是將人類語音用人工的方式所產生 若是將電腦系統用在語音合成上 則稱為語音合成器 而語音合成器可以用軟 硬體所實現 文字轉語音 Text To Speech TTS 系統則是將一般語言的文字轉換為語音 其他的系統可以描繪語言符號的表示方式 就像音標轉換至語音一樣 1 而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來 系統則因為儲存的語音單元大小不同而有所差異 若是要儲存phone以及diphone的話 系統必須提供大量的儲存空間 但是在語意上或許會不清楚 而用在特定的使用領域上 儲存整字或整句的方式可以達到高品質的語音輸出 另外 包含了聲道模型以及其他的人類聲音特徵參數的合成器則可以創造出完整的合成聲音輸出 2 一個語音合成器的品質通常是決定於人聲的相似度以及語意是否能被了解 一個清晰的文字轉語音程式應該提供人類在視覺受到傷害或是得到失讀症時 能夠聽到並且在個人電腦上完成工作 從80年代早期開始 許多的電腦作業系統已經包含了語音合成器了 目录 1 文字處理的概觀 2 歷史 3 合成器技術 3 1 串接合成 3 1 1 單位選擇合成 3 1 2 Diphone合成 3 1 3 Domain specific合成 3 2 共振峰合成 3 3 發音合成 3 4 HMM基礎合成 3 5 正弦波合成 3 6 深度學習合成 4 相关比赛 5 含有語音合成器的軟體 6 語音合成標記語言 7 参见 8 参考資料 9 外部連結文字處理的概觀 编辑歷史 编辑早在17世紀就有法國人研發機械式的說話裝置 來源請求 直到19世紀 貝爾實驗室對於電子語音合成技術的研究 才開啟近代語音合成技術的發展 貝爾實驗室在1939年製作出第一個電子語音合成器VODER 3 是一種利用共振峰原理所製作的合成器 1960年 瑞典語言學家G Fant則提出利用線性預測編碼技術 LPC 來作為語音合成分析技術 並推動了日後的發展 後來1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA 此技術可以合成比較自然的語音 合成器技術 编辑更多信息 en Speech synthesis Synthesizer technologies 串接合成 编辑 單位選擇合成 编辑 這通常是使用字詞預錄的方式 將各字詞的發音預先錄製好 經處理後存放在資料庫中 使用時再將預發音的字句斷成字詞 再把發音的資料自資料庫中取出 交由DSP去處理發音的合成 Diphone合成 编辑 Domain specific合成 编辑 共振峰合成 编辑 更多信息 共振峰 發音合成 编辑 更多信息 en Articulatory synthesis HMM基礎合成 编辑 更多信息 隐马尔可夫模型 正弦波合成 编辑 更多信息 en Sinewave synthesis 深度學習合成 编辑 更多信息 Deep learning based synthesis 深度學習語音合成使用深度神經網絡 DNN 從文本 文本到語音 或頻譜 聲碼器 產生人工語音 深度神經網絡使用大量錄製的語音進行訓練 如果是文本到語音系統 則使用和語音相對的文本 基於DNN的語音合成器正在接近人聲的自然度 該方法的缺點的例子是當數據不充分時強健性較低 缺乏可控性 自動回歸模型的性能低 一些局限性 如缺乏可控性 可以通過未來的研究得到解決 目前以 Tacotron2 https pytorch org hub nvidia deeplearningexamples tacotron2 页面存档备份 存于互联网档案馆 Waveglow https arxiv org abs 1811 00002 页面存档备份 存于互联网档案馆 只需要數十個小時的錄音語料加以訓練即可合成出品質非常高的語音 但是對於聲調語言 如中文 因為有不同程度的變調需求 有時合成的語音會出現變調錯誤的情況 相关比赛 编辑Blizzard Challenge 4 5 voice conversion 6 含有語音合成器的軟體 编辑NVDA 开源多国语言螢幕報讀軟體 台灣工研院資通所語音團隊開發出的mTTS JAWS 商業付費螢幕報讀軟體 內建於蘋果電腦相關產品的VoiceOver Utility Android 1 6版加入支援語音合成的功能 7 微軟在1995年開始 開發了一套Microsoft Speech API 英语 Microsoft Speech API 微軟的一些作業系統或軟體有提供支援語音功能 VOCALOID 及 VOICEROID 前者偏重歌唱而后者偏重 TTS 盛大遊戲在2012年初 發佈了Android語音合成平臺聼聼中心 支援本地中英文合成及變聲等服務 台語語音筆記本 8 為台灣話的語音輸出 Taiwanese Text to speech 軟體 系統使用台語聲調群剖析器 Taiwanese tone group parser 9 語音引擎 Speech engine 及語音合成器 Speech synthesizer 直接安裝於個人電腦獨立運作 不需連結 MS Speech SDK或 IBM TTS Engine 使用者圖行形介面包含可用台語羅馬字或中文輸入 有聲辭典同步顯示 有聲讀本製作 外部應用程式 網路瀏覽器語音輸出 台語調符轉換及使用中英文語詞搜尋等功能 語音合成標記語言 编辑主条目 語音合成標記語言参见 编辑人机界面 語音识别 手写识别 VOCALOID 初音未來 智能儀錶 智能玩具 电子地图 电子导游 电子词典参考資料 编辑 Allen Jonathan Hunnicutt M Sharon Klatt Dennis From Text to Speech The MITalk system Cambridge University Press 1987 ISBN 978 0 521 30641 6 含有內容需登入查看的頁面 link Rubin P Baer T Mermelstein P An articulatory synthesizer for perceptual research Journal of the Acoustical Society of America 1981 70 2 321 328 Bibcode 1981ASAJ 70 321R doi 10 1121 1 386780 柳春 于洪志 2008年 現代教育技術 第26期第64頁 北京 清華大學電教中心 存档副本 2020 05 28 原始内容存档于2022 07 02 存档副本 2020 05 28 原始内容存档于2020 04 23 存档副本 2020 05 28 原始内容存档于2020 02 19 Jean Michel Trivi An introduction to Text To Speech in Android Android developers blogspot com 2009 09 23 2010 02 17 原始内容存档于2011 07 08 田村志津枝 页面存档备份 存于互联网档案馆 2010 初めて台湾語をパソコンに喋らせた男 母語を蘇らせる物語 東京 現代書館 Tamura S 2010 Hajimete Taiwango o pasokon ni shaberaseta otoko bogo o yomigaeraseru monogatari Tokyo Japan Gendai Shokan Chang Y C 2017 以知識表徵方法建構台語聲調群剖析器 A Knowledge Representation Method to Implement A Taiwanese Tone Group Parser In Chinese International Journal of Computational Linguistics amp Chinese Language Processing 22 2 2017 12 民106 12 頁73 86外部連結 编辑维基共享资源中相关的多媒体资源 语音合成TTS ProgWiki 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title 语音合成 amp oldid 77124717, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。