fbpx
维基百科

语音合成

語音合成是將人類語音用人工的方式所產生。若是將電腦系統用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬體所實現。文字轉語音(Text-To-Speech,TTS)系統則是將一般語言的文字轉換為語音,其他的系統可以描繪語言符號的表示方式,就像音標轉換至語音一樣[1]

而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來。系統則因為儲存的語音單元大小不同而有所差異,若是要儲存phone以及diphone的話,系統必須提供大量的儲存空間,但是在語意上或許會不清楚。而用在特定的使用領域上,儲存整字或整句的方式可以達到高品質的語音輸出。另外,包含了聲道模型以及其他的人類聲音特徵參數的合成器則可以創造出完整的合成聲音輸出[2]

一個語音合成器的品質通常是決定於人聲的相似度以及語意是否能被了解。一個清晰的文字轉語音程式應該提供人類在視覺受到傷害或是得到失讀症時,能夠聽到並且在個人電腦上完成工作。從80年代早期開始,許多的電腦作業系統已經包含了語音合成器了。

文字處理的概觀 编辑

歷史 编辑

早在17世紀就有法國人研發機械式的說話裝置。[來源請求]直到19世紀,貝爾實驗室對於電子語音合成技術的研究,才開啟近代語音合成技術的發展。貝爾實驗室在1939年製作出第一個電子語音合成器VODER[3],是一種利用共振峰原理所製作的合成器 。 1960年,瑞典語言學家G. Fant則提出利用線性預測編碼技術(LPC)來作為語音合成分析技術,並推動了日後的發展。後來1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA,此技術可以合成比較自然的語音。

合成器技術 编辑

串接合成 编辑

單位選擇合成 编辑

這通常是使用字詞預錄的方式,將各字詞的發音預先錄製好,經處理後存放在資料庫中。使用時再將預發音的字句斷成字詞,再把發音的資料自資料庫中取出,交由DSP去處理發音的合成。

Diphone合成 编辑

Domain-specific合成 编辑

共振峰合成 编辑

發音合成 编辑

HMM基礎合成 编辑

正弦波合成 编辑

深度學習合成 编辑

深度學習語音合成使用深度神經網絡(DNN)從文本(文本到語音)或頻譜(聲碼器)產生人工語音。深度神經網絡使用大量錄製的語音進行訓練,如果是文本到語音系統,則使用和語音相對的文本。

基於DNN的語音合成器正在接近人聲的自然度。該方法的缺點的例子是當數據不充分時強健性較低,缺乏可控性,自動回歸模型的性能低。一些局限性(如缺乏可控性)可以通過未來的研究得到解決。

相关比赛 编辑

含有語音合成器的軟體 编辑

  • NVDA(开源多国语言螢幕報讀軟體
  • 台灣工研院資通所語音團隊開發出的mTTS
  • JAWS(商業付費螢幕報讀軟體
  • 內建於蘋果電腦相關產品的VoiceOver Utility
  • Android 1.6版加入支援語音合成的功能。[7]
  • 微軟在1995年開始,開發了一套Microsoft Speech API英语Microsoft Speech API,微軟的一些作業系統或軟體有提供支援語音功能。
  • VOCALOIDVOICEROID,前者偏重歌唱而后者偏重 TTS。

語音合成標記語言 编辑

参见 编辑

参考資料 编辑

  1. ^ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis. From Text to Speech: The MITalk system . Cambridge University Press. 1987. ISBN 978-0-521-30641-6. 
  2. ^ Rubin, P.; Baer, T.; Mermelstein, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780. 
  3. ^ 柳春、于洪志(2008年):《現代教育技術》,第26期第64頁,北京:清華大學電教中心。
  4. ^ 存档副本. [2020-05-28]. (原始内容于2022-07-02). 
  5. ^ 存档副本. [2020-05-28]. (原始内容于2020-04-23). 
  6. ^ 存档副本. [2020-05-28]. (原始内容于2020-02-19). 
  7. ^ Jean-Michel Trivi. An introduction to Text-To-Speech in Android. Android-developers.blogspot.com. 2009-09-23 [2010-02-17]. (原始内容于2011-07-08). 

外部連結 编辑

语音合成, 本條目存在以下問題, 請協助改善本條目或在討論頁針對議題發表看法, 此條目需要补充更多来源, 2019年6月13日, 请协助補充多方面可靠来源以改善这篇条目, 无法查证的内容可能會因為异议提出而被移除, 致使用者, 请搜索一下条目的标题, 来源搜索, 网页, 新闻, 书籍, 学术, 图像, 以检查网络上是否存在该主题的更多可靠来源, 判定指引, 此條目可参照英語維基百科相應條目来扩充, 若您熟悉来源语言和主题, 请协助参考外语维基百科扩充条目, 请勿直接提交机械翻译, 也不要翻译不可靠, 低品质内容, . 本條目存在以下問題 請協助改善本條目或在討論頁針對議題發表看法 此條目需要补充更多来源 2019年6月13日 请协助補充多方面可靠来源以改善这篇条目 无法查证的内容可能會因為异议提出而被移除 致使用者 请搜索一下条目的标题 来源搜索 语音合成 网页 新闻 书籍 学术 图像 以检查网络上是否存在该主题的更多可靠来源 判定指引 此條目可参照英語維基百科相應條目来扩充 若您熟悉来源语言和主题 请协助参考外语维基百科扩充条目 请勿直接提交机械翻译 也不要翻译不可靠 低品质内容 依版权协议 译文需在编辑摘要注明来源 或于讨论页顶部标记 a href Template Translated page html title Template Translated page Translated page a 标签 此條目可能包含原创研究 2023年10月13日 请协助補充参考资料 添加相关内联标签和删除原创研究内容以改善这篇条目 详细情况请参见讨论页 語音合成是將人類語音用人工的方式所產生 若是將電腦系統用在語音合成上 則稱為語音合成器 而語音合成器可以用軟 硬體所實現 文字轉語音 Text To Speech TTS 系統則是將一般語言的文字轉換為語音 其他的系統可以描繪語言符號的表示方式 就像音標轉換至語音一樣 1 而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來 系統則因為儲存的語音單元大小不同而有所差異 若是要儲存phone以及diphone的話 系統必須提供大量的儲存空間 但是在語意上或許會不清楚 而用在特定的使用領域上 儲存整字或整句的方式可以達到高品質的語音輸出 另外 包含了聲道模型以及其他的人類聲音特徵參數的合成器則可以創造出完整的合成聲音輸出 2 一個語音合成器的品質通常是決定於人聲的相似度以及語意是否能被了解 一個清晰的文字轉語音程式應該提供人類在視覺受到傷害或是得到失讀症時 能夠聽到並且在個人電腦上完成工作 從80年代早期開始 許多的電腦作業系統已經包含了語音合成器了 目录 1 文字處理的概觀 2 歷史 3 合成器技術 3 1 串接合成 3 1 1 單位選擇合成 3 1 2 Diphone合成 3 1 3 Domain specific合成 3 2 共振峰合成 3 3 發音合成 3 4 HMM基礎合成 3 5 正弦波合成 3 6 深度學習合成 4 相关比赛 5 含有語音合成器的軟體 6 語音合成標記語言 7 参见 8 参考資料 9 外部連結文字處理的概觀 编辑歷史 编辑早在17世紀就有法國人研發機械式的說話裝置 來源請求 直到19世紀 貝爾實驗室對於電子語音合成技術的研究 才開啟近代語音合成技術的發展 貝爾實驗室在1939年製作出第一個電子語音合成器VODER 3 是一種利用共振峰原理所製作的合成器 1960年 瑞典語言學家G Fant則提出利用線性預測編碼技術 LPC 來作為語音合成分析技術 並推動了日後的發展 後來1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA 此技術可以合成比較自然的語音 合成器技術 编辑更多信息 en Speech synthesis Synthesizer technologies 串接合成 编辑 單位選擇合成 编辑 這通常是使用字詞預錄的方式 將各字詞的發音預先錄製好 經處理後存放在資料庫中 使用時再將預發音的字句斷成字詞 再把發音的資料自資料庫中取出 交由DSP去處理發音的合成 Diphone合成 编辑 Domain specific合成 编辑 共振峰合成 编辑 更多信息 共振峰 發音合成 编辑 更多信息 en Articulatory synthesis HMM基礎合成 编辑 更多信息 隐马尔可夫模型 正弦波合成 编辑 更多信息 en Sinewave synthesis 深度學習合成 编辑 更多信息 Deep learning based synthesis 深度學習語音合成使用深度神經網絡 DNN 從文本 文本到語音 或頻譜 聲碼器 產生人工語音 深度神經網絡使用大量錄製的語音進行訓練 如果是文本到語音系統 則使用和語音相對的文本 基於DNN的語音合成器正在接近人聲的自然度 該方法的缺點的例子是當數據不充分時強健性較低 缺乏可控性 自動回歸模型的性能低 一些局限性 如缺乏可控性 可以通過未來的研究得到解決 相关比赛 编辑Blizzard Challenge 4 5 voice conversion 6 含有語音合成器的軟體 编辑NVDA 开源多国语言螢幕報讀軟體 台灣工研院資通所語音團隊開發出的mTTS JAWS 商業付費螢幕報讀軟體 內建於蘋果電腦相關產品的VoiceOver Utility Android 1 6版加入支援語音合成的功能 7 微軟在1995年開始 開發了一套Microsoft Speech API 英语 Microsoft Speech API 微軟的一些作業系統或軟體有提供支援語音功能 VOCALOID 及 VOICEROID 前者偏重歌唱而后者偏重 TTS 語音合成標記語言 编辑主条目 語音合成標記語言参见 编辑人机界面 語音识别 手写识别 VOCALOID 初音未來 智能儀錶 智能玩具 电子地图 电子导游 电子词典参考資料 编辑 Allen Jonathan Hunnicutt M Sharon Klatt Dennis From Text to Speech The MITalk system nbsp Cambridge University Press 1987 ISBN 978 0 521 30641 6 含有內容需登入查看的頁面 link Rubin P Baer T Mermelstein P An articulatory synthesizer for perceptual research Journal of the Acoustical Society of America 1981 70 2 321 328 Bibcode 1981ASAJ 70 321R doi 10 1121 1 386780 柳春 于洪志 2008年 現代教育技術 第26期第64頁 北京 清華大學電教中心 存档副本 2020 05 28 原始内容存档于2022 07 02 存档副本 2020 05 28 原始内容存档于2020 04 23 存档副本 2020 05 28 原始内容存档于2020 02 19 Jean Michel Trivi An introduction to Text To Speech in Android Android developers blogspot com 2009 09 23 2010 02 17 原始内容存档于2011 07 08 外部連結 编辑维基共享资源中相关的多媒体资源 语音合成 取自 https zh wikipedia org w index php title 语音合成 amp oldid 79344715, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。