神经机器翻译

神经机器翻译（英語：neural machine translation，縮寫：NMT）是一种直接使用人工神经网络以端到端方式进行翻译建模的机器翻译方法。^[1]

2014年出现了第一篇关于在机器翻译中使用神经网络的科学论文，随后几年神经机器翻译又取得了一些进展^[2]。

性質编辑

神經機器翻譯所需的記憶體比傳統統計機器翻譯（SMT）模型少了許多，此外，神經翻譯模型的各個部分都是聯合訓練的（端到端），以充分利用翻譯效能。^[3]^[4]^[5]

歷史编辑

深度學習應用首次出現在1990年代的語音辨識領域。2014年，第一篇關於以神經網路進行機器翻譯的科學論文問世。同年，Bahdanau等人^{[R 1]}和Sutskever等人^{[R 2]}提出了端到端的神經網路翻譯模型，正式使用了「神經機器翻譯」一詞。2015年，百度推出了第一個大規模的NMT系統，Google於隔年推出，其他公司隨後也紛紛推出NMT系統^[6]。該領域在接下來幾年取得許多進展，如大詞表NMT、影像字幕應用、子詞-NMT、多語種NMT、多源NMT、字元解碼NMT、零資源NMT、全字元-NMT和零樣本NMT（Zero-Shot NMT）等。2015年，NMT系統第一次出現在公開機器翻譯比賽（OpenMT'15），WMT'15也開始有NMT系統參賽，次年，該比賽已經有90%的獲獎者是NMT系統^[2]。

歐洲專利局從2017年以來持續使用神經機器翻譯技術，讓世界各地的專利系統的資訊得以即時理解^[7] 。該系統是與Google合作開發的，有31種語言配對，該系統截至2018年已翻譯超過900萬個文件。^[7]

原理编辑

神經機器翻譯（NMT）與個別改造次成份（subcomponents）的統計式片語翻譯模型不同。^[8]神經機器翻譯的原理並未大幅突破傳統的統計機器翻譯，它們之間的主要區別在於，神經機器翻譯對詞彙和內部狀態使用了向量表徵（「嵌入」、「連續空間表徵」）。NMT的模型結構比基於片語的模型更為簡單，不是用分開的語言模型、翻譯模型和重新排序模型，而是僅使用單一序列（Sequence）模型，一次預測一個詞彙，這個序列預測是根據整段的源語言句子和已產生的目標語言序列來預測的。NMT模型使用了深度學習和表徵學習。

詞序列起初通常是以遞迴神經網路（RNN）來建模。被稱為「編碼器」的雙向RNN為被稱為「解碼器」的RNN編碼源語言的句子，解碼器被用來預測目標語言中的詞彙。^[9]遞迴神經網路在將長輸入編碼為單一向量時會面臨困難，這點可以透過注意力機制來彌補^[10] ，該機制允許解碼器在產生輸出的每個詞彙時特別關注輸入的不同部分。此外還有多種覆蓋模型（Coverage Model）用於解決這種注意力機制所處理的問題，比如忽略過去的對齊資訊所造成的過度翻譯（over-translation）和翻譯不足（under-translation）^[11]。

卷積神經網路（CNN）原則上對處理長的連續序列有一定的好處，但仍存在一些劣勢以致於最初未被採用，這些劣勢在2017年時成功以「注意力機制」解決^[12]。

「Transformer」^[13]是一個基於注意力的模型，目前仍然是幾個語言對的主導架構。^[14]Transformer模型的自注意力層（ self-attention layer）透過檢查配對序列中所有詞彙之間的依存關係，直接對這些關係進行建模，藉此學習序列中詞彙之間的依存關係。這是一種比RNN採用的門控機制更簡單的方法。Transformer簡單易用，使研究人員即使是在低度語言資源（low-resource ）的條件下，也能夠用Transformer模型開發高品質的翻譯模型。^[15]

備注编辑

^ Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In: Proceedings of the 3rd International Conference on Learning Representations; 2015 May 7–9; San Diego, USA; 2015.
^ Sutskever I, Vinyals O, Le QV. Sequence to sequence learning with neural networks. In: Proceedings of the 27th International Conference on Neural Information Processing Systems; 2014 Dec 8–13; Montreal, QC, Canada; 2014.

參考文獻编辑

^ CIPS青工委学术专栏第9期神经机器翻译. [2022-10-26]. （原始内容于2022-05-26）.
^ ^2.0 ^2.1 Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos. (PDF). ACL 2016 First Conference on Machine Translation (WMT16) (The Association for Computational Linguistics). 2016: 131–198 [2018-01-27]. （原始内容 (PDF)存档于2018-01-27）.
^ Kalchbrenner, Nal; Blunsom, Philip. Recurrent Continuous Translation Models. Proceedings of the Association for Computational Linguistics. 2013: 1700–1709 [2023-03-11]. （原始内容于2019-11-23）.
^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet. Sequence to sequence learning with neural networks. 2014. arXiv:1409.3215  [cs.CL].
^ Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio. On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. 3 September 2014. arXiv:1409.1259  [cs.CL].
^ Haifeng Wang, Hua Wu, Zhongjun He, Liang Huang, Kenneth Ward Church Progress in Machine Translation // Engineering (2021), doi: https://doi.org/10.1016/j.eng.2021.03.023
^ ^7.0 ^7.1 Neural Machine Translation. European Patent Office. 16 July 2018 [14 June 2021]. （原始内容于2023-06-06）.
^ Wołk, Krzysztof; Marasek, Krzysztof. Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts. Procedia Computer Science. 2015, 64 (64): 2–9. Bibcode:2015arXiv150908644W. S2CID 15218663. arXiv:1509.08644  . doi:10.1016/j.procs.2015.08.456.
^ Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio. Neural Machine Translation by Jointly Learning to Align and Translate. 2014. arXiv:1409.0473  [cs.CL].
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua. Neural Machine Translation by Jointly Learning to Align and Translate. 2014-09-01. arXiv:1409.0473  [cs.CL].
^ Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang. Modeling Coverage for Neural Machine Translation. 2016. arXiv:1601.04811  [cs.CL].
^ Coldewey, Devin. DeepL schools other online translators with clever machine learning. TechCrunch. 2017-08-29 [2018-01-27]. （原始内容于2018-02-20）.
^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. Attention Is All You Need. 2017-12-05. arXiv:1706.03762  [cs.CL]. ,
^ Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias; Koehn, Philipp; Malmasi, Shervin; Monz, Christof. Findings of the 2019 Conference on Machine Translation (WMT19). Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1) (Florence, Italy: Association for Computational Linguistics). August 2019: 1–61. doi:10.18653/v1/W19-5301  .
^ Wdowiak, Eryk. Sicilian Translator: A Recipe for Low-Resource NMT. 2021-09-27. arXiv:2110.01938  [cs.CL].

这是一篇與科技相關的小作品。你可以通过编辑或修订扩充其内容。

[6] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In: Proceedings of the 3rd International Conference on Learning Representations; 2015 May 7–9; San Diego, USA; 2015.

[7] Sutskever I, Vinyals O, Le QV. Sequence to sequence learning with neural networks. In: Proceedings of the 27th International Conference on Neural Information Processing Systems; 2014 Dec 8–13; Montreal, QC, Canada; 2014.

[1] CIPS青工委学术专栏第9期神经机器翻译. [2022-10-26]. （原始内容于2022-05-26）.

[WMT16-2] 2.0 ^2.1 Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos. (PDF). ACL 2016 First Conference on Machine Translation (WMT16) (The Association for Computational Linguistics). 2016: 131–198 [2018-01-27]. （原始内容 (PDF)存档于2018-01-27）.

[KalchbrennerBlunsom-3] Kalchbrenner, Nal; Blunsom, Philip. Recurrent Continuous Translation Models. Proceedings of the Association for Computational Linguistics. 2013: 1700–1709 [2023-03-11]. （原始内容于2019-11-23）.

[sequence-4] Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet. Sequence to sequence learning with neural networks. 2014. arXiv:1409.3215  [cs.CL].

[Properties-5] Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio. On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. 3 September 2014. arXiv:1409.1259  [cs.CL].

[progr-8] Haifeng Wang, Hua Wu, Zhongjun He, Liang Huang, Kenneth Ward Church Progress in Machine Translation // Engineering (2021), doi: https://doi.org/10.1016/j.eng.2021.03.023

[vid-9] 7.0 ^7.1 Neural Machine Translation. European Patent Office. 16 July 2018 [14 June 2021]. （原始内容于2023-06-06）.

[Medical-10] Wołk, Krzysztof; Marasek, Krzysztof. Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts. Procedia Computer Science. 2015, 64 (64): 2–9. Bibcode:2015arXiv150908644W. S2CID 15218663. arXiv:1509.08644  . doi:10.1016/j.procs.2015.08.456.

[align&translate-11] Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio. Neural Machine Translation by Jointly Learning to Align and Translate. 2014. arXiv:1409.0473  [cs.CL].

[attention-12] Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua. Neural Machine Translation by Jointly Learning to Align and Translate. 2014-09-01. arXiv:1409.0473  [cs.CL].

[13] Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang. Modeling Coverage for Neural Machine Translation. 2016. arXiv:1601.04811  [cs.CL].

[DeepL-14] Coldewey, Devin. DeepL schools other online translators with clever machine learning. TechCrunch. 2017-08-29 [2018-01-27]. （原始内容于2018-02-20）.

[15] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. Attention Is All You Need. 2017-12-05. arXiv:1706.03762  [cs.CL]. ,

[16] Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias; Koehn, Philipp; Malmasi, Shervin; Monz, Christof. Findings of the 2019 Conference on Machine Translation (WMT19). Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1) (Florence, Italy: Association for Computational Linguistics). August 2019: 1–61. doi:10.18653/v1/W19-5301  .

[sicilian-17] Wdowiak, Eryk. Sicilian Translator: A Recipe for Low-Resource NMT. 2021-09-27. arXiv:2110.01938  [cs.CL].

[1]

[2]

[3]

[4]

[5]

[R 1]

[R 2]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

www.wiki2.zh-cn.nina.az

神经机器翻译

目录

性質编辑

歷史编辑

原理编辑

備注编辑

參考文獻编辑

大伯納拉島

大叶白纸扇

大叶稀子蕨

大叶桃花心木

大叻火车站

大叻站

大叻大学

大发工业株式会社

大叔

大口真神

痊癒

痔瘡

痕迹器官

痕量放射性同位素

痘病毒

文章

性質 编辑

歷史 编辑

原理 编辑

備注 编辑

參考文獻 编辑

文章

性質编辑

歷史编辑

原理编辑

備注编辑

參考文獻编辑