ニューラル機械きかい翻訳ほんやく

ニューラル機械きかい翻訳ほんやく（ニューラルきかいほんやく、英えい: neural machine translation、NMT）は、人工じんこうニューラルネットワークを使用しようして単語たんごの並ならびの尤ゆう度ど（ゆうど、確かくからしさ）を予測よそくする機械きかい翻訳ほんやくへのアプローチであり、通常つうじょうは単一たんいつの統合とうごうモデルで文ぶん全体ぜんたいをモデル化かする。

特徴とくちょう

これは、従来じゅうらいの統計とうけい的てき機械きかい翻訳ほんやく（英語えいご版ばん）（英えい: statistical machine translation、SMT）モデルで必要ひつようとされるメモリのごく一部いちぶしか必要ひつようとしない。さらに、従来じゅうらいの翻訳ほんやくシステムとは異ことなり、翻訳ほんやく性能せいのうを最大さいだい化かするために、ニューラル翻訳ほんやくモデルのすべての部分ぶぶんが一緒いっしょに（エンド・ツー・エンドで）訓練くんれんされる^[1]^[2]^[3]。

歴史れきし

ディープラーニングの応用おうようは、1990年代ねんだいに音声おんせい認識にんしきで最初さいしょに登場とうじょうした。機械きかい翻訳ほんやくでのニューラルネットワークの利用りように関かんする最初さいしょの科学かがく論文ろんぶんは2014年ねんに登場とうじょうし、その後ごの数すう年間ねんかんで多おおくの進歩しんぽ（大だい語彙ごいNMT、画像がぞうキャプションへの応用おうよう、サブワードNMT、多言たげん語ごNMT、マルチソースNMT、Character-dec NMT、Zero-Resource NMT、Google、Fully Character-NMT、2017年ねんのZero-Shot NMT）があった。2015年ねんに、公開こうかいの機械きかい翻訳ほんやくコンテスト (OpenMT '15) でNMTシステムが初はじめて登場とうじょうした。WMT'15にも初はじめてNMTシステムが登場とうじょうし、翌年よくねんにはすでに入賞にゅうしょう者しゃの中なかにNMTシステムの90％が含ふくまれた^[4]。

仕組しくみ

ニューラル機械きかい翻訳ほんやくは、個別こべつに設計せっけいされたサブコンポーネントを使用しようするフレーズベースの統計とうけい的てき（英語えいご版ばん）アプローチとは異ことなる^[5]。ニューラル機械きかい翻訳ほんやく (NMT) は、統計とうけい的てき機械きかい翻訳ほんやく (SMT) で従来じゅうらい行おこなわれてきたことを超こえる抜本ばっぽん的てきなステップではない。その主おもな出発しゅっぱつ点てんは、単語たんごと内部ないぶ状態じょうたいのためのベクトル表現ひょうげん（「埋うめ込こみ」、「連続れんぞく空間くうかん表現ひょうげん」）の使用しようである。モデルの構造こうぞうは、フレーズベースのモデルよりも単純たんじゅんである。個別こべつの言語げんごモデル、翻訳ほんやくモデル、並ならび替がえモデルはなく、一いち度どに1つの単語たんごを予測よそくする単一たんいつのシーケンスモデルのみがある。しかし、このシーケンス予測よそくは、ソースセンテンス（原文げんぶん）全体ぜんたいと、すでに生成せいせいされたターゲットシーケンス全体ぜんたいを条件じょうけんとしている。NMTモデルでは、深層しんそう学習がくしゅう（ディープラーニング）と特徴とくちょう学習がくしゅう（英語えいご版ばん）を利用りようしている。

単語たんご列れつモデリングは、最初さいしょはリカレントニューラルネットワーク (RNN) を用もちいて行おこなわれるのが一般いっぱん的てきであった。エンコーダとして知しられる双方向そうほうこうリカレントニューラルネットワークは、ターゲット言語げんごの単語たんごを予測よそくするために使用しようされるデコーダと呼よばれる第だい2のRNNのソースセンテンスをエンコードするため、ニューラルネットワークによって使用しようされる^[6]。リカレントニューラルネットワークは、長ながい入力にゅうりょくを単一たんいつのベクトルにエンコードする際さいに困難こんなんに直面ちょくめんする。これは、出力しゅつりょくの各かく単語たんごを生成せいせいしている間あいだにデコーダが入力にゅうりょくのさまざまな部分ぶぶんに焦点しょうてんを合あわせることができる注意ちゅういメカニズム（英えい: attention mechanism）^[7]によって補正ほせいできる。重複じゅうふく訳やくや訳わけ抜ぬけにつながる過去かこのアライメント情報じょうほうを無視むしするなど、このような注意ちゅういメカニズムの問題もんだいに対処たいしょするカバレッジモデル（英えい: Coverage Models）がさらに存在そんざいする^[8]。

畳たたみ込こみニューラルネットワーク（英えい: Convolutional Neural Networks、Convnets）は、原理げんり的てきには長ながい連続れんぞくシーケンスに対たいしていくらか優すぐれているが、いくつかの弱点じゃくてんがあったために当初とうしょは使用しようされなかった。これらは「注意ちゅういメカニズム」を使用しようすることにより、2017年ねんにうまく補償ほしょうされた^[9]。

注意ちゅういベースのモデルであるトランスフォーマーアーキテクチャは^[10]、いくつかの言語げんごペアの主要しゅようアーキテクチャとして存続そんぞくしている^[11]。

参照さんしょう項目こうもく

^ Kalchbrenner, Nal; Blunsom, Philip (2013). “Recurrent Continuous Translation Models”. Proceedings of the Association for Computational Linguistics: 1700–1709.
^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). "Sequence to sequence learning with neural networks". arXiv:1409.3215 [cs.CL]。
^ Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (3 September 2014). "On the Properties of Neural Machine Translation: Encoder–Decoder Approaches". arXiv:1409.1259 [cs.CL]。
^ Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp et al. (2016). “Findings of the 2016 Conference on Machine Translation”. ACL 2016 First Conference on Machine Translation (WMT16) (The Association for Computational Linguistics): 131–198. オリジナルの2018-01-27時点じてんにおけるアーカイブ。 2018年ねん1月がつ27日にち閲覧えつらん。.
^ Wołk, Krzysztof; Marasek, Krzysztof (2015). “Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts”. Procedia Computer Science 64 (64): 2–9. arXiv:1509.08644. Bibcode: 2015arXiv150908644W. doi:10.1016/j.procs.2015.08.456.
^ Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL]。
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL]。
^ Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang (2016). "Modeling Coverage for Neural Machine Translation". arXiv:1601.04811 [cs.CL]。
^ Coldewey, Devin (2017年ねん8月がつ29日にち). “DeepL schools other online translators with clever machine learning”. TechCrunch 2018年ねん1月がつ27日にち閲覧えつらん。
^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (5 December 2017). "Attention Is All You Need". arXiv:1706.03762 [cs.CL]。
^ Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias et al. (August 2019). “Findings of the 2019 Conference on Machine Translation (WMT19)”. Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1) (Florence, Italy: Association for Computational Linguistics): 1–61. doi:10.18653/v1/W19-5301.

[KalchbrennerBlunsom-1] Kalchbrenner, Nal; Blunsom, Philip (2013). “Recurrent Continuous Translation Models”. Proceedings of the Association for Computational Linguistics: 1700–1709.

[sequence-2] Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). "Sequence to sequence learning with neural networks". arXiv:1409.3215 [cs.CL]。

[Properties-3] Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (3 September 2014). "On the Properties of Neural Machine Translation: Encoder–Decoder Approaches". arXiv:1409.1259 [cs.CL]。

[WMT16-4] Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp et al. (2016). “Findings of the 2016 Conference on Machine Translation”. ACL 2016 First Conference on Machine Translation (WMT16) (The Association for Computational Linguistics): 131–198. オリジナルの2018-01-27時点じてんにおけるアーカイブ。 2018年ねん1月がつ27日にち閲覧えつらん。.

[Medical-5] Wołk, Krzysztof; Marasek, Krzysztof (2015). “Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts”. Procedia Computer Science 64 (64): 2–9. arXiv:1509.08644. Bibcode: 2015arXiv150908644W. doi:10.1016/j.procs.2015.08.456.

[align&translate-6] Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL]。

[attention-7] Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL]。

[8] Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang (2016). "Modeling Coverage for Neural Machine Translation". arXiv:1601.04811 [cs.CL]。

[DeepL-9] Coldewey, Devin (2017年ねん8月がつ29日にち). “DeepL schools other online translators with clever machine learning”. TechCrunch 2018年ねん1月がつ27日にち閲覧えつらん。

[10] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (5 December 2017). "Attention Is All You Need". arXiv:1706.03762 [cs.CL]。

[11] Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias et al. (August 2019). “Findings of the 2019 Conference on Machine Translation (WMT19)”. Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1) (Florence, Italy: Association for Computational Linguistics): 1–61. doi:10.18653/v1/W19-5301.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]