(Translated by https://www.hiragana.jp/)
言語モデル - Wikipedia コンテンツにスキップ

言語げんごモデル

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』
N-Gramから転送てんそう

言語げんごモデル(げんごモデル、えい: language model)は、単語たんごれつたいするかくりつ分布ぶんぷあらわすものである[1]

解説かいせつ

[編集へんしゅう]

言語げんごモデルは、ながさがm単語たんごれつあたえられたとき、その単語たんごれつ全体ぜんたいたいしてのかくりつ あたえる。このかくりつ分布ぶんぷは、1つまたは複数ふくすう言語げんごテキストコーパス使用しようして、言語げんごモデルを訓練くんれんすることによってられる。しかし、言語げんご無限むげん有効ゆうこうぶん表現ひょうげんすることができるため[注釈ちゅうしゃく 1]言語げんごモデリングは、訓練くんれんデータでは遭遇そうぐうしないような言語げんごてき有効ゆうこう単語たんごれつにゼロでないかくりつてることが課題かだいとなる。この問題もんだい克服こくふくするために、マルコフ仮定かていや、回帰かいきがたニューラルネットワークあるいはトランスフォーマー(transformer)などのニューラルアーキテクチャなど、さまざまなモデリング方法ほうほう考案こうあんされている。

言語げんごモデルは、計算けいさん言語げんごがくにおけるさまざまな問題もんだい役立やくだっている。当初とうしょは、ていかくりつ無意味むいみ単語たんごれつ予測よそくふせぐために音声おんせい認識にんしき[2]での使用しようからはじまった。現在げんざいでは、機械きかい翻訳ほんやく翻訳ほんやく候補こうほ順位じゅんいけ)[3]や、より人間にんげんちかいテキストを生成せいせいする自然しぜん言語げんご生成せいせい品詞ひんしタグ英語えいごばん構文こうぶん解析かいせき[3]光学こうがく文字もじ認識にんしき手書てが文字もじ認識にんしき[4]文法ぶんぽう誘導ゆうどう英語えいごばん[5]情報じょうほう検索けんさく[6][7]など、幅広はばひろ用途ようと利用りようされている。

情報じょうほう検索けんさくにおいては、クエリゆうモデル英語えいごばんにおいて言語げんごモデルがもちいられる。この方法ほうほうでは、コレクションないのすべての文書ぶんしょに、個別こべつ言語げんごモデルが関連付かんれんづけられている。そしてかく文書ぶんしょは、その文書ぶんしょ言語げんごモデル たいするクエリ かくりつ もとづいて順位じゅんいけされる。この目的もくてきのため一般いっぱんに、ユニグラム(unigram)英語えいごばん言語げんごモデルが利用りようされる。

2018ねん以降いこうだい規模きぼ言語げんごモデル(LLM)が登場とうじょうし、おおきな発展はってんがみられた。これらのモデルは、すうじゅうおく学習がくしゅう可能かのうなパラメータをディープ・ニューラルネットワーク構成こうせいされ、ラベルなしテキストの膨大ぼうだいなデータセットで訓練くんれんされる。LLMは、さまざまな自然しぜん言語げんご処理しょりタスクで目覚めざましい成果せいかしめし、研究けんきゅう焦点しょうてん汎用はんようてきなLLMの使用しようへとうつわっている[8]

モデルの種類しゅるい

[編集へんしゅう]

n-gramモデル

[編集へんしゅう]

n-gram言語げんごモデルは、マルコフ過程かていもとづいて単語たんごれつをモデルするものである。このモデルでは、単語たんごれつないつぎ単語たんごかくりつが、先行せんこうする単語たんご固定こていサイズのウィンドウにのみ依存いぞんすると仮定かていすることで単純たんじゅんする。たとえば、bigramモデル先行せんこうするは1つの単語たんごのみを考慮こうりょし、trigramモデルは先行せんこうする2つの単語たんご考慮こうりょし、n-gramモデルは先行せんこうするn-1単語たんご文脈ぶんみゃくとして考慮こうりょする[9]

たとえば、bigram言語げんごモデルは、「I saw the red houseあかいええた)」というぶんかくりつつぎのようにモデルする。ここで、ぶん開始かいし終了しゅうりょうしめ特別とくべつなトークンである。

これらの条件じょうけんかくりつは、テキストコーパス一部分いちぶぶん頻度ひんどカウントにもとづいて推定すいていすることができる。たとえば、 は、コーパスないでの単語たんごI」につづいて「saw」が出現しゅつげんする割合わりあいとして単純たんじゅん推定すいていできる。スパースせい問題もんだい(たとえば、コーパスないで「red house」というbigramの出現しゅつげんすうがゼロの場合ばあい)は、とくおおきなコンテキストウィンドウを使用しようする場合ばあいに、平滑へいかつ英語えいごばん手法しゅほうによって基本きほんてきなマルコフモデルを修正しゅうせいする必要ひつようがある[9]

指数しすう関数かんすうモデル

[編集へんしゅう]

最大さいだいエントロピー言語げんごモデルでは、単語たんごとn-gramの履歴りれきとの関係かんけい符号ふごうする特徴とくちょう関数かんすう使用しようする。言語げんごモデルはつぎしきあらわされる。ここで、分配ぶんぱい関数かんすう はパラメータベクトル、特徴とくちょう関数かんすうである。もっと単純たんじゅんかたちでは、特徴とくちょう関数かんすう特定とくていのn-gramの存在そんざいしめ指標しひょうにすぎない。モデルの最適さいてきなのために、事前じぜん分布ぶんぷ利用りようするか、なんらかのかたち正則せいそくおこなうことが有効ゆうこうである。指数しすう関数かんすうがた言語げんごモデルのひとつのれいとして、対数たいすうそう線形せんけいモデルがある。

ニューラルネットワーク

[編集へんしゅう]

ニューラル言語げんごモデルは、連続れんぞく空間くうかん言語げんごモデル(continuous space language models)ともばれ、単語たんご連続れんぞくてき表現ひょうげんまたは使用しようして予測よそくおこな[10]。これらのモデルでは、ニューラルネットワーク使用しようされている。

連続れんぞく空間くうかんみは、言語げんごモデリングにおける「次元じげんのろい」[注釈ちゅうしゃく 2]軽減けいげんするために有効ゆうこう手法しゅほうである。訓練くんれんもちいるテキストのおおきさおうじて語彙ごいふくまれる固有こゆう単語たんごすうえる。このため、単語たんごれつ可能かのうみわせすう指数しすう関数かんすうてき増加ぞうかすることにより、データうとせい問題もんだい発生はっせいする。そのため、かくりつ適切てきせつ推定すいていするためには統計とうけい必要ひつようとなる。この問題もんだい回避かいひするため、ニューラルネットワークでは単語たんご表現ひょうげん分散ぶんさんさせる手法しゅほうをとり、ネットワークないおもみの非線形ひせんけいわせとして表現ひょうげんする[11]。また、ニューラルネットは言語げんご関数かんすう近似きんじしているととらえることもできる。この目的もくてき使用しようできるニューラルネットのアーキテクチャには、じゅん伝播でんぱがた回帰かいきがたの2種類しゅるいがある。前者ぜんしゃ単純たんじゅんであるが、後者こうしゃほうがより一般いっぱんてきである[よう解説かいせつ][よう出典しゅってん]

ニューラルネット言語げんごモデルは一般いっぱんに、語彙ごい のすべての単語たんご についてかくりつ分布ぶんぷ予測よそくすることを目的もくてきとしたかくりつてき分類ぶんるい英語えいごばんとして構築こうちく訓練くんれんされる。 すなわち、ネットワークは、あたえられた言語げんごてきコンテキストにもとづいて、語彙ごいかくりつ分布ぶんぷ予測よそくするように訓練くんれんされる。これは、バックプロパゲーションもちいたかくりつてき勾配こうばい降下こうかほうなどの標準ひょうじゅんてきなニューラルネットワークの学習がくしゅうアルゴリズムによっておこなわれる[11]。コンテキストは、先行せんこうする単語たんご固定こていサイズのウィンドウとすることができ、ネットワークは先行せんこうする k 単語たんごあらわ特徴とくちょうベクトルから予測よそくする[11]。もうひとつの選択肢せんたくしとして、「過去かこ」と「未来みらい」の単語たんご特徴とくちょうとして使用しよう[12]推定すいていかくりつとする、バッグ・オブ・ワードモデル英語えいごばん(bag-of-words model)とばれるモデルもある。文脈ぶんみゃくちゅう単語たんご特徴とくちょうベクトルを連続れんぞく演算えんざん連結れんけつすると、このモデルは連続れんぞくバッグ・オブ・ワード(Continuous bag-of-words、CBOW)アーキテクチャとばれる[13]

だい3の選択肢せんたくしは、skip-gram英語えいごばんばれる言語げんごモデルである[14]。これはさき問題もんだいぎゃくにして、あたえられた単語たんごから、文脈ぶんみゃく出力しゅつりょくするようにニューラルネットワークを訓練くんれんさせるもので、CBOWよりも訓練くんれん時間じかんがかかるが、わずかに性能せいのうることができる[13]。その目標もくひょうは、訓練くんれんよう単語たんごれつ あたえられたとき、平均へいきん対数たいすうかくりつ最大さいだいすることである。ここで訓練くんれん文脈ぶんみゃくおおきさ k は、中央ちゅうおう単語たんご 関数かんすうとすることができる。skip-gramモデルとbag-of-wordsモデルは、word2vecプログラムの基礎きそをなしている[15]。 ニューラルネット言語げんごモデルを使用しようするさいおこなわれるのが、実際じっさいかくりつ計算けいさんするのではなく、ネットワークの「かくそう」に符号ふごうされた分散ぶんさん表現ひょうげん単語たんご表現ひょうげんとして利用りようするものである。かく単語たんごは「単語たんご」とばれる n 次元じげん実数じっすうベクトルがてられる。ここで n は、出力しゅつりょくそうよりまえそうおおきさである。特徴とくちょうてきなのは、skip-gramモデルの表現ひょうげんが、単語たんごあいだ意味いみてき関係かんけい線型せんけい結合けつごうとしてモデルし、それにより構成こうせいせい英語えいごばん形式けいしきとらえることである。たとえば、このようなモデルでは、単語たんご w をその n 次元じげんベクトル表現ひょうげん対応付たいおうづける関数かんすう v があるとき、というしき成立せいりつし、ここで ≈ は正確せいかくには右辺うへん左辺さへん最近さいきんはたとして定義ていぎされる[13][14]

その

[編集へんしゅう]

位置いち言語げんごモデル(positional language model)は[16]、テキストない特定とくてい単語たんごが、すぐに隣接りんせつしていなくても、ちかくに出現しゅつげんするかくりつ評価ひょうかするものである。同様どうように、bag-of-conceptsモデルは[17]、「今日きょうわたしはとても素敵すてきなクリスマスプレゼントをたくさんった」のような情報じょうほうりょうおお文章ぶんしょうでも、buy_christmas_present のような複数ふくすう単語たんご表現ひょうげん関連付かんれんづけて、そのセマンティクス(意味いみ)を利用りようするものである。

手話しゅわのモデリングにおいては、ニューラルネットワークで一定いってい成功せいこうをあげているが[18]技術ぎじゅつ必要ひつようであることを研究けんきゅうしゃ認識にんしきしている。

Generative Spoken Language Model (GSLM) は音声おんせい入力にゅうりょくとした言語げんごモデルである[19][20][21][22]文字もじれつ入力にゅうりょくとして一切いっさい利用りようしない。音声おんせい言語げんご情報じょうほう以外いがいにパラ言語げんご情報じょうほう言語げんご情報じょうほうふくんでいるため、音声おんせい入力にゅうりょくとするGSLMが獲得かくとくする表現ひょうげんにはこれらの情報じょうほうもコードされていると期待きたいされる[23]

評価ひょうかとベンチマーク

[編集へんしゅう]

言語げんごモデルの品質ひんしつは、通常つうじょう典型てんけいてき言語げんご指向しこうタスクを反映はんえいした、人間にんげん作成さくせいしたサンプルベンチマークとの比較ひかくによって評価ひょうかされる。あまり確立かくりつされていないが、言語げんごモデルに固有こゆう特性とくせい調しらべたり、2つのモデルを比較ひかくする品質ひんしつテストの方法ほうほうもある。言語げんごモデルは通常つうじょう動的どうてきであり、訓練くんれん遭遇そうぐうしたデータから学習がくしゅうすることを目的もくてきとしているため、提案ていあんされたモデルのなかには、学習がくしゅう曲線きょくせん調しらべることによって、学習がくしゅう速度そくど評価ひょうかするものもある[24]

言語げんご処理しょりシステムを評価ひょうかするために、いくつかのデータセットが開発かいはつされており、つぎのようなものがある[12]

  • 言語げんごがくてき許容きょようせいコーパス(Corpus of Linguistic Acceptability、CoLA)[25]
  • GLUEベンチマーク(GLUE benchmark)[26]
  • マイクロソフトリサーチ・パラフレーズコーパス(Microsoft Research Paraphrase Corpus、MRPC)[27]
  • ジャンル自然しぜん言語げんご推論すいろん(Multi-Genre Natural Language Inference、MultiNLI)
  • 質問しつもん自然しぜん言語げんご推論すいろん(Question Natural Language Inference、QNLI)
  • Quora質問しつもんペア(Quora Question Pairs、QQP)[28]
  • テキスト含意がんい認識にんしき(Recognizing Textual Entailment、RTE)[29]
  • テキスト意味いみてき類似るいじベンチマーク(Semantic Textual Similarity Benchmark、STS)
  • スタンフォード質問しつもん応答おうとうデータセット(Stanford Question Answering Dataset、SQuAD)[30]
  • スタンフォードセンチメントツリーバンク(Stanford Sentiment Treebank、SST[31]
  • Winograd NLI(WNLI)
  • BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (Measuring Massive Multitask Language Understanding), BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs.[32] (LLaMa Benchmark)

批評ひひょう

[編集へんしゅう]

GPT(Generative pre-trained transformer)のような現代げんだい言語げんごモデルは、特定とくていのタスクにおいて人間にんげん匹敵ひってきする能力のうりょく発揮はっきするが、認知にんちモデルとしての妥当だとうせい不確ふたしかになっている。たとえば、回帰かいきがたニューラルネットワークの場合ばあい人間にんげん学習がくしゅうしないパターンを学習がくしゅうしたり、人間にんげん学習がくしゅうするパターンを学習がくしゅうできずに失敗しっぱいすることがられている[33]

参考さんこう項目こうもく

[編集へんしゅう]


備考びこう

[編集へんしゅう]
  1. ^ デジタル無限むげんせい英語えいごばん特徴とくちょう
  2. ^ 次元じげんのろ: 言語げんごモデルがよりだい規模きぼなテキストで訓練くんれんされるにつれて、固有こゆう単語たんご語彙ごい)のかず指数しすう関数かんすうてき増加ぞうかすること。Heaps' law英語えいごばん参照さんしょう

脚注きゃくちゅう

[編集へんしゅう]
  1. ^ Jurafsky, Dan; Martin, James H. (2021). “N-gram Language Models”. Speech and Language Processing (3rd ed.). https://web.stanford.edu/~jurafsky/slp3/ 24 May 2022閲覧えつらん 
  2. ^ Kuhn, Roland, and Renato De Mori (1990). "A cache-based natural language model for speech recognition". IEEE transactions on pattern analysis and machine intelligence 12.6: 570–583.
  3. ^ a b Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation". Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
  4. ^ Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition". 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
  5. ^ Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman (2018). "Grammar induction with neural language models: An unusual replication". arXiv:1808.10000.
  6. ^ Ponte, Jay M.; Croft, W. Bruce (1998). A language modeling approach to information retrieval. Proceedings of the 21st ACM SIGIR Conference. Melbourne, Australia: ACM. pp. 275–281. doi:10.1145/290941.291008
  7. ^ Hiemstra, Djoerd (1998). A linguistically motivated probabilistically model of information retrieval. Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries. LNCS, Springer. pp. 569–584. doi:10.1007/3-540-49653-X_34
  8. ^ Manning, Christopher D. (2022). “Human Language Understanding & Reasoning”. Daedalus. https://www.amacad.org/publication/human-language-understanding-reasoning. 
  9. ^ a b Jurafsky, Dan; Martin, James H. (7 January 2023). “N-gram Language Models”. Speech and Language Processing (3rd edition draft ed.). https://web.stanford.edu/~jurafsky/slp3/ed3book_jan72023.pdf 24 May 2022閲覧えつらん 
  10. ^ The Unreasonable Effectiveness of Recurrent Neural Networks”. 2018ねん9がつ1にち閲覧えつらん
  11. ^ a b c Bengio, Yoshua (2008). "Neural net language models". Scholarpedia. Vol. 3. p. 3881. Bibcode:2008SchpJ...3.3881B. doi:10.4249/scholarpedia.3881
  12. ^ a b Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (10 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805 [cs.CL]。
  13. ^ a b c Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Efficient estimation of word representations in vector space". arXiv:1301.3781 [cs.CL]。
  14. ^ a b Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado irst4=Greg S.; Dean, Jeff (2013). Distributed Representations of Words and Phrases and their Compositionality (PDF). Advances in Neural Information Processing Systems. pp. 3111–3119.
  15. ^ Harris, Derrick (16 August 2013). “We're on the cusp of deep learning for the masses. You can thank Google later”. Gigaom. 2015ねん6がつ22にち閲覧えつらん
  16. ^ Lv, Yuanhua; Zhai, ChengXiang (2009). "Positional Language Models for Information Retrieval in" (PDF). Proceedings. 32nd international ACM SIGIR conference on Research and development in information retrieval (SIGIR).
  17. ^ Cambria, Erik; Hussain, Amir (2012-07-28) (英語えいご). Sentic Computing: Techniques, Tools, and Applications. Springer Netherlands. ISBN 978-94-007-5069-2. https://books.google.co.jp/books?id=NrtcLwEACAAJ 
  18. ^ Mocialov, Boris; Hastie, Helen; Turner, Graham (August 2018). “Transfer Learning for British Sign Language Modelling”. Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018): 101–110. arXiv:2006.02144. https://www.aclweb.org/anthology/W18-3911/ 14 March 2020閲覧えつらん. 
  19. ^ Facebook AI. (2021). Textless NLP: Generating expressive speech from raw audio.
  20. ^ Lakhotia, et al. (2021). Generative Spoken Language Modeling from Raw Audio.
  21. ^ Polyak, et al. (2021). Speech Resynthesis from Discrete Disentangled Self-Supervised Representations.
  22. ^ Kharitonov, et al. (2021). Text-Free Prosody-Aware Generative Spoken Language Modeling.
  23. ^ "by having access to the full expressivity of oral language, models should incorporate nuances and intonations" Facebook AI. (2021). Textless NLP: Generating expressive speech from raw audio.
  24. ^ Karlgren, Jussi; Schutze, Hinrich (2015), “Evaluating Learning Language Representations”, International Conference of the Cross-Language Evaluation Forum, Lecture Notes in Computer Science, Springer International Publishing, pp. 254–260, doi:10.1007/978-3-319-64206-2_8, ISBN 9783319642055 
  25. ^ The Corpus of Linguistic Acceptability (CoLA)”. nyu-mll.github.io. 2019ねん2がつ25にち閲覧えつらん
  26. ^ GLUE Benchmark” (英語えいご). gluebenchmark.com. 2019ねん2がつ25にち閲覧えつらん
  27. ^ Microsoft Research Paraphrase Corpus” (英語えいご). Microsoft Download Center. 2019ねん2がつ25にち閲覧えつらん
  28. ^ Aghaebrahimian, Ahmad (2017), “Quora Question Answer Dataset”, Text, Speech, and Dialogue, Lecture Notes in Computer Science, 10415, Springer International Publishing, pp. 66–73, doi:10.1007/978-3-319-64206-2_8, ISBN 9783319642055 
  29. ^ Recognizing Textual Entailment”. February 24, 2019閲覧えつらん
  30. ^ The Stanford Question Answering Dataset”. rajpurkar.github.io. 2019ねん2がつ25にち閲覧えつらん
  31. ^ Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank”. nlp.stanford.edu. 2019ねん2がつ25にち閲覧えつらん
  32. ^ Hendrycks, Dan (2023-03-14), Measuring Massive Multitask Language Understanding, https://github.com/hendrycks/test 2023ねん3がつ15にち閲覧えつらん 
  33. ^ Hornstein, Norbert; Lasnik, Howard; Patel-Grosz, Pritty; Yang, Charles (2018-01-09) (英語えいご). Syntactic Structures after 60 Years: The Impact of the Chomskyan Revolution in Linguistics. Walter de Gruyter GmbH & Co KG. ISBN 978-1-5015-0692-5. https://books.google.com/books?id=XoxsDwAAQBAJ&dq=adger+%22goldilocks%22&pg=PA153 

推薦すいせん文献ぶんけん

[編集へんしゅう]
  • J M Ponte and W B Croft (1998). "A Language Modeling Approach to Information Retrieval". Research and Development in Information Retrieval. pp. 275–281. CiteSeerX 10.1.1.117.4237
  • F Song and W B Croft (1999). "A General Language Model for Information Retrieval". Research and Development in Information Retrieval. pp. 279–280. CiteSeerX 10.1.1.21.6467
  • Chen, Stanley; Joshua Goodman (1998). An Empirical Study of Smoothing Techniques for Language Modeling (Technical report). Harvard University. CiteSeerX 10.1.1.131.5458