言語げんごモデル

言語げんごモデル（げんごモデル、英えい: language model）は、単語たんご列れつに対たいする確かく率りつ分布ぶんぷを表あらわすものである^[1]。

解説かいせつ

言語げんごモデルは、長ながさが $m$ 個この単語たんご列れつが与あたえられたとき、その単語たんご列れつ全体ぜんたいに対たいしての確かく率りつ $P(w_{1},\ldots ,w_{m})$ を与あたえる。この確かく率りつ分布ぶんぷは、1つまたは複数ふくすうの言語げんごのテキストコーパスを使用しようして、言語げんごモデルを訓練くんれんすることによって得えられる。しかし、言語げんごは無限むげんに有効ゆうこうな文ぶんを表現ひょうげんすることができるため^{[注釈ちゅうしゃく 1]}、言語げんごモデリングは、訓練くんれんデータでは遭遇そうぐうしないような言語げんご的てきに有効ゆうこうな単語たんご列れつにゼロでない確かく率りつを割わり当あてることが課題かだいとなる。この問題もんだいを克服こくふくするために、マルコフ仮定かていや、回帰かいき型がたニューラルネットワークあるいはトランスフォーマー（transformer）などのニューラルアーキテクチャなど、さまざまなモデリング方法ほうほうが考案こうあんされている。

言語げんごモデルは、計算けいさん言語げんご学がくにおけるさまざまな問題もんだいに役立やくだっている。当初とうしょは、低てい確かく率りつで無意味むいみな単語たんご列れつを予測よそくを防ふせぐために音声おんせい認識にんしき^[2]での使用しようから始はじまった。現在げんざいでは、機械きかい翻訳ほんやく（翻訳ほんやく候補こうほの順位じゅんい付づけ）^[3]や、より人間にんげんに近ちかいテキストを生成せいせいする自然しぜん言語げんご生成せいせい、品詞ひんしタグ付づけ（英語えいご版ばん）、構文こうぶん解析かいせき^[3]、光学こうがく文字もじ認識にんしき、手書てがき文字もじ認識にんしき^[4]、文法ぶんぽう誘導ゆうどう（英語えいご版ばん）^[5]、情報じょうほう検索けんさく^[6]^[7]など、幅広はばひろい用途ようとに利用りようされている。

情報じょうほう検索けんさくにおいては、クエリ尤ゆう度どモデル（英語えいご版ばん）において言語げんごモデルが用もちいられる。この方法ほうほうでは、コレクション内ないのすべての文書ぶんしょに、個別こべつの言語げんごモデルが関連付かんれんづけられている。そして各かく文書ぶんしょは、その文書ぶんしょの言語げんごモデル $M_{d}$ に対たいするクエリ $Q$ の確かく率りつ $P(Q\mid M_{d})$ に基もとづいて順位じゅんい付づけされる。この目的もくてきのため一般いっぱんに、ユニグラム（unigram）（英語えいご版ばん）言語げんごモデルが利用りようされる。

2018年ねん以降いこう、大だい規模きぼ言語げんごモデル（LLM）が登場とうじょうし、大おおきな発展はってんがみられた。これらのモデルは、数すう十じゅう億おく個この学習がくしゅう可能かのうなパラメータを持もつディープ・ニューラルネットワークで構成こうせいされ、ラベルなしテキストの膨大ぼうだいなデータセットで訓練くんれんされる。LLMは、さまざまな自然しぜん言語げんご処理しょりタスクで目覚めざましい成果せいかを示しめし、研究けんきゅうの焦点しょうてんが汎用はんよう的てきなLLMの使用しようへと移うつり変かわっている^[8]。

モデルの種類しゅるい

n-gramモデル

詳細しょうさいは「n-gram言語げんごモデル（英語えいご版ばん）」を参照さんしょう

n-gram言語げんごモデルは、マルコフ過程かていに基もとづいて単語たんご列れつをモデル化かするものである。このモデルでは、単語たんご列れつ内ないの次つぎの単語たんごの確かく率りつが、先行せんこうする単語たんごの固定こていサイズのウィンドウにのみ依存いぞんすると仮定かていすることで単純たんじゅん化かする。たとえば、bigramモデル先行せんこうするは1つの単語たんごのみを考慮こうりょし、trigramモデルは先行せんこうする2つの単語たんごを考慮こうりょし、n-gramモデルは先行せんこうするn-1単語たんごを文脈ぶんみゃくとして考慮こうりょする^[9]。

たとえば、bigram言語げんごモデルは、「I saw the red house（赤あかい家いえが見みえた）」という文ぶんの確かく率りつを次つぎのようにモデル化かする。 $P({\text{I, saw, the, red, house}})\approx P({\text{I}}\mid \langle s\rangle )P({\text{saw}}\mid {\text{I}})P({\text{the}}\mid {\text{saw}})P({\text{red}}\mid {\text{the}})P({\text{house}}\mid {\text{red}})P(\langle /s\rangle \mid {\text{house}})$ ここで、 $\langle s\rangle$ と $\langle /s\rangle$ は文ぶんの開始かいしと終了しゅうりょうを示しめす特別とくべつなトークンである。

これらの条件じょうけん付つき確かく率りつは、テキストコーパスの一部分いちぶぶんの頻度ひんどカウントに基もとづいて推定すいていすることができる。たとえば、 $P({\text{saw}}\mid {\text{I}})$ は、コーパス内ないでの単語たんご「I」に続つづいて「saw」が出現しゅつげんする割合わりあいとして単純たんじゅんに推定すいていできる。スパース性せいの問題もんだい（たとえば、コーパス内ないで「red house」というbigramの出現しゅつげん数すうがゼロの場合ばあい）は、特とくに大おおきなコンテキストウィンドウを使用しようする場合ばあいに、平滑へいかつ化か（英語えいご版ばん）手法しゅほうによって基本きほん的てきなマルコフモデルを修正しゅうせいする必要ひつようがある^[9]。

指数しすう関数かんすうモデル

最大さいだいエントロピー言語げんごモデルでは、単語たんごとn-gramの履歴りれきとの関係かんけいを符号ふごう化かする特徴とくちょう関数かんすうを使用しようする。言語げんごモデルは次つぎの式しきで表あらわされる。 $P(w_{m}\mid w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))$ ここで、 $Z(w_{1},\ldots ,w_{m-1})$ は分配ぶんぱい関数かんすう、 $a$ はパラメータベクトル、 $f(w_{1},\ldots ,w_{m})$ は特徴とくちょう関数かんすうである。最もっとも単純たんじゅんな形かたちでは、特徴とくちょう関数かんすうは特定とくていのn-gramの存在そんざいを示しめす指標しひょうにすぎない。モデルの最適さいてきなのために、 $a$ の事前じぜん分布ぶんぷを利用りようするか、何なんらかの形かたちで正則せいそく化かを行おこなうことが有効ゆうこうである。指数しすう関数かんすう型がたの言語げんごモデルの一ひとつの例れいとして、対数たいすう双そう線形せんけいモデルがある。

ニューラルネットワーク

ニューラル言語げんごモデルは、連続れんぞく空間くうかん言語げんごモデル（continuous space language models）とも呼よばれ、単語たんごの連続れんぞく的てきな表現ひょうげんまたは埋うめ込こみを使用しようして予測よそくを行おこなう^[10]。これらのモデルでは、ニューラルネットワークが使用しようされている。

連続れんぞく空間くうかんの埋うめ込こみは、言語げんごモデリングにおける「次元じげんの呪のろい」^{[注釈ちゅうしゃく 2]}を軽減けいげんするために有効ゆうこうな手法しゅほうである。訓練くんれんに用もちいるテキストの大おおきさ応おうじて語彙ごいに含ふくまれる固有こゆうの単語たんご数すうも増ふえる。このため、単語たんご列れつの可能かのうな組くみわせ数すうが指数しすう関数かんすう的てきに増加ぞうかすることにより、データ疎うと性せいの問題もんだいが発生はっせいする。そのため、確かく率りつを適切てきせつに推定すいていするためには統計とうけいが必要ひつようとなる。この問題もんだいを回避かいひするため、ニューラルネットワークでは単語たんごの表現ひょうげんを分散ぶんさんさせる手法しゅほうをとり、ネットワーク内ないの重おもみの非線形ひせんけいな組くみ合あわせとして表現ひょうげんする^[11]。また、ニューラルネットは言語げんご関数かんすうを近似きんじしていると捉とらえることもできる。この目的もくてきに使用しようできるニューラルネットのアーキテクチャには、順じゅん伝播でんぱ型がたと回帰かいき型がたの2種類しゅるいがある。前者ぜんしゃは単純たんじゅんであるが、後者こうしゃの方ほうがより一般いっぱん的てきである^{[要よう解説かいせつ]}^{[要よう出典しゅってん]}。

ニューラルネット言語げんごモデルは一般いっぱんに、語彙ごい $V$ のすべての単語たんご $t$ について確かく率りつ分布ぶんぷ $P(w_{t}\mid \mathrm {context} )\,\forall t\in V$ を予測よそくすることを目的もくてきとした確かく率りつ的てき分類ぶんるい器き（英語えいご版ばん）として構築こうちく・訓練くんれんされる。すなわち、ネットワークは、与あたえられた言語げんご的てきコンテキストに基もとづいて、語彙ごいの確かく率りつ分布ぶんぷを予測よそくするように訓練くんれんされる。これは、バックプロパゲーションを用もちいた確かく率りつ的てき勾配こうばい降下こうか法ほうなどの標準ひょうじゅん的てきなニューラルネットワークの学習がくしゅうアルゴリズムによって行おこなわれる^[11]。コンテキストは、先行せんこうする単語たんごの固定こていサイズのウィンドウとすることができ、ネットワークは先行せんこうする $k$ 個この単語たんごを表あらわす特徴とくちょうベクトルから $P(w_{t}\mid w_{t-k},\dots ,w_{t-1})$ を予測よそくする^[11]。もう一ひとつの選択肢せんたくしとして、「過去かこ」と「未来みらい」の単語たんごを特徴とくちょうとして使用しようし^[12]、推定すいてい確かく率りつを $P(w_{t}\mid w_{t-k},\dots ,w_{t-1},w_{t+1},\dots ,w_{t+k}).$ とする、バッグ・オブ・ワードモデル（英語えいご版ばん）（bag-of-words model）と呼よばれるモデルもある。文脈ぶんみゃく中ちゅうの単語たんごの特徴とくちょうベクトルを連続れんぞく演算えんざんで連結れんけつすると、このモデルは連続れんぞくバッグ・オブ・ワード（Continuous bag-of-words、CBOW）アーキテクチャと呼よばれる^[13]。

第だい3の選択肢せんたくしは、skip-gram（英語えいご版ばん）と呼よばれる言語げんごモデルである^[14]。これは先さきの問題もんだいを逆ぎゃくにして、与あたえられた単語たんごから、文脈ぶんみゃくを出力しゅつりょくするようにニューラルネットワークを訓練くんれんさせるもので、CBOWよりも訓練くんれんに時間じかんがかかるが、わずかに良よい性能せいのうを得えることができる^[13]。その目標もくひょうは、訓練くんれん用ようの単語たんご列れつ $w_{1},w_{2},w_{3},\dots ,w_{T}$ が与あたえられたとき、平均へいきん対数たいすう確かく率りつ ${\frac {1}{T}}\sum _{t=1}^{T}\sum _{-k\leq j\leq k,j\neq 0}\log P(w_{t+j}\mid w_{t})$ を最大さいだい化かすることである。ここで訓練くんれん文脈ぶんみゃくの大おおきさ $k$ は、中央ちゅうおうの単語たんご $w_{t}$ の関数かんすうとすることができる。skip-gramモデルとbag-of-wordsモデルは、word2vecプログラムの基礎きそをなしている^[15]。ニューラルネット言語げんごモデルを使用しようする際さいに良よく行おこなわれるのが、実際じっさいの確かく率りつを計算けいさんするのではなく、ネットワークの「隠かくれ層そう」に符号ふごう化かされた分散ぶんさん表現ひょうげんを単語たんごの表現ひょうげんとして利用りようするものである。各かく単語たんごは「単語たんご埋うめ込こみ」と呼よばれる $n$ 次元じげんの実数じっすうベクトルが割わり当あてられる。ここで $n$ は、出力しゅつりょく層そうより前まえの層そうの大おおきさである。特徴とくちょう的てきなのは、skip-gramモデルの表現ひょうげんが、単語たんご間あいだの意味いみ的てき関係かんけいを線型せんけい結合けつごうとしてモデル化かし、それにより構成こうせい性せい（英語えいご版ばん）の形式けいしきを捉とらえることである。たとえば、このようなモデルでは、単語たんご $w$ をその $n$ 次元じげんベクトル表現ひょうげんに対応付たいおうづける関数かんすう $v$ があるとき、 $v(\mathrm {king} )-v(\mathrm {male} )+v(\mathrm {female} )\approx v(\mathrm {queen} )$ という式しきが成立せいりつし、ここで ≈ は正確せいかくには右辺うへんが左辺さへんの値ねの最近さいきん傍はたとして定義ていぎされる^[13]^[14]。

その他た

位置いち言語げんごモデル（positional language model）は^[16]、テキスト内ないで特定とくていの単語たんごが、すぐに隣接りんせつしていなくても、近ちかくに出現しゅつげんする確かく率りつを評価ひょうかするものである。同様どうように、bag-of-conceptsモデルは^[17]、「今日きょう、私わたしはとても素敵すてきなクリスマスプレゼントをたくさん買かった」のような情報じょうほう量りょうの多おおい文章ぶんしょうでも、buy_christmas_present のような複数ふくすう単語たんご表現ひょうげんに関連付かんれんづけて、そのセマンティクス（意味いみ）を利用りようするものである。

手話しゅわのモデリングにおいては、ニューラルネットワークで一定いっていの成功せいこうをあげているが^[18]、他たの技術ぎじゅつが必要ひつようであることを研究けんきゅう者しゃは認識にんしきしている。

Generative Spoken Language Model (GSLM) は音声おんせいを入力にゅうりょくとした言語げんごモデルである^[19]^[20]^[21]^[22]。文字もじ列れつを入力にゅうりょくとして一切いっさい利用りようしない。音声おんせいは言語げんご情報じょうほう以外いがいにパラ言語げんご情報じょうほう・非ひ言語げんご情報じょうほうを含ふくんでいるため、音声おんせいを入力にゅうりょくとするGSLMが獲得かくとくする表現ひょうげんにはこれらの情報じょうほうもコードされていると期待きたいされる^[23]。

評価ひょうかとベンチマーク

言語げんごモデルの品質ひんしつは、通常つうじょう、典型てんけい的てきな言語げんご指向しこうタスクを反映はんえいした、人間にんげんが作成さくせいしたサンプルベンチマークとの比較ひかくによって評価ひょうかされる。あまり確立かくりつされていないが、言語げんごモデルに固有こゆうの特性とくせいを調しらべたり、2つのモデルを比較ひかくする品質ひんしつテストの方法ほうほうもある。言語げんごモデルは通常つうじょうは動的どうてきであり、訓練くんれんで遭遇そうぐうしたデータから学習がくしゅうすることを目的もくてきとしているため、提案ていあんされたモデルの中なかには、学習がくしゅう曲線きょくせんを調しらべることによって、学習がくしゅう速度そくどを評価ひょうかするものもある^[24]。

言語げんご処理しょりシステムを評価ひょうかするために、いくつかのデータセットが開発かいはつされており、次つぎのようなものがある^[12]。

言語げんご学がく的てき許容きょよう性せいコーパス（Corpus of Linguistic Acceptability、CoLA）^[25]
GLUEベンチマーク（GLUE benchmark）^[26]
マイクロソフトリサーチ・パラフレーズコーパス（Microsoft Research Paraphrase Corpus、MRPC）^[27]
多たジャンル自然しぜん言語げんご推論すいろん（Multi-Genre Natural Language Inference、MultiNLI）
質問しつもん自然しぜん言語げんご推論すいろん（Question Natural Language Inference、QNLI）
Quora質問しつもんペア（Quora Question Pairs、QQP）^[28]
テキスト含意がんい認識にんしき（Recognizing Textual Entailment、RTE）^[29]
テキスト意味いみ的てき類似るいじ度どベンチマーク（Semantic Textual Similarity Benchmark、STS）
スタンフォード質問しつもん応答おうとうデータセット（Stanford Question Answering Dataset、SQuAD）^[30]
スタンフォードセンチメントツリーバンク（Stanford Sentiment Treebank、SST^[31]）
Winograd NLI（WNLI）
BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (Measuring Massive Multitask Language Understanding), BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs.^[32] (LLaMa Benchmark)

批評ひひょう

GPT（Generative pre-trained transformer）のような現代げんだいの言語げんごモデルは、特定とくていのタスクにおいて人間にんげんに匹敵ひってきする能力のうりょくを発揮はっきするが、認知にんちモデルとしての妥当だとう性せいは不確ふたしかになっている。たとえば、回帰かいき型がたニューラルネットワークの場合ばあい、人間にんげんが学習がくしゅうしないパターンを学習がくしゅうしたり、人間にんげんが学習がくしゅうするパターンを学習がくしゅうできずに失敗しっぱいすることが知しられている^[33]。

参考さんこう項目こうもく

キャッシュ言語げんごモデル（英語えいご版ばん） - 確かく率りつ分布ぶんぷによって特定とくていの単語たんご列れつに確かく率りつを割わり当あてる統計とうけい的てきな言語げんごモデル
深層しんそう言語げんご処理しょり（英語えいご版ばん） - 理論りろん的てき・記述きじゅつ的てき言語げんご学がくにおける主おもに理論りろん的てきな統語とうご論ろん／意味いみ論ろんを用もちいた言語げんごモデル
Factored language model（英語えいご版ばん） - 各かく単語たんごをk個この因子いんしのベクトルと見みなした言語げんごモデル
生成せいせい的てき事前じぜん学習がくしゅうトランスフォーマー（Generative pre-trained transformers、GPT）- 事前じぜん学習がくしゅうと転位てんい学習がくしゅうを組くみ合あわせたニューラル言語げんごモデルの一種いっしゅ
Katzバックオフモデル（英語えいご版ばん）- 生成せいせい的てきなn-gram言語げんごモデルをの一種いっしゅ
言語げんご技術ぎじゅつ - コンピュータ機器ききが人間にんげんのテキストや音声おんせいを扱あつかう方法ほうほうを研究けんきゅうする学問がくもん領域りょういき
統計とうけいモデル - 標本ひょうほんデータの生成せいせいに関かんする統計とうけい的てき仮定かていを具現ぐげん化かした数学すうがくモデル
人工じんこう知能ちのうの倫理りんり - 人工じんこう知能ちのうシステムに特とく化かした技術ぎじゅつ倫理りんりの一いち分野ぶんや

備考びこう

^ デジタル無限むげん性せい（英語えいご版ばん）の特徴とくちょう
^ 次元じげんの呪のろい: 言語げんごモデルがより大だい規模きぼなテキストで訓練くんれんされるにつれて、固有こゆうの単語たんご（語彙ごい）の数かずが指数しすう関数かんすう的てきに増加ぞうかすること。Heaps' law（英語えいご版ばん）を参照さんしょう。

脚注きゃくちゅう

^ Jurafsky, Dan; Martin, James H. (2021). “N-gram Language Models”. Speech and Language Processing (3rd ed.) 24 May 2022閲覧えつらん。
^ Kuhn, Roland, and Renato De Mori (1990). "A cache-based natural language model for speech recognition". IEEE transactions on pattern analysis and machine intelligence 12.6: 570–583.
^ ^a ^b Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation". Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
^ Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition". 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
^ Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman (2018). "Grammar induction with neural language models: An unusual replication". arXiv:1808.10000.
^ Ponte, Jay M.; Croft, W. Bruce (1998). A language modeling approach to information retrieval. Proceedings of the 21st ACM SIGIR Conference. Melbourne, Australia: ACM. pp. 275–281. doi:10.1145/290941.291008。
^ Hiemstra, Djoerd (1998). A linguistically motivated probabilistically model of information retrieval. Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries. LNCS, Springer. pp. 569–584. doi:10.1007/3-540-49653-X_34。
^ Manning, Christopher D. (2022). “Human Language Understanding & Reasoning”. Daedalus.
^ ^a ^b Jurafsky, Dan; Martin, James H. (7 January 2023). “N-gram Language Models”. Speech and Language Processing (3rd edition draft ed.) 24 May 2022閲覧えつらん。
^ “The Unreasonable Effectiveness of Recurrent Neural Networks”. 2018年ねん9月がつ1日にち閲覧えつらん。
^ ^a ^b ^c Bengio, Yoshua (2008). "Neural net language models". Scholarpedia. Vol. 3. p. 3881. Bibcode:2008SchpJ...3.3881B. doi:10.4249/scholarpedia.3881。
^ ^a ^b Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (10 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805 [cs.CL]。
^ ^a ^b ^c Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Efficient estimation of word representations in vector space". arXiv:1301.3781 [cs.CL]。
^ ^a ^b Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado irst4=Greg S.; Dean, Jeff (2013). Distributed Representations of Words and Phrases and their Compositionality (PDF). Advances in Neural Information Processing Systems. pp. 3111–3119.
^ Harris, Derrick (16 August 2013). “We're on the cusp of deep learning for the masses. You can thank Google later”. Gigaom. 2015年ねん6月がつ22日にち閲覧えつらん。
^ Lv, Yuanhua; Zhai, ChengXiang (2009). "Positional Language Models for Information Retrieval in" (PDF). Proceedings. 32nd international ACM SIGIR conference on Research and development in information retrieval (SIGIR).
^ Cambria, Erik; Hussain, Amir (2012-07-28) (英語えいご). Sentic Computing: Techniques, Tools, and Applications. Springer Netherlands. ISBN 978-94-007-5069-2
^ Mocialov, Boris; Hastie, Helen; Turner, Graham (August 2018). “Transfer Learning for British Sign Language Modelling”. Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018): 101–110. arXiv:2006.02144 14 March 2020閲覧えつらん。.
^ Facebook AI. (2021). Textless NLP: Generating expressive speech from raw audio.
^ Lakhotia, et al. (2021). Generative Spoken Language Modeling from Raw Audio.
^ Polyak, et al. (2021). Speech Resynthesis from Discrete Disentangled Self-Supervised Representations.
^ Kharitonov, et al. (2021). Text-Free Prosody-Aware Generative Spoken Language Modeling.
^ "by having access to the full expressivity of oral language, models should incorporate nuances and intonations" Facebook AI. (2021). Textless NLP: Generating expressive speech from raw audio.
^ Karlgren, Jussi; Schutze, Hinrich (2015), “Evaluating Learning Language Representations”, International Conference of the Cross-Language Evaluation Forum, Lecture Notes in Computer Science, Springer International Publishing, pp. 254–260, doi:10.1007/978-3-319-64206-2_8, ISBN 9783319642055
^ “The Corpus of Linguistic Acceptability (CoLA)”. nyu-mll.github.io. 2019年ねん2月がつ25日にち閲覧えつらん。
^ “GLUE Benchmark” (英語えいご). gluebenchmark.com. 2019年ねん2月がつ25日にち閲覧えつらん。
^ “Microsoft Research Paraphrase Corpus” (英語えいご). Microsoft Download Center. 2019年ねん2月がつ25日にち閲覧えつらん。
^ Aghaebrahimian, Ahmad (2017), “Quora Question Answer Dataset”, Text, Speech, and Dialogue, Lecture Notes in Computer Science, 10415, Springer International Publishing, pp. 66–73, doi:10.1007/978-3-319-64206-2_8, ISBN 9783319642055
^ “Recognizing Textual Entailment”. February 24, 2019閲覧えつらん。
^ “The Stanford Question Answering Dataset”. rajpurkar.github.io. 2019年ねん2月がつ25日にち閲覧えつらん。
^ “Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank”. nlp.stanford.edu. 2019年ねん2月がつ25日にち閲覧えつらん。
^ Hendrycks, Dan (2023-03-14), Measuring Massive Multitask Language Understanding, https://github.com/hendrycks/test 2023年ねん3月がつ15日にち閲覧えつらん。
^ Hornstein, Norbert; Lasnik, Howard; Patel-Grosz, Pritty; Yang, Charles (2018-01-09) (英語えいご). Syntactic Structures after 60 Years: The Impact of the Chomskyan Revolution in Linguistics. Walter de Gruyter GmbH & Co KG. ISBN 978-1-5015-0692-5