言語 げんご モデル (げんごモデル、英 えい : language model )は、単語 たんご 列 れつ に対 たい する確 かく 率 りつ 分布 ぶんぷ を表 あら わすものである[ 1] 。
言語 げんご モデルは、長 なが さがm 個 こ の単語 たんご 列 れつ が与 あた えられたとき、その単語 たんご 列 れつ 全体 ぜんたい に対 たい しての確 かく 率 りつ
P
(
w
1
,
…
,
w
m
)
{\displaystyle P(w_{1},\ldots ,w_{m})}
を与 あた える。この確 かく 率 りつ 分布 ぶんぷ は、1つまたは複数 ふくすう の言語 げんご のテキストコーパス を使用 しよう して、言語 げんご モデルを訓練 くんれん することによって得 え られる。しかし、言語 げんご は無限 むげん に有効 ゆうこう な文 ぶん を表現 ひょうげん することができるため[ 注釈 ちゅうしゃく 1] 、言語 げんご モデリングは、訓練 くんれん データでは遭遇 そうぐう しないような言語 げんご 的 てき に有効 ゆうこう な単語 たんご 列 れつ にゼロでない確 かく 率 りつ を割 わ り当 あ てることが課題 かだい となる。この問題 もんだい を克服 こくふく するために、マルコフ仮定 かてい や、回帰 かいき 型 がた ニューラルネットワーク あるいはトランスフォーマー (transformer)などのニューラルアーキテクチャなど、さまざまなモデリング方法 ほうほう が考案 こうあん されている。
言語 げんご モデルは、計算 けいさん 言語 げんご 学 がく におけるさまざまな問題 もんだい に役立 やくだ っている。当初 とうしょ は、低 てい 確 かく 率 りつ で無意味 むいみ な単語 たんご 列 れつ を予測 よそく を防 ふせ ぐために音声 おんせい 認識 にんしき [ 2] での使用 しよう から始 はじ まった。現在 げんざい では、機械 きかい 翻訳 ほんやく (翻訳 ほんやく 候補 こうほ の順位 じゅんい 付 づ け)[ 3] や、より人間 にんげん に近 ちか いテキストを生成 せいせい する自然 しぜん 言語 げんご 生成 せいせい 、品詞 ひんし タグ付 づ け(英語 えいご 版 ばん ) 、構文 こうぶん 解析 かいせき [ 3] 、光学 こうがく 文字 もじ 認識 にんしき 、手書 てが き文字 もじ 認識 にんしき [ 4] 、文法 ぶんぽう 誘導 ゆうどう (英語 えいご 版 ばん ) [ 5] 、情報 じょうほう 検索 けんさく [ 6] [ 7] など、幅広 はばひろ い用途 ようと に利用 りよう されている。
情報 じょうほう 検索 けんさく においては、クエリ尤 ゆう 度 ど モデル (英語 えいご 版 ばん ) において言語 げんご モデルが用 もち いられる。この方法 ほうほう では、コレクション内 ない のすべての文書 ぶんしょ に、個別 こべつ の言語 げんご モデルが関連付 かんれんづ けられている。そして各 かく 文書 ぶんしょ は、その文書 ぶんしょ の言語 げんご モデル
M
d
{\displaystyle M_{d}}
に対 たい するクエリ
Q
{\displaystyle Q}
の確 かく 率 りつ
P
(
Q
∣
M
d
)
{\displaystyle P(Q\mid M_{d})}
に基 もと づいて順位 じゅんい 付 づ けされる。この目的 もくてき のため一般 いっぱん に、ユニグラム(unigram) (英語 えいご 版 ばん ) 言語 げんご モデルが利用 りよう される。
2018年 ねん 以降 いこう 、大 だい 規模 きぼ 言語 げんご モデル (LLM)が登場 とうじょう し、大 おお きな発展 はってん がみられた。これらのモデルは、数 すう 十 じゅう 億 おく 個 こ の学習 がくしゅう 可能 かのう なパラメータを持 も つディープ・ニューラルネットワーク で構成 こうせい され、ラベルなしテキストの膨大 ぼうだい なデータセットで訓練 くんれん される。LLMは、さまざまな自然 しぜん 言語 げんご 処理 しょり タスクで目覚 めざ ましい成果 せいか を示 しめ し、研究 けんきゅう の焦点 しょうてん が汎用 はんよう 的 てき なLLMの使用 しよう へと移 うつ り変 か わっている[ 8] 。
n-gram言語 げんご モデルは、マルコフ過程 かてい に基 もと づいて単語 たんご 列 れつ をモデル化 か するものである。このモデルでは、単語 たんご 列 れつ 内 ない の次 つぎ の単語 たんご の確 かく 率 りつ が、先行 せんこう する単語 たんご の固定 こてい サイズのウィンドウにのみ依存 いぞん すると仮定 かてい することで単純 たんじゅん 化 か する。たとえば、bigramモデル先行 せんこう するは1つの単語 たんご のみを考慮 こうりょ し、trigramモデルは先行 せんこう する2つの単語 たんご を考慮 こうりょ し、n-gramモデルは先行 せんこう するn-1単語 たんご を文脈 ぶんみゃく として考慮 こうりょ する[ 9] 。
たとえば、bigram言語 げんご モデルは、「I saw the red house (赤 あか い家 いえ が見 み えた)」という文 ぶん の確 かく 率 りつ を次 つぎ のようにモデル化 か する。
P
(
I, saw, the, red, house
)
≈
P
(
I
∣
⟨
s
⟩
)
P
(
saw
∣
I
)
P
(
the
∣
saw
)
P
(
red
∣
the
)
P
(
house
∣
red
)
P
(
⟨
/
s
⟩
∣
house
)
{\displaystyle P({\text{I, saw, the, red, house}})\approx P({\text{I}}\mid \langle s\rangle )P({\text{saw}}\mid {\text{I}})P({\text{the}}\mid {\text{saw}})P({\text{red}}\mid {\text{the}})P({\text{house}}\mid {\text{red}})P(\langle /s\rangle \mid {\text{house}})}
ここで、
⟨
s
⟩
{\displaystyle \langle s\rangle }
と
⟨
/
s
⟩
{\displaystyle \langle /s\rangle }
は文 ぶん の開始 かいし と終了 しゅうりょう を示 しめ す特別 とくべつ なトークンである。
これらの条件 じょうけん 付 つ き確 かく 率 りつ は、テキストコーパス の一部分 いちぶぶん の頻度 ひんど カウントに基 もと づいて推定 すいてい することができる。たとえば、
P
(
saw
∣
I
)
{\displaystyle P({\text{saw}}\mid {\text{I}})}
は、コーパス内 ない での単語 たんご 「I 」に続 つづ いて「saw 」が出現 しゅつげん する割合 わりあい として単純 たんじゅん に推定 すいてい できる。スパース性 せい の問題 もんだい (たとえば、コーパス内 ない で「red house 」というbigramの出現 しゅつげん 数 すう がゼロの場合 ばあい )は、特 とく に大 おお きなコンテキストウィンドウを使用 しよう する場合 ばあい に、平滑 へいかつ 化 か (英語 えいご 版 ばん ) 手法 しゅほう によって基本 きほん 的 てき なマルコフモデルを修正 しゅうせい する必要 ひつよう がある[ 9] 。
最大 さいだい エントロピー言語 げんご モデルでは、単語 たんご とn-gramの履歴 りれき との関係 かんけい を符号 ふごう 化 か する特徴 とくちょう 関数 かんすう を使用 しよう する。言語 げんご モデルは次 つぎ の式 しき で表 あらわ される。
P
(
w
m
∣
w
1
,
…
,
w
m
−
1
)
=
1
Z
(
w
1
,
…
,
w
m
−
1
)
exp
(
a
T
f
(
w
1
,
…
,
w
m
)
)
{\displaystyle P(w_{m}\mid w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}
ここで、
Z
(
w
1
,
…
,
w
m
−
1
)
{\displaystyle Z(w_{1},\ldots ,w_{m-1})}
は分配 ぶんぱい 関数 かんすう 、
a
{\displaystyle a}
はパラメータベクトル、
f
(
w
1
,
…
,
w
m
)
{\displaystyle f(w_{1},\ldots ,w_{m})}
は特徴 とくちょう 関数 かんすう である。最 もっと も単純 たんじゅん な形 かたち では、特徴 とくちょう 関数 かんすう は特定 とくてい のn-gramの存在 そんざい を示 しめ す指標 しひょう にすぎない。モデルの最適 さいてき なのために、
a
{\displaystyle a}
の事前 じぜん 分布 ぶんぷ を利用 りよう するか、何 なん らかの形 かたち で正則 せいそく 化 か を行 おこな うことが有効 ゆうこう である。指数 しすう 関数 かんすう 型 がた の言語 げんご モデルの一 ひと つの例 れい として、対数 たいすう 双 そう 線形 せんけい モデルがある。
ニューラル言語 げんご モデルは、連続 れんぞく 空間 くうかん 言語 げんご モデル(continuous space language models )とも呼 よ ばれ、単語 たんご の連続 れんぞく 的 てき な表現 ひょうげん または埋 う め込 こ み を使用 しよう して予測 よそく を行 おこな う[ 10] 。これらのモデルでは、ニューラルネットワーク が使用 しよう されている。
連続 れんぞく 空間 くうかん の埋 う め込 こ みは、言語 げんご モデリングにおける「次元 じげん の呪 のろ い」[ 注釈 ちゅうしゃく 2] を軽減 けいげん するために有効 ゆうこう な手法 しゅほう である。訓練 くんれん に用 もち いるテキストの大 おお きさ応 おう じて語彙 ごい に含 ふく まれる固有 こゆう の単語 たんご 数 すう も増 ふ える。このため、単語 たんご 列 れつ の可能 かのう な組 く みわせ数 すう が指数 しすう 関数 かんすう 的 てき に増加 ぞうか することにより、データ疎 うと 性 せい の問題 もんだい が発生 はっせい する。そのため、確 かく 率 りつ を適切 てきせつ に推定 すいてい するためには統計 とうけい が必要 ひつよう となる。この問題 もんだい を回避 かいひ するため、ニューラルネットワーク では単語 たんご の表現 ひょうげん を分散 ぶんさん させる手法 しゅほう をとり、ネットワーク内 ない の重 おも みの非線形 ひせんけい な組 く み合 あ わせとして表現 ひょうげん する[ 11] 。また、ニューラルネットは言語 げんご 関数 かんすう を近似 きんじ していると捉 とら えることもできる。この目的 もくてき に使用 しよう できるニューラルネットのアーキテクチャには、順 じゅん 伝播 でんぱ 型 がた と回帰 かいき 型 がた の2種類 しゅるい がある。前者 ぜんしゃ は単純 たんじゅん であるが、後者 こうしゃ の方 ほう がより一般 いっぱん 的 てき である[要 よう 解説 かいせつ ] [要 よう 出典 しゅってん ] 。
ニューラルネット言語 げんご モデルは一般 いっぱん に、語彙 ごい
V
{\displaystyle V}
のすべての単語 たんご
t
{\displaystyle t}
について確 かく 率 りつ 分布 ぶんぷ
P
(
w
t
∣
c
o
n
t
e
x
t
)
∀
t
∈
V
{\displaystyle P(w_{t}\mid \mathrm {context} )\,\forall t\in V}
を予測 よそく することを目的 もくてき とした確 かく 率 りつ 的 てき 分類 ぶんるい 器 き (英語 えいご 版 ばん ) として構築 こうちく ・訓練 くんれん される。
すなわち、ネットワークは、与 あた えられた言語 げんご 的 てき コンテキストに基 もと づいて、語彙 ごい の確 かく 率 りつ 分布 ぶんぷ を予測 よそく するように訓練 くんれん される。これは、バックプロパゲーション を用 もち いた確 かく 率 りつ 的 てき 勾配 こうばい 降下 こうか 法 ほう などの標準 ひょうじゅん 的 てき なニューラルネットワークの学習 がくしゅう アルゴリズムによって行 おこな われる[ 11] 。コンテキストは、先行 せんこう する単語 たんご の固定 こてい サイズのウィンドウとすることができ、ネットワークは先行 せんこう する k 個 こ の単語 たんご を表 あらわ す特徴 とくちょう ベクトル から
P
(
w
t
∣
w
t
−
k
,
…
,
w
t
−
1
)
{\displaystyle P(w_{t}\mid w_{t-k},\dots ,w_{t-1})}
を予測 よそく する[ 11] 。もう一 ひと つの選択肢 せんたくし として、「過去 かこ 」と「未来 みらい 」の単語 たんご を特徴 とくちょう として使用 しよう し[ 12] 、推定 すいてい 確 かく 率 りつ を
P
(
w
t
∣
w
t
−
k
,
…
,
w
t
−
1
,
w
t
+
1
,
…
,
w
t
+
k
)
.
{\displaystyle P(w_{t}\mid w_{t-k},\dots ,w_{t-1},w_{t+1},\dots ,w_{t+k}).}
とする、バッグ・オブ・ワードモデル (英語 えいご 版 ばん ) (bag-of-words model)と呼 よ ばれるモデルもある。文脈 ぶんみゃく 中 ちゅう の単語 たんご の特徴 とくちょう ベクトルを連続 れんぞく 演算 えんざん で連結 れんけつ すると、このモデルは連続 れんぞく バッグ・オブ・ワード(Continuous bag-of-words、CBOW)アーキテクチャと呼 よ ばれる[ 13] 。
第 だい 3の選択肢 せんたくし は、skip-gram (英語 えいご 版 ばん ) と呼 よ ばれる言語 げんご モデルである[ 14] 。これは先 さき の問題 もんだい を逆 ぎゃく にして、与 あた えられた単語 たんご から、文脈 ぶんみゃく を出力 しゅつりょく するようにニューラルネットワークを訓練 くんれん させるもので、CBOWよりも訓練 くんれん に時間 じかん がかかるが、わずかに良 よ い性能 せいのう を得 え ることができる[ 13] 。その目標 もくひょう は、訓練 くんれん 用 よう の単語 たんご 列 れつ
w
1
,
w
2
,
w
3
,
…
,
w
T
{\displaystyle w_{1},w_{2},w_{3},\dots ,w_{T}}
が与 あた えられたとき、平均 へいきん 対数 たいすう 確 かく 率 りつ
1
T
∑
t
=
1
T
∑
−
k
≤
j
≤
k
,
j
≠
0
log
P
(
w
t
+
j
∣
w
t
)
{\displaystyle {\frac {1}{T}}\sum _{t=1}^{T}\sum _{-k\leq j\leq k,j\neq 0}\log P(w_{t+j}\mid w_{t})}
を最大 さいだい 化 か することである。ここで訓練 くんれん 文脈 ぶんみゃく の大 おお きさ k は、中央 ちゅうおう の単語 たんご
w
t
{\displaystyle w_{t}}
の関数 かんすう とすることができる。skip-gramモデルとbag-of-wordsモデルは、word2vec プログラムの基礎 きそ をなしている[ 15] 。
ニューラルネット言語 げんご モデルを使用 しよう する際 さい に良 よ く行 おこな われるのが、実際 じっさい の確 かく 率 りつ を計算 けいさん するのではなく、ネットワークの「隠 かく れ層 そう 」に符号 ふごう 化 か された分散 ぶんさん 表現 ひょうげん を単語 たんご の表現 ひょうげん として利用 りよう するものである。各 かく 単語 たんご は「単語 たんご 埋 う め込 こ み 」と呼 よ ばれる n 次元 じげん の実数 じっすう ベクトルが割 わ り当 あ てられる。ここで n は、出力 しゅつりょく 層 そう より前 まえ の層 そう の大 おお きさである。特徴 とくちょう 的 てき なのは、skip-gramモデルの表現 ひょうげん が、単語 たんご 間 あいだ の意味 いみ 的 てき 関係 かんけい を線型 せんけい 結合 けつごう としてモデル化 か し、それにより構成 こうせい 性 せい (英語 えいご 版 ばん ) の形式 けいしき を捉 とら えることである。たとえば、このようなモデルでは、単語 たんご w をその n 次元 じげん ベクトル表現 ひょうげん に対応付 たいおうづ ける関数 かんすう v があるとき、
v
(
k
i
n
g
)
−
v
(
m
a
l
e
)
+
v
(
f
e
m
a
l
e
)
≈
v
(
q
u
e
e
n
)
{\displaystyle v(\mathrm {king} )-v(\mathrm {male} )+v(\mathrm {female} )\approx v(\mathrm {queen} )}
という式 しき が成立 せいりつ し、ここで ≈ は正確 せいかく には右辺 うへん が左辺 さへん の値 ね の最近 さいきん 傍 はた として定義 ていぎ される[ 13] [ 14] 。
位置 いち 言語 げんご モデル(positional language model)は[ 16] 、テキスト内 ない で特定 とくてい の単語 たんご が、すぐに隣接 りんせつ していなくても、近 ちか くに出現 しゅつげん する確 かく 率 りつ を評価 ひょうか するものである。同様 どうよう に、bag-of-conceptsモデルは[ 17] 、「今日 きょう 、私 わたし はとても素敵 すてき なクリスマスプレゼントをたくさん買 か った」のような情報 じょうほう 量 りょう の多 おお い文章 ぶんしょう でも、buy_christmas_present のような複数 ふくすう 単語 たんご 表現 ひょうげん に関連付 かんれんづ けて、そのセマンティクス(意味 いみ )を利用 りよう するものである。
手話 しゅわ のモデリングにおいては、ニューラルネットワークで一定 いってい の成功 せいこう をあげているが[ 18] 、他 た の技術 ぎじゅつ が必要 ひつよう であることを研究 けんきゅう 者 しゃ は認識 にんしき している。
Generative Spoken Language Model (GSLM) は音声 おんせい を入力 にゅうりょく とした言語 げんご モデルである[ 19] [ 20] [ 21] [ 22] 。文字 もじ 列 れつ を入力 にゅうりょく として一切 いっさい 利用 りよう しない。音声 おんせい は言語 げんご 情報 じょうほう 以外 いがい にパラ言語 げんご 情報 じょうほう ・非 ひ 言語 げんご 情報 じょうほう を含 ふく んでいるため、音声 おんせい を入力 にゅうりょく とするGSLMが獲得 かくとく する表現 ひょうげん にはこれらの情報 じょうほう もコードされていると期待 きたい される[ 23] 。
言語 げんご モデルの品質 ひんしつ は、通常 つうじょう 、典型 てんけい 的 てき な言語 げんご 指向 しこう タスクを反映 はんえい した、人間 にんげん が作成 さくせい したサンプルベンチマークとの比較 ひかく によって評価 ひょうか される。あまり確立 かくりつ されていないが、言語 げんご モデルに固有 こゆう の特性 とくせい を調 しら べたり、2つのモデルを比較 ひかく する品質 ひんしつ テストの方法 ほうほう もある。言語 げんご モデルは通常 つうじょう は動的 どうてき であり、訓練 くんれん で遭遇 そうぐう したデータから学習 がくしゅう することを目的 もくてき としているため、提案 ていあん されたモデルの中 なか には、学習 がくしゅう 曲線 きょくせん を調 しら べることによって、学習 がくしゅう 速度 そくど を評価 ひょうか するものもある[ 24] 。
言語 げんご 処理 しょり システムを評価 ひょうか するために、いくつかのデータセットが開発 かいはつ されており、次 つぎ のようなものがある[ 12] 。
言語 げんご 学 がく 的 てき 許容 きょよう 性 せい コーパス(Corpus of Linguistic Acceptability、CoLA)[ 25]
GLUEベンチマーク(GLUE benchmark)[ 26]
マイクロソフトリサーチ・パラフレーズコーパス(Microsoft Research Paraphrase Corpus、MRPC)[ 27]
多 た ジャンル自然 しぜん 言語 げんご 推論 すいろん (Multi-Genre Natural Language Inference、MultiNLI)
質問 しつもん 自然 しぜん 言語 げんご 推論 すいろん (Question Natural Language Inference、QNLI)
Quora質問 しつもん ペア(Quora Question Pairs、QQP)[ 28]
テキスト含意 がんい 認識 にんしき (Recognizing Textual Entailment、RTE)[ 29]
テキスト意味 いみ 的 てき 類似 るいじ 度 ど ベンチマーク(Semantic Textual Similarity Benchmark、STS)
スタンフォード質問 しつもん 応答 おうとう データセット(Stanford Question Answering Dataset、SQuAD)[ 30]
スタンフォードセンチメントツリーバンク (Stanford Sentiment Treebank、SST[ 31] )
Winograd NLI(WNLI)
BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (Measuring Massive Multitask Language Understanding), BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs.[ 32] (LLaMa Benchmark )
GPT (Generative pre-trained transformer)のような現代 げんだい の言語 げんご モデルは、特定 とくてい のタスクにおいて人間 にんげん に匹敵 ひってき する能力 のうりょく を発揮 はっき するが、認知 にんち モデル としての妥当 だとう 性 せい は不確 ふたし かになっている。たとえば、回帰 かいき 型 がた ニューラルネットワークの場合 ばあい 、人間 にんげん が学習 がくしゅう しないパターンを学習 がくしゅう したり、人間 にんげん が学習 がくしゅう するパターンを学習 がくしゅう できずに失敗 しっぱい することが知 し られている[ 33] 。
^ Jurafsky, Dan; Martin, James H. (2021). “N-gram Language Models” . Speech and Language Processing (3rd ed.). https://web.stanford.edu/~jurafsky/slp3/ 24 May 2022 閲覧 えつらん 。
^ Kuhn, Roland, and Renato De Mori (1990). "A cache-based natural language model for speech recognition" . IEEE transactions on pattern analysis and machine intelligence 12.6: 570–583.
^ a b Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation" . Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
^ Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition" . 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
^ Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman (2018). "Grammar induction with neural language models: An unusual replication" . arXiv :1808.10000 .
^ Ponte, Jay M.; Croft, W. Bruce (1998). A language modeling approach to information retrieval . Proceedings of the 21st ACM SIGIR Conference. Melbourne, Australia: ACM. pp. 275–281. doi :10.1145/290941.291008 。
^ Hiemstra, Djoerd (1998). A linguistically motivated probabilistically model of information retrieval . Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries. LNCS, Springer. pp. 569–584. doi :10.1007/3-540-49653-X_34 。
^ Manning, Christopher D. (2022). “Human Language Understanding & Reasoning” . Daedalus . https://www.amacad.org/publication/human-language-understanding-reasoning .
^ a b Jurafsky, Dan; Martin, James H. (7 January 2023). “N-gram Language Models” . Speech and Language Processing (3rd edition draft ed.). https://web.stanford.edu/~jurafsky/slp3/ed3book_jan72023.pdf 24 May 2022 閲覧 えつらん 。
^ “The Unreasonable Effectiveness of Recurrent Neural Networks ”. 2018年 ねん 9月 がつ 1日 にち 閲覧 えつらん 。
^ a b c Bengio, Yoshua (2008). "Neural net language models" . Scholarpedia . Vol. 3. p. 3881. Bibcode :2008SchpJ...3.3881B . doi :10.4249/scholarpedia.3881 。
^ a b Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (10 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv :1810.04805 [cs.CL ]。
^ a b c Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Efficient estimation of word representations in vector space". arXiv :1301.3781 [cs.CL ]。
^ a b Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado irst4=Greg S.; Dean, Jeff (2013). Distributed Representations of Words and Phrases and their Compositionality (PDF) . Advances in Neural Information Processing Systems . pp. 3111–3119.
^ Harris, Derrick (16 August 2013). “We're on the cusp of deep learning for the masses. You can thank Google later ”. Gigaom . 2015年 ねん 6月 がつ 22日 にち 閲覧 えつらん 。
^ Lv, Yuanhua; Zhai, ChengXiang (2009). "Positional Language Models for Information Retrieval in" (PDF) . Proceedings . 32nd international ACM SIGIR conference on Research and development in information retrieval (SIGIR).
^ Cambria, Erik; Hussain, Amir (2012-07-28) (英語 えいご ). Sentic Computing: Techniques, Tools, and Applications . Springer Netherlands. ISBN 978-94-007-5069-2 . https://books.google.co.jp/books?id=NrtcLwEACAAJ
^ Mocialov, Boris; Hastie, Helen; Turner, Graham (August 2018). “Transfer Learning for British Sign Language Modelling” . Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018) : 101–110. arXiv :2006.02144 . https://www.aclweb.org/anthology/W18-3911/ 14 March 2020 閲覧 えつらん 。 .
^ Facebook AI. (2021). Textless NLP: Generating expressive speech from raw audio .
^ Lakhotia, et al. (2021). Generative Spoken Language Modeling from Raw Audio .
^ Polyak, et al. (2021). Speech Resynthesis from Discrete Disentangled Self-Supervised Representations .
^ Kharitonov, et al. (2021). Text-Free Prosody-Aware Generative Spoken Language Modeling .
^ "by having access to the full expressivity of oral language, models should incorporate nuances and intonations" Facebook AI. (2021). Textless NLP: Generating expressive speech from raw audio .
^ Karlgren, Jussi; Schutze, Hinrich (2015), “Evaluating Learning Language Representations”, International Conference of the Cross-Language Evaluation Forum , Lecture Notes in Computer Science, Springer International Publishing, pp. 254–260, doi :10.1007/978-3-319-64206-2_8 , ISBN 9783319642055
^ “The Corpus of Linguistic Acceptability (CoLA) ”. nyu-mll.github.io . 2019年 ねん 2月 がつ 25日 にち 閲覧 えつらん 。
^ “GLUE Benchmark ” (英語 えいご ). gluebenchmark.com . 2019年 ねん 2月 がつ 25日 にち 閲覧 えつらん 。
^ “Microsoft Research Paraphrase Corpus ” (英語 えいご ). Microsoft Download Center . 2019年 ねん 2月 がつ 25日 にち 閲覧 えつらん 。
^ Aghaebrahimian, Ahmad (2017), “Quora Question Answer Dataset”, Text, Speech, and Dialogue , Lecture Notes in Computer Science, 10415 , Springer International Publishing, pp. 66–73, doi :10.1007/978-3-319-64206-2_8 , ISBN 9783319642055
^ “Recognizing Textual Entailment ”. February 24, 2019 閲覧 えつらん 。
^ “The Stanford Question Answering Dataset ”. rajpurkar.github.io . 2019年 ねん 2月 がつ 25日 にち 閲覧 えつらん 。
^ “Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank ”. nlp.stanford.edu . 2019年 ねん 2月 がつ 25日 にち 閲覧 えつらん 。
^ Hendrycks, Dan (2023-03-14), Measuring Massive Multitask Language Understanding , https://github.com/hendrycks/test 2023年 ねん 3月 がつ 15日 にち 閲覧 えつらん 。
^ Hornstein, Norbert; Lasnik, Howard; Patel-Grosz, Pritty; Yang, Charles (2018-01-09) (英語 えいご ). Syntactic Structures after 60 Years: The Impact of the Chomskyan Revolution in Linguistics . Walter de Gruyter GmbH & Co KG. ISBN 978-1-5015-0692-5 . https://books.google.com/books?id=XoxsDwAAQBAJ&dq=adger+%22goldilocks%22&pg=PA153
J M Ponte and W B Croft (1998). "A Language Modeling Approach to Information Retrieval". Research and Development in Information Retrieval . pp. 275–281. CiteSeerX 10.1.1.117.4237 。
F Song and W B Croft (1999). "A General Language Model for Information Retrieval". Research and Development in Information Retrieval . pp. 279–280. CiteSeerX 10.1.1.21.6467 。
Chen, Stanley; Joshua Goodman (1998). An Empirical Study of Smoothing Techniques for Language Modeling (Technical report). Harvard University. CiteSeerX 10.1.1.131.5458 。