人工 じんこう 知能 ちのう (AI)モデルは、インターネットから取得 しゅとく した膨大 ぼうだい な量 りょう のデータを使 つか って訓練 くんれん することで機能 きのう する。ところが、低 てい 品質 ひんしつ のコンテンツで埋 う め尽 つ くされたWebページをAIがどんどん量産 りょうさん するにつれ、そのプロセスが揺 ゆ るがされる危険 きけん 性 せい が増 ま している。
ネイチャー(Nature)誌 し に発表 はっぴょう された新 あら たな研究 けんきゅう によると、AI生成 せいせい のデータを使 つか ってAIモデルを訓練 くんれん すると、モデルの出力 しゅつりょく の品質 ひんしつ は徐々 じょじょ に劣化 れっか するという。後続 こうぞく のモデル群 ぐん が生成 せいせい した出力 しゅつりょく データが将来 しょうらい のモデルの訓練 くんれん に使 つか われるようになると、その影響 えいきょう は悪化 あっか の一途 いっと をたどる。
オックスフォ おっくすふぉ ード大学 どだいがく のコンピューター科学 かがく 者 しゃ で、今回 こんかい の研究 けんきゅう を主導 しゅどう したイリア・シュマイロフ博士 はかせ は、その過程 かてい を「写真 しゃしん の写真 しゃしん を撮 と ること」にたとえる。「写真 しゃしん を撮 と ってスキャンし、紙面 しめん に印刷 いんさつ する、というサイクルを長期間 ちょうきかん 繰 く り返 かえ すと、一般 いっぱん 的 てき にはノイズがプロセス全体 ぜんたい を押 お しつぶしてしまいます。あとに残 のこ るのは黒 くろ い四角形 しかっけい だけです」。AIにおける黒 くろ い四角形 しかっけい が「モデル崩壊 ほうかい 」であり、モデルが一貫 いっかん 性 せい のないゴミを生成 せいせい するだけになった状態 じょうたい を指 さ す。
この研究 けんきゅう 結果 けっか は、インターネットをデータベースとして使 つか っている現在 げんざい の最大 さいだい のAIモデルに重大 じゅうだい な影響 えいきょう を及 およ ぼす可能 かのう 性 せい がある。たとえば、GPT-3の一部 いちぶ は、30億 おく を超 こ えるWebページのオンラインリポジトリであるコモン・クロール(Common Crawl) のデータで訓練 くんれん されている。そして、AIが生成 せいせい したゴミのようなWebサイトの数 かず が増 ふ え 、インターネットの秩序 ちつじょ が乱雑 らんざつ になっていくと 、問題 もんだい はさらに悪化 あっか する可能 かのう 性 せい が高 たか い。
シュマイロフ博士 はかせ は、現在 げんざい のAIモデルが崩壊 ほうかい しなくても、実質 じっしつ 的 てき な影響 えいきょう は残 のこ るのではないかと言 い う。つまり、進歩 しんぽ の速度 そくど が落 お ち、パフォーマンスが低下 ていか するかもしれない。
パフォーマンスに影響 えいきょう が及 およ ぶ可能 かのう 性 せい を判断 はんだん するため、シュマイロフ博士 はかせ らのチームは、ウィキペディアのデータセットで大 だい 規模 きぼ 言語 げんご モデル(LLM)を微 ほろ 調整 ちょうせい (ファインチューニング)してから、その新 あたら しいモデルを9世代 せだい にわたって同 どう モデルの出力 しゅつりょく データで微 ほろ 調整 ちょうせい し、「困惑 こんわく 度 ど スコア(perplexity score)」を利用 りよう して出力 しゅつりょく がどの程度 ていど 意味 いみ をなしていないかを測定 そくてい した。これは、シーケンスの次 つぎ の部分 ぶぶん を予測 よそく する能力 のうりょく に対 たい するAIの自信 じしん の度合 どあ いを測 はか る数値 すうち で、スコアが高 たか いほどモデルの精度 せいど は低 ひく いと解釈 かいしゃく される。
別 べつ のAIモデルの出力 しゅつりょく で訓練 くんれん されたモデルの困惑 こんわく 度 ど スコアはそれ以外 いがい の場合 ばあい よりも高 たか くなった。研究 けんきゅう チームはたとえば、モデルの各 かく 世代 せだい に以下 いか のような入力 にゅうりょく をしてモデルに続 つづ きの文章 ぶんしょう を要求 ようきゅう した。
“some started before 1360—was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.”
(参考 さんこう 訳 やく )「ポインツ・ライトによれば、1360年 ねん 以前 いぜん に始 はじ まったものもあった。ベテランの石工 せっこう と渡 わた りの石工 せっこう から成 な る小 ちい さなチームが作 つく り上 あ げ、地域 ちいき の教区 きょうく 労働 ろうどう 者 しゃ が補助 ほじょ するのが普通 ふつう だった。しかし、他 た の執筆 しっぴつ 者 しゃ はこのモデルを否定 ひてい し、有力 ゆうりょく な建築 けんちく 家 か らがパーペンディキュラー様式 ようしき の初期 しょき の事例 じれい に基 もと づいて教区 きょうく 教会 きょうかい の塔 とう を設計 せっけい したという説 せつ を唱 とな えている」。
第 だい 9世代 せだい の最終 さいしゅう モデルは次 つぎ のように回答 かいとう した。
“architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.”
(参考 さんこう 訳 やく )「建築 けんちく 。オグロ @-@ ウサギ、オジロ @-@ ウサギ、オアオ @-@ ウサギ、オアカ @-@ ウサギ、キイロ @-など、野 の ウサギの世界 せかい 最大 さいだい 級 きゅう の生息 せいそく 地 ち であることに加 くわ え」。
シュマイロフ博士 はかせ は、このようなことがなぜ起 お こるのか、自分 じぶん の考 かんが えを説明 せつめい した。たとえば、全校 ぜんこう 生徒 せいと の中 なか でいちばん希少 きしょう な名前 なまえ を特定 とくてい しようとしているとする。生徒 せいと 全員 ぜんいん の名前 なまえ について調 しら べてもいいが、時間 じかん がかかりすぎる。そこで、1000人 にん の生徒 せいと のうち100人 にん の名前 なまえ を調 しら べることにする。まあ珍 めずら しい名前 なまえ は見 み つかるだろうが、それを正解 せいかい とは言 い えない。ここで、別 べつ の人 ひと が来 き て、あなたが調 しら べた100人 にん の名前 なまえ から50人 にん の名前 なまえ だけを選択 せんたく し、それに基 もと づいて推測 すいそく したとする。この2人 ふたり 目 め の予測 よそく はさらに正解 せいかい から遠 とお くなるはずだ。
「機械 きかい 学習 がくしゅう モデルでも同 おな じことが起 お こるのは容易 ようい に想像 そうぞう できます」と、シュマイロフ博士 はかせ は言 い う。「第 だい 1のモデルがインターネットの半分 はんぶん を参照 さんしょう した場合 ばあい 、おそらく第 だい 2のモデルはインターネットの半分 はんぶん を要求 ようきゅう するのではなく、最新 さいしん の10万 まん 件 けん のツイートをスクレイピングするなどして、それをもとにモデルを調整 ちょうせい するでしょう」。
加 くわ えて、インターネットが保持 ほじ できるデータ量 りょう には限 かぎ りがある。AIの尽 つ きない学習 がくしゅう 意欲 いよく を満 み たすため、将来 しょうらい のモデルは合成 ごうせい データ 、つまりAIが生成 せいせい したデータで訓練 くんれん しなければならないかもしれない。
MITメディアラボでLLMの訓練 くんれん 過程 かてい を研究 けんきゅう しているシェイン・ロンプレ研究 けんきゅう 助手 じょしゅ (先述 せんじゅつ の研究 けんきゅう には関与 かんよ していない)は、「基盤 きばん モデルのパフォーマンスは、データの規模 きぼ に大 おお きく依存 いぞん します」と説明 せつめい する。「その結果 けっか 、解決 かいけつ 策 さく として、厳選 げんせん ・管理 かんり された環境 かんきょう 下 か の合成 ごうせい データを頼 たの みにするようになります。Web上 じょう のデータをどんどんクロールし続 つづ けていると、リターンが小 ちい さくなっていくからです」。
別 べつ の論文 ろんぶん でモデルの崩壊 ほうかい を検証 けんしょう した、スタンフォード大学 だいがく のAI研究 けんきゅう 者 しゃ マティアス・ゲルストグラッサー博士 はかせ は、現実 げんじつ 世界 せかい のデータを置 お き換 か える代 か わりに合成 ごうせい データを追加 ついか しても大 おお きな問題 もんだい は発生 はっせい しないと言 い う。ただし、「モデル崩壊 ほうかい に関 かん するすべての文献 ぶんけん が一貫 いっかん して同意 どうい している結論 けつろん は、高 こう 品質 ひんしつ で多様 たよう な訓練 くんれん 用 よう データが重要 じゅうよう だということです」と付 つ け加 くわ える。
やがては、この劣化 れっか が原因 げんいん で、マイノリティのグループに影響 えいきょう を及 およ ぼす情報 じょうほう がモデル内 ない で大 おお きく歪 ゆが められるようになる。 モデルは、訓練 くんれん 用 よう データの中 なか で比較的 ひかくてき 数 かず が多 おお いサンプルを過度 かど に重視 じゅうし する傾向 けいこう があるからだ。
MITメディアラボで計算 けいさん 法学 ほうがく を研究 けんきゅう するロバート・マハリ(先述 せんじゅつ の研究 けんきゅう には関与 かんよ していない)によると、現在 げんざい のモデルはさらに多 おお くの合成 ごうせい (AI生成 せいせい )データセットを必要 ひつよう としているため、データが少 すく なめの言語 げんご に影響 えいきょう を及 およ ぼす可能 かのう 性 せい があるという。
劣化 れっか を避 さ ける対策 たいさく はいくつか考 かんが えられる。人間 にんげん が作成 さくせい した元 もと データを特 とく に重視 じゅうし するよう、モデルに仕向 しむ けることがそのひとつだ。シュマイロフ博士 はかせ の研究 けんきゅう には続 つづ きがあり、将来 しょうらい の世代 せだい が元 もと のデータセットの10%をサンプリングできるようにしたところ、負 まけ の影響 えいきょう はいくらか軽減 けいげん したという。
この対策 たいさく を実行 じっこう するには、人間 にんげん が作成 さくせい した元 もと データから次 つぎ の世代 せだい までの軌跡 きせき 、いわゆるデータ来歴 らいれき を記録 きろく しなければならない。
しかし、データの出所 しゅっしょ を特定 とくてい するには、インターネットを人間 にんげん が作成 さくせい したコンテンツとAIが生成 せいせい したコンテンツに分類 ぶんるい する方法 ほうほう が必要 ひつよう で、それはまだ確立 かくりつ されていない。現状 げんじょう 、テキストがAI生成 せいせい であるか否 ひ かを判断 はんだん するためのツールは数多 かずおお く存在 そんざい するが、どれも必 かなら ずしも正確 せいかく とは言 い えない。
「残念 ざんねん ながら、分 わ かっていることよりも分 わ かっていないことのほうが多 おお いのです」と、シュマイロフ博士 はかせ は言 い う。「ただ、扱 あつか うデータの代表 だいひょう 的 てき なサンプルを取 と り込 こ むには、データの出所 しゅっしょ と信頼 しんらい 性 せい を把握 はあく することが欠 か かせないのは明 あき らかです」。
生成 せいせい AI革命 かくめい
記事 きじ 一覧 いちらん を見 み る
人気 にんき の記事 きじ ランキング
How ChatGPT search paves the way for AI agents
脱 だつ チャットGPTへ、オープンAIが強化 きょうか するプラットフォーム戦略 せんりゃく
Promotion
NIHONBASHI SPACE WEEK 2024
アジア最大 さいだい 級 きゅう の宇宙 うちゅう ビジネスイベント、東京 とうきょう ・日本橋 にほんばし でまもなく開催 かいさい
Promotion
Innovators Under 35 Japan Summit 2024 in Nihonbashi
2024年 ねん のイノベーターが集結 しゅうけつ 「U35 Summit」参加 さんか 者 しゃ 募集 ぼしゅう 中 ちゅう
This AI-generated Minecraft may represent the future of real-time video generation
AIがリアルタイムで作 つく り出 だ す、驚 おどろ きのマイクラ風 ふう 生成 せいせい 動画 どうが
The winners of Innovators under 35 Japan 2024 have been announced
MITTRが選 えら ぶ、
日本 にっぽん 発 はつ U35イノベーター
2024年版 ねんばん
Inside a fusion energy facility
2026年 ねん の稼働 かどう 目指 めざ す、コモンウェルスの核 かく 融合 ゆうごう 施設 しせつ へ行 い ってみた
スコット・J・マリガン [Scott J Mulligan] 米国 べいこく 版 ばん AI担当 たんとう 記者 きしゃ
政策 せいさく 、ガバナンス、AIの内部 ないぶ 構造 こうぞう などを取材 しゅざい するAI担当 たんとう 記者 きしゃ 。AIに特 とく 化 か した若手 わかて ジャーナリスト育成 いくせい プログラム「ターベル・フェローシップ(Tarbell Fellowship)」の支援 しえん を受 う けている。ヴァイス(VICE)ニュースでのドキュメンタリー映像 えいぞう 制作 せいさく 、ビデオゲーム・デザイナーなどを経 へ て現職 げんしょく 。
▼Promotion