(Translated by https://www.hiragana.jp/)
MIT Tech Review: 生成AIのデジタル劣化問題、ゴミがゴミを生み出す最悪の未来
KADOKAWA Technology Review
×
2024ねん代表だいひょうするわかきイノベーターたちにえる!【11/20】は東京とうきょう日本橋にほんばしのIU35 Japan Summitへ
生成AIのデジタル劣化問題、ゴミがゴミを生み出す最悪の未来
Stephanie Arnett / MIT Technology Review
AI trained on AI garbage spits out AI garbage

生成せいせいAIのデジタル劣化れっか問題もんだい、ゴミがゴミを最悪さいあく未来みらい

だい規模きぼ言語げんごモデルが機能きのうするためにはインターネットじょう膨大ぼうだいなデータで訓練くんれんする必要ひつようがある。今後こんご、AIが生成せいせいしたてい品質ひんしつのWebページがネットじょう急増きゅうぞうすると、そのデータで訓練くんれんされただい規模きぼ言語げんごモデルの性能せいのう劣化れっかすることが懸念けねんされている。 by Scott J Mulligan2024.08.01

この記事きじの3つのポイント
  1. AIモデルはてい品質ひんしつのAI生成せいせいデータで訓練くんれんされると徐々じょじょ劣化れっかする
  2. 合成ごうせいデータを追加ついかしても問題もんだいないがこう品質ひんしつ多様たようなデータが重要じゅうよう
  3. データの出所しゅっしょ特定とくていし、人間にんげん作成さくせいしたもとデータを重視じゅうしする必要ひつようがある
summarized by Claude 3

人工じんこう知能ちのう(AI)モデルは、インターネットから取得しゅとくした膨大ぼうだいりょうのデータを使つかって訓練くんれんすることで機能きのうする。ところが、てい品質ひんしつのコンテンツでくされたWebページをAIがどんどん量産りょうさんするにつれ、そのプロセスがるがされる危険きけんせいしている。

ネイチャー(Nature)発表はっぴょうされたあらたな研究けんきゅうによると、AI生成せいせいのデータを使つかってAIモデルを訓練くんれんすると、モデルの出力しゅつりょく品質ひんしつ徐々じょじょ劣化れっかするという。後続こうぞくのモデルぐん生成せいせいした出力しゅつりょくデータが将来しょうらいのモデルの訓練くんれん使つかわれるようになると、その影響えいきょう悪化あっか一途いっとをたどる。

オックスフォおっくすふぉド大学どだいがくのコンピューター科学かがくしゃで、今回こんかい研究けんきゅう主導しゅどうしたイリア・シュマイロフ博士はかせは、その過程かていを「写真しゃしん写真しゃしんること」にたとえる。「写真しゃしんってスキャンし、紙面しめん印刷いんさつする、というサイクルを長期間ちょうきかんかえすと、一般いっぱんてきにはノイズがプロセス全体ぜんたいしつぶしてしまいます。あとにのこるのはくろ四角形しかっけいだけです」。AIにおけるくろ四角形しかっけいが「モデル崩壊ほうかい」であり、モデルが一貫いっかんせいのないゴミを生成せいせいするだけになった状態じょうたいす。

この研究けんきゅう結果けっかは、インターネットをデータベースとして使つかっている現在げんざい最大さいだいのAIモデルに重大じゅうだい影響えいきょうおよぼす可能かのうせいがある。たとえば、GPT-3の一部いちぶは、30おくえるWebページのオンラインリポジトリであるコモン・クロール(Common Crawl)のデータで訓練くんれんされている。そして、AIが生成せいせいしたゴミのようなWebサイトのかず、インターネットの秩序ちつじょ乱雑らんざつになっていくと問題もんだいはさらに悪化あっかする可能かのうせいたかい。

シュマイロフ博士はかせは、現在げんざいのAIモデルが崩壊ほうかいしなくても、実質じっしつてき影響えいきょうのこるのではないかとう。つまり、進歩しんぽ速度そくどち、パフォーマンスが低下ていかするかもしれない。

パフォーマンスに影響えいきょうおよ可能かのうせい判断はんだんするため、シュマイロフ博士はかせらのチームは、ウィキペディアのデータセットでだい規模きぼ言語げんごモデル(LLM)をほろ調整ちょうせい(ファインチューニング)してから、そのあたらしいモデルを9世代せだいにわたってどうモデルの出力しゅつりょくデータでほろ調整ちょうせいし、「困惑こんわくスコア(perplexity score)」を利用りようして出力しゅつりょくがどの程度ていど意味いみをなしていないかを測定そくていした。これは、シーケンスのつぎ部分ぶぶん予測よそくする能力のうりょくたいするAIの自信じしん度合どあいをはか数値すうちで、スコアがたかいほどモデルの精度せいどひくいと解釈かいしゃくされる。

べつのAIモデルの出力しゅつりょく訓練くんれんされたモデルの困惑こんわくスコアはそれ以外いがい場合ばあいよりもたかくなった。研究けんきゅうチームはたとえば、モデルのかく世代せだい以下いかのような入力にゅうりょくをしてモデルにつづきの文章ぶんしょう要求ようきゅうした。

“some started before 1360—was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.”
参考さんこうやく)「ポインツ・ライトによれば、1360ねん以前いぜんはじまったものもあった。ベテランの石工せっこうわたりの石工せっこうからちいさなチームがつくげ、地域ちいき教区きょうく労働ろうどうしゃ補助ほじょするのが普通ふつうだった。しかし、執筆しっぴつしゃはこのモデルを否定ひていし、有力ゆうりょく建築けんちくらがパーペンディキュラー様式ようしき初期しょき事例じれいもとづいて教区きょうく教会きょうかいとう設計せっけいしたというせつとなえている」。

 

だい9世代せだい最終さいしゅうモデルはつぎのように回答かいとうした。

“architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.”
参考さんこうやく)「建築けんちく。オグロ @-@ ウサギ、オジロ @-@ ウサギ、オアオ @-@ ウサギ、オアカ @-@ ウサギ、キイロ @-など、ウサギの世界せかい最大さいだいきゅう生息せいそくであることにくわえ」。

 

シュマイロフ博士はかせは、このようなことがなぜこるのか、自分じぶんかんがえを説明せつめいした。たとえば、全校ぜんこう生徒せいとなかでいちばん希少きしょう名前なまえ特定とくていしようとしているとする。生徒せいと全員ぜんいん名前なまえについて調しらべてもいいが、時間じかんがかかりすぎる。そこで、1000にん生徒せいとのうち100にん名前なまえ調しらべることにする。まあめずらしい名前なまえつかるだろうが、それを正解せいかいとはえない。ここで、べつひとて、あなたが調しらべた100にん名前なまえから50にん名前なまえだけを選択せんたくし、それにもとづいて推測すいそくしたとする。この2人ふたり予測よそくはさらに正解せいかいからとおくなるはずだ。

機械きかい学習がくしゅうモデルでもおなじことがこるのは容易ようい想像そうぞうできます」と、シュマイロフ博士はかせう。「だい1のモデルがインターネットの半分はんぶん参照さんしょうした場合ばあい、おそらくだい2のモデルはインターネットの半分はんぶん要求ようきゅうするのではなく、最新さいしんの10まんけんのツイートをスクレイピングするなどして、それをもとにモデルを調整ちょうせいするでしょう」。

くわえて、インターネットが保持ほじできるデータりょうにはかぎりがある。AIのきない学習がくしゅう意欲いよくたすため、将来しょうらいのモデルは合成ごうせいデータ、つまりAIが生成せいせいしたデータで訓練くんれんしなければならないかもしれない。

MITメディアラボでLLMの訓練くんれん過程かてい研究けんきゅうしているシェイン・ロンプレ研究けんきゅう助手じょしゅ先述せんじゅつ研究けんきゅうには関与かんよしていない)は、「基盤きばんモデルのパフォーマンスは、データの規模きぼおおきく依存いぞんします」と説明せつめいする。「その結果けっか解決かいけつさくとして、厳選げんせん管理かんりされた環境かんきょう合成ごうせいデータをたのみにするようになります。Webじょうのデータをどんどんクロールしつづけていると、リターンがちいさくなっていくからです」。

べつ論文ろんぶんでモデルの崩壊ほうかい検証けんしょうした、スタンフォード大学だいがくのAI研究けんきゅうしゃマティアス・ゲルストグラッサー博士はかせは、現実げんじつ世界せかいのデータをえるわりに合成ごうせいデータを追加ついかしてもおおきな問題もんだい発生はっせいしないとう。ただし、「モデル崩壊ほうかいかんするすべての文献ぶんけん一貫いっかんして同意どういしている結論けつろんは、こう品質ひんしつ多様たよう訓練くんれんようデータが重要じゅうようだということです」とくわえる。

やがては、この劣化れっか原因げんいんで、マイノリティのグループに影響えいきょうおよぼす情報じょうほうがモデルないおおきくゆがめられるようになる。 モデルは、訓練くんれんようデータのなか比較的ひかくてきかずおおいサンプルを過度かど重視じゅうしする傾向けいこうがあるからだ。

MITメディアラボで計算けいさん法学ほうがく研究けんきゅうするロバート・マハリ(先述せんじゅつ研究けんきゅうには関与かんよしていない)によると、現在げんざいのモデルはさらにおおくの合成ごうせい(AI生成せいせい)データセットを必要ひつようとしているため、データがすくなめの言語げんご影響えいきょうおよぼす可能かのうせいがあるという。

劣化れっかける対策たいさくはいくつかかんがえられる。人間にんげん作成さくせいしたもとデータをとく重視じゅうしするよう、モデルに仕向しむけることがそのひとつだ。シュマイロフ博士はかせ研究けんきゅうにはつづきがあり、将来しょうらい世代せだいもとのデータセットの10%をサンプリングできるようにしたところ、まけ影響えいきょうはいくらか軽減けいげんしたという。

この対策たいさく実行じっこうするには、人間にんげん作成さくせいしたもとデータからつぎ世代せだいまでの軌跡きせき、いわゆるデータ来歴らいれき記録きろくしなければならない。

しかし、データの出所しゅっしょ特定とくていするには、インターネットを人間にんげん作成さくせいしたコンテンツとAIが生成せいせいしたコンテンツに分類ぶんるいする方法ほうほう必要ひつようで、それはまだ確立かくりつされていない。現状げんじょう、テキストがAI生成せいせいであるかかを判断はんだんするためのツールは数多かずおお存在そんざいするが、どれもかならずしも正確せいかくとはえない。

残念ざんねんながら、かっていることよりもかっていないことのほうがおおいのです」と、シュマイロフ博士はかせう。「ただ、あつかうデータの代表だいひょうてきなサンプルをむには、データの出所しゅっしょ信頼しんらいせい把握はあくすることがかせないのはあきらかです」。

人気にんき記事きじランキング
  1. How ChatGPT search paves the way for AI agents だつチャットGPTへ、オープンAIが強化きょうかするプラットフォーム戦略せんりゃく
  2. Promotion NIHONBASHI SPACE WEEK 2024 アジア最大さいだいきゅう宇宙うちゅうビジネスイベント、東京とうきょう日本橋にほんばしでまもなく開催かいさい
  3. Promotion Innovators Under 35 Japan Summit 2024 in Nihonbashi 2024ねんのイノベーターが集結しゅうけつ「U35 Summit」参加さんかしゃ募集ぼしゅうちゅう
  4. This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムでつくす、おどろきのマイクラふう生成せいせい動画どうが
  5. The winners of Innovators under 35 Japan 2024 have been announced MITTRがえらぶ、 日本にっぽんはつU35イノベーター 2024年版ねんばん
  6. Inside a fusion energy facility 2026ねん稼働かどう目指めざす、コモンウェルスのかく融合ゆうごう施設しせつってみた
スコット・J・マリガン [Scott J Mulligan]米国べいこくばん AI担当たんとう記者きしゃ
政策せいさく、ガバナンス、AIの内部ないぶ構造こうぞうなどを取材しゅざいするAI担当たんとう記者きしゃ。AIにとくした若手わかてジャーナリスト育成いくせいプログラム「ターベル・フェローシップ(Tarbell Fellowship)」の支援しえんけている。ヴァイス(VICE)ニュースでのドキュメンタリー映像えいぞう制作せいさく、ビデオゲーム・デザイナーなどを現職げんしょく
▼Promotion イノベーター under35 2024
日本にっぽんはつ世界せかいえる」U35イノベーター

MITテクノロジーレビューが20ねん以上いじょうにわたって開催かいさいしているグローバル・アワード「Innovators Under 35 」。2024ねん受賞じゅしょうしゃ決定けってい授賞じゅしょうしきを11/20に開催かいさいします。チケット販売はんばいちゅう世界せかいてき課題かだい解決かいけつみ、こうすうじゅう年間ねんかん未来みらい形作かたちづくわかきイノベーターの発掘はっくつ目的もくてきとするアワードの日本にっぽんばん最新さいしん情報じょうほう随時ずいじ発信はっしんちゅう

特集とくしゅうページへ
MITTRがえらんだ 世界せかいえる10だい技術ぎじゅつ 2024年版ねんばん

「ブレークスルー・テクノロジー10」は、人工じんこう知能ちのう生物せいぶつ工学こうがく気候きこう変動へんどう、コンピューティングなどの分野ぶんやにおける重要じゅうよう技術ぎじゅつてき進歩しんぽ評価ひょうかするMITテクノロジーレビューの年次ねんじ企画きかくだ。2024ねん注目ちゅうもくすべき10のテクノロジーを紹介しょうかいしよう。

特集とくしゅうページへ
フォローしてください重要じゅうようなテクノロジーとイノベーションのニュースをSNSやメールで