全 ぜん 7057文字 もじ
対話 たいわ 型 がた AIサービス「ChatGPT」で使 つか われている自然 しぜん 言語 げんご モデルの核 かく になっている技術 ぎじゅつ が「Transformer」だ。自然 しぜん 言語 げんご 処理 しょり を例 れい に、Transformerの仕組 しく みを解説 かいせつ する。
すっかり市民 しみん 権 けん を得 え た対話 たいわ 型 がた AIサービス「ChatGPT」。ChatGPTで用 もち いられている自然 しぜん 言語 げんご モデルが「GPT」(Generative Pre-trained Transformer)です。いわゆる「大 だい 規模 きぼ 言語 げんご モデル」(LLM:Large Language Model)の1つであり、本稿 ほんこう 執筆 しっぴつ 時点 じてん (2023年 ねん 12月 がつ )の最新 さいしん バージョンは「GPT-4 Turbo」です。バージョンを追 お うごとに、精度 せいど 向上 こうじょう などの進化 しんか を遂 と げてきました。
このGPTの核 かく となるディープラーニング(深層 しんそう 学習 がくしゅう )のモデルが「Transformer」です。前述 ぜんじゅつ のGPTの正式 せいしき 名称 めいしょう を見直 みなお すと、「T」はTransformerのTであることがわかります。このネーミングが示 しめ す通 とお り、GPTはTransformerがベースとなっています。
また、Google翻訳 ほんやく の飛躍 ひやく 的 てき な精度 せいど 向上 こうじょう などで知 し られる自然 しぜん 言語 げんご モデル「BERT」(Bidirectional Encoder Representations from Transformers)も、「T」はTransformerに該当 がいとう します(最後 さいご に「s」が付 つ く複数 ふくすう 形 がた )。
Transformerは当初 とうしょ 、GPTやBERTに代表 だいひょう される「自然 しぜん 言語 げんご 処理 しょり 」(NLP:Natural Language Processing)の領域 りょういき で普及 ふきゅう しました。もともとは機械 きかい 翻訳 ほんやく のためのモデルとして登場 とうじょう したものであり、このことはTransformerという名前 なまえ の由来 ゆらい (「翻訳 ほんやく する」は英語 えいご で「translate」)にもなっています。
そして、現在 げんざい は自然 しぜん 言語 げんご 処理 しょり 以外 いがい にも、画像 がぞう 認識 にんしき のモデル「Vision Transformer」などの画像 がぞう 処理 しょり など、さまざまな領域 りょういき で広 ひろ く利用 りよう されています(図 ず 1 )。つまり、生成 せいせい AIの核 かく となるテクノロジーがTransformerなのです。
図 ず 1 ●自然 しぜん 言語 げんご 処理 しょり や画像 がぞう 処理 しょり など幅広 はばひろ い領域 りょういき のAIに用 もち いられているTransformer
[画像 がぞう のクリックで拡大 かくだい 表示 ひょうじ ]
本稿 ほんこう では自然 しぜん 言語 げんご 処理 しょり を例 れい に、Transformerの仕組 しく みを解説 かいせつ します。知識 ちしき ゼロの初心者 しょしんしゃ でも理解 りかい できるよう、極力 きょくりょく かみ砕 くだ いて解説 かいせつ します。Transformerの全体 ぜんたい 像 ぞう を把握 はあく する程度 ていど のレベル感 かん で説明 せつめい します。
ここでは、Transformerそのものを理解 りかい するために必要 ひつよう な基礎 きそ 知識 ちしき を解説 かいせつ します。まずはディープラーニングのベースとなる概念 がいねん ・仕組 しく みである、ニューラルネットワークを簡単 かんたん におさらいします。その後 ご 、単語 たんご を数値 すうち で表 あらわ す手法 しゅほう をはじめ、自然 しぜん 言語 げんご 処理 しょり の基礎 きそ を順 じゅん に解説 かいせつ していきます。その1つである「Attention」はTransformerの重要 じゅうよう な仕組 しく みであるため、詳 くわ しく解説 かいせつ します。
この記事 きじ は会員 かいいん 登録 とうろく で続 つづ きをご覧 らん いただけます。次 つぎ ページでログインまたはお申 もう し込 こ みください。
次 じ ページ ニューラルネットワークの基礎 きそ