GPTを生うんだ先端せんたん技術ぎじゅつ「Transformer」、その基礎きそを正ただしく理解りかいする

2024.06.24

全ぜん7057文字もじ

対話たいわ型がたAIサービス「ChatGPT」で使つかわれている自然しぜん言語げんごモデルの核かくになっている技術ぎじゅつが「Transformer」だ。自然しぜん言語げんご処理しょりを例れいに、Transformerの仕組しくみを解説かいせつする。

　すっかり市民しみん権けんを得えた対話たいわ型がたAIサービス「ChatGPT」。ChatGPTで用もちいられている自然しぜん言語げんごモデルが「GPT」（Generative Pre-trained Transformer）です。いわゆる「大だい規模きぼ言語げんごモデル」（LLM：Large Language Model）の1つであり、本稿ほんこう執筆しっぴつ時点じてん（2023年ねん12月がつ）の最新さいしんバージョンは「GPT-4 Turbo」です。バージョンを追おうごとに、精度せいど向上こうじょうなどの進化しんかを遂とげてきました。

　このGPTの核かくとなるディープラーニング（深層しんそう学習がくしゅう）のモデルが「Transformer」です。前述ぜんじゅつのGPTの正式せいしき名称めいしょうを見直みなおすと、「T」はTransformerのTであることがわかります。このネーミングが示しめす通とおり、GPTはTransformerがベースとなっています。

　また、Google翻訳ほんやくの飛躍ひやく的てきな精度せいど向上こうじょうなどで知しられる自然しぜん言語げんごモデル「BERT」（Bidirectional Encoder Representations from Transformers）も、「T」はTransformerに該当がいとうします（最後さいごに「s」が付つく複数ふくすう形がた）。

　Transformerは当初とうしょ、GPTやBERTに代表だいひょうされる「自然しぜん言語げんご処理しょり」（NLP：Natural Language Processing）の領域りょういきで普及ふきゅうしました。もともとは機械きかい翻訳ほんやくのためのモデルとして登場とうじょうしたものであり、このことはTransformerという名前なまえの由来ゆらい（「翻訳ほんやくする」は英語えいごで「translate」）にもなっています。

　そして、現在げんざいは自然しぜん言語げんご処理しょり以外いがいにも、画像がぞう認識にんしきのモデル「Vision Transformer」などの画像がぞう処理しょりなど、さまざまな領域りょういきで広ひろく利用りようされています（図ず1）。つまり、生成せいせいAIの核かくとなるテクノロジーがTransformerなのです。

図1 ●自然言語処理や画像処理など幅広い領域のAIに用いられているTransformer

図ず1 ●自然しぜん言語げんご処理しょりや画像がぞう処理しょりなど幅広はばひろい領域りょういきのAIに用もちいられているTransformer

[画像がぞうのクリックで拡大かくだい表示ひょうじ]

　本稿ほんこうでは自然しぜん言語げんご処理しょりを例れいに、Transformerの仕組しくみを解説かいせつします。知識ちしきゼロの初心者しょしんしゃでも理解りかいできるよう、極力きょくりょくかみ砕くだいて解説かいせつします。Transformerの全体ぜんたい像ぞうを把握はあくする程度ていどのレベル感かんで説明せつめいします。

　ここでは、Transformerそのものを理解りかいするために必要ひつような基礎きそ知識ちしきを解説かいせつします。まずはディープラーニングのベースとなる概念がいねん・仕組しくみである、ニューラルネットワークを簡単かんたんにおさらいします。その後ご、単語たんごを数値すうちで表あらわす手法しゅほうをはじめ、自然しぜん言語げんご処理しょりの基礎きそを順じゅんに解説かいせつしていきます。その1つである「Attention」はTransformerの重要じゅうような仕組しくみであるため、詳くわしく解説かいせつします。