ぜん7057文字もじ

対話たいわがたAIサービス「ChatGPT」で使つかわれている自然しぜん言語げんごモデルのかくになっている技術ぎじゅつが「Transformer」だ。自然しぜん言語げんご処理しょりれいに、Transformerの仕組しくみを解説かいせつする。

 すっかり市民しみんけん対話たいわがたAIサービス「ChatGPT」。ChatGPTでもちいられている自然しぜん言語げんごモデルが「GPT」(Generative Pre-trained Transformer)です。いわゆる「だい規模きぼ言語げんごモデル」(LLM:Large Language Model)の1つであり、本稿ほんこう執筆しっぴつ時点じてん(2023ねん12がつ)の最新さいしんバージョンは「GPT-4 Turbo」です。バージョンをうごとに、精度せいど向上こうじょうなどの進化しんかげてきました。

 このGPTのかくとなるディープラーニング(深層しんそう学習がくしゅう)のモデルが「Transformer」です。前述ぜんじゅつのGPTの正式せいしき名称めいしょう見直みなおすと、「T」はTransformerのTであることがわかります。このネーミングがしめとおり、GPTはTransformerがベースとなっています。

 また、Google翻訳ほんやく飛躍ひやくてき精度せいど向上こうじょうなどでられる自然しぜん言語げんごモデル「BERT」(Bidirectional Encoder Representations from Transformers)も、「T」はTransformerに該当がいとうします(最後さいごに「s」が複数ふくすうがた)。

 Transformerは当初とうしょ、GPTやBERTに代表だいひょうされる「自然しぜん言語げんご処理しょり」(NLP:Natural Language Processing)の領域りょういき普及ふきゅうしました。もともとは機械きかい翻訳ほんやくのためのモデルとして登場とうじょうしたものであり、このことはTransformerという名前なまえ由来ゆらい(「翻訳ほんやくする」は英語えいごで「translate」)にもなっています。

 そして、現在げんざい自然しぜん言語げんご処理しょり以外いがいにも、画像がぞう認識にんしきのモデル「Vision Transformer」などの画像がぞう処理しょりなど、さまざまな領域りょういきひろ利用りようされています(1)。つまり、生成せいせいAIのかくとなるテクノロジーがTransformerなのです。

図1 ●自然言語処理や画像処理など幅広い領域のAIに用いられているTransformer
1 ●自然しぜん言語げんご処理しょり画像がぞう処理しょりなど幅広はばひろ領域りょういきのAIにもちいられているTransformer
[画像がぞうのクリックで拡大かくだい表示ひょうじ]

 本稿ほんこうでは自然しぜん言語げんご処理しょりれいに、Transformerの仕組しくみを解説かいせつします。知識ちしきゼロの初心者しょしんしゃでも理解りかいできるよう、極力きょくりょくかみくだいて解説かいせつします。Transformerの全体ぜんたいぞう把握はあくする程度ていどのレベルかん説明せつめいします。

 ここでは、Transformerそのものを理解りかいするために必要ひつよう基礎きそ知識ちしき解説かいせつします。まずはディープラーニングのベースとなる概念がいねん仕組しくみである、ニューラルネットワークを簡単かんたんにおさらいします。その単語たんご数値すうちあらわ手法しゅほうをはじめ、自然しぜん言語げんご処理しょり基礎きそじゅん解説かいせつしていきます。その1つである「Attention」はTransformerの重要じゅうよう仕組しくみであるため、くわしく解説かいせつします。