全2157文字
テキストを入力すると画像が生成される「画像生成AI」に注目が集まっている。その仕組みや使い方について解説していこう。
本稿の内容は2023年7月上旬時点での情報に基づいています。生成AIは進歩が速いため、紹介しているサンプルコードはライブラリのバージョンアップなどによって今後動作しなくなる可能性があります。ご了承ください。
昨年(2022年)から、「画像生成AI」に対する注目度が一気に高まっています。画像生成AIとは、テキストを入力することで画像を生成するAIです(図1)。
図1●大流行している画像生成AI(画像は筆者がDALL·E 2を使って出力したもの)
[画像のクリックで拡大表示]
簡単なテキストから詳細な長い文章まで、さまざまな文章を入力に用いることができ、その出力として画像が得られるというAIです。出力される画像は、写真のような写実的なものから、イラストや絵画風のものまで生成できます。
Webサービスとして提供されているので手軽に利用でき、インターネットで活躍している「絵師」やそのファンの人たちからも大いに注目されています。ちなみに、こうした画像生成AIだけでなく、音楽や文章、プログラムのソースコードを生成するAIなどもあります。これらのAIは、生成AI(Generative AI)と呼ばれます。話題の「ChatGPT」も生成AIの1つです。
大流行の画像生成AI
画像生成AIでは、「DALL·E 2」「Midjourney」「Stable Diffusion」といったものがよく知られています(表1)。
表1●主な画像生成AI
[画像のクリックで拡大表示]
DALL·E 2
https://openai.com/product/dall-e-2
Midjourney
https://www.midjourney.com/
Stable Diffusion
https://stablediffusionweb.com/
DALL·E 2を開発しているOpenAIは、AIの研究・開発を行っている企業です。OpenAIはChatGPT(https://openai.com/blog/chatgpt)でも多くの話題を集めています。
Midjourneyは2022年7月12日にサービスを開始しており、2023年初頭で870万人以上ものメンバーが「Discode」で参加しています。Discodeとは、無料のチャット/コミュニティツールです。Midjourneyの画像生成は、Discord上のチャット形式で画像を生成するのが特徴です。プロンプト(文章)を入力すると、チャットルーム上に画像が生成されるのです。