Stable Diffusion(ステーブル・ディフュージョン)とは?概要と画像生成AIの使い方を簡単に解説

AI

近年、「AI」や「画像生成」などの言葉を耳にすることが増えてきました。しかし具体的に何ができるの?と思っている方も多いのではないでしょうか。この記事では、最近注目の「Stable Diffusion」という画像生成AIのサービスについて、初心者の方でも分かりやすく説明します。

画像生成AIとは

画像生成AIとは、ChatGPTなどの文章生成AIと同様にテキスト入力した内容をAIが自動でオリジナル画像を作り出す技術のことを指します。例えば、AIに「夕暮れの海辺の風景」などと指示すると、それに合った画像をAIが自動で作ってくれるというものです。驚くような技術進歩のおかげで、このAIが作る画像は、まるで本物の写真のようにリアルなものが多くなっています。代表的な画像生成AIには、「Stable Diffusion(ステーブルディフュージョン)」や「Midjourney(ミッドジャーニー)」があります。

Stable Diffusionとは

Stable Diffusionは、ユーザーが入力した文章に基づき、質の高い画像を生成するAI技術です。
例えば、アマゾンの密林や夕暮れの海辺の風景など、様々なシーンを英語のキーワードで示すだけで、様々な画像を自動で生成することができます。

Stable Diffusionで生成される画像には、深層拡散モデルという先進的なアルゴリズムが搭載されています。このアルゴリズムの詳細を知らなくても、Google Colaboratoryなどの特別な環境でのコード記述を必要とせず、単純な文章入力だけで様々な画像を簡単に生み出すことができます。

Stable Diffusionの提供インターフェースは、非常に使いやすく設計されています。テキスト文章の入力が必要であり、その他のカスタマイズオプションも各インターフェースに備わっています。文章の質や内容によっては、さらに高度な画像を生成することも期待されます。

Stable Diffusionの使い方

先述の通り、Stable Diffusionは深層拡散モデルを備えたオープンソースのAI技術です。このため、インターネット上のプラットフォームで動かすことも、自分のPC上で独立して実行することもできます。

Hugging FaceやDream Studioといったオンラインのアプリケーションを利用して生成する方法、もしくは、自らの設定した環境にStable Diffusionを導入し、プログラムを実行して生成する方法が考えられます。

Stable Diffusionを利用できる3つのWEBサービス

Stable Diffusionを手軽に試したい場合、以下の3つのWebアプリケーションがおすすめです。

・Hugging Face
・Dream Studio
・mage.space

また、Stable DiffusionをローカルやGoogle Colaboratoryで実行したい方は、GitHubで公開されている対応コードをご参照ください。

Hugging Face

Hugging Faceは、AI関連のモデルやデータの共有・活用を目的としたオープンソースのプラットフォームとして知られています。特に自然言語処理領域において注目され、多くのAI開発者や研究者たちが集まる中心的なサイトとなっています。

このプラットフォームの核心は、AI関連の知識や技術の共有を推進すること。利用者は自らのAIモデルやデータセットをアップロード・共有することが可能で、逆に他者の作成したものを簡単に探して利用することもできます。

さらに、Hugging Faceは多様なAIツールを提供しています。その中で特に知名度が高いのが、自然言語処理向けの「Transformers」ライブラリ、画像や音声データに適した「Diffusers」ライブラリ、そしてデータセット操作を容易にする「Datasets」ライブラリなどです。これらのライブラリを基盤としたモデルやデータセットがHugging Face上で共有されており、その結果としてAI界隈における信頼性と価値を確立しています。

Dream Studio

「DreamStudio」はStability AI社が提供する「Stable Diffusion」のオープンβテスト版としてリリースされている画像生成ツールです。他のプラットフォームと同じく、テキスト(プロンプト)を打ち込むだけで、手軽に画像を生成することができます。

その使いやすいUI(ユーザーインターフェース)も特徴的で、高く評価されています。画面は英語ですが、Google翻訳を駆使すれば日本語ユーザーでもスムーズに利用できます。

mage.space

mage.spaceは、Ollano社が提供する画像生成のプラットフォームとして知られており、Stable Diffusionを活用したWebサービスとして広く受け入れられています。基本的な利用は無料で可能ですが、有料プランを選ぶことで多彩な学習済みモデルにアクセスできるのが魅力。これにより、画像生成の初心者でも、意図した画像を容易に生成できます。

Stable Diffusion web UIとは

「Stable Diffusion web UI」とは、AUTOMATIC1111氏が開発したユーザーフレンドリーなツールです。このツールを使用すると、Stable Diffusionを簡単かつ直接的に活用できます。もちろん、ローカルのPC上でも動作させることができますが、高いPCスペックが必要なため、初めての方はクラウド上での利用を推奨します。どちらの方法でも、実行にはGitHubで公開されているコードの導入が必須です。

Stable Diffusion web UIには、txt2img(テキストから画像を生成)とimg2img(ある画像から新たな画像を作成)の2つの機能が備わっています。特定の画像イメージを持っている方や、直接的に画像生成を試みたい方には、img2imgの方が向いています。また、サンプリングの頻度やCFGスケールなど、画像の質に関わる設定も日本語対応しているので、英語が得意でない方も手軽に好きなように調整できます。

まとめ

ここまでStable Diffusionについて使い方や概要について解説してきました。ChatGPTを始めとした生成AIは頭で理解するより実際に触って体験することが習得の近道です。
今後、AIの技術進歩に伴いAIを活用するのが当たり前の世の中になるときに備え、興味を持った方は実際に触ってみることをおすすめします。

カテゴリ

Special Features

連載特集
See More