近年、簡単な操作でクリアな画像をデザインできる画像生成AIツールが次々と登場しています。
その中でも、鮮明で高品質な画像で話題となっているのが「Stable Diffusion」です。
Stable Diffusionはテキスト次第で多彩な画像を生成できますが、その魅力的なツールについて詳しく知らない方も多いのではないでしょうか。
本記事では、Stable Diffusionについて多角的に解説します。
Stable Diffusionの仕組みや使い方、商用利用の可否についても詳しくお伝えするので、Stable Diffusionに興味のある方はぜひ参考にしてください。
Stable Diffusionとは
Stable Diffusionは、ユーザーが入力した指示文をもとに、瞬時にハイクオリティな画像を生成するツールです。ミュンヘン大学のCompVisグループによって開発され、2022年に初めて公開されました。
Stable Diffusionは世界100万人以上のユーザーに利用されており、写真のようなリアルな画像から油絵や水彩画のようなアート作品まで、多彩なスタイルの画像を生成できます。
Stable Diffusionは無料
Stable Diffusionは無料で使えます。
Stable Diffusionはオープンソースソフトなので、全機能を誰もが無料で利用できます。
もちろん画像生成回数の利用制限もないため、納得できる画像を表現できるまで繰り返し生成することも可能です。
無料で使える主な画像生成ツール
オープンソースのStable Diffusion以外でも、無料で使える画像生成AIツールは数多くあります。
以下では、無料で使える主な画像生成ツールを表にまとめてみました。
ツール名 | 開発元 | 主な特徴 |
Image Creator | Microsoft |
|
Gemini |
|
|
Bing | Microsoft |
|
Canva | 非公開会社 |
|
Wonder AI Art Generator | Wonder AI |
|
以下の記事では、画像生成に対応した無料アプリを紹介しているので、スマホで手軽に画像生成したい方はぜひご一読ください。
Stable Diffusionの仕組み
Stable Diffusionの技術は、OpenAIの画像生成AIをはじめ数多くの画像生成AIで使われています。
以下では、Stable Diffusionの仕組みを紐解くために、Stable Diffusionの核となる技術について解説しましょう。
- CLIP技術
- 潜在拡散モデル
- LAION
CLIP技術
CLIP技術は、テキストと画像を紐付ける技術です。
具体的な仕組みを以下に挙げてみます。
- AIが膨大な画像と文章のセットを学習
- それらの相互関係を数値化
- その数値で類似度を計算
- 計算値をもとにテキストに適した画像を抽出
たとえば、テキスト入力欄に「犬」と記述した場合、その「犬」というテキストをもとに、Stable Diffusionが犬の写真を「犬」と判別します。これは、このCLIP技術によるものです。
潜在拡散モデル
潜在拡散モデルは、画像を生成・鮮明化する技術です。
具体的には、以下のような仕組みとなっています。
- 高次元の画像データを一旦低次元の空間(潜在空間)に変換
- その低次元空間内でノイズの付加・除去を行なう
- ノイズの付加・除去のプロセスを経ながら拡散
拡散モデルは2020年に開発され、その後Stable Diffusionで使われている潜在拡散モデルへと進化しました。潜在拡散モデルへの進化により、複雑な画像生成を実現し、さらに計算コスト効率向上にも貢献しています。
LAION
Stable Diffusionが使っているデータセットはLAIONです。
LAIONは、58億5000万組以上もの画像と文章のセットがあり、Stable DiffusionはLAIONの中でも特に優れた「LAION-Aesthetics」を学習しています。Stable Diffusionの美しい画像には、この「LAION-Aesthetics」も大きく関係しています。
Stable Diffusionの画像は商用利用できる?
Stable Diffusionで作られた画像は、商用として利用できます。
Stable Diffusionの画像には、ライセンスに公式の証明である「CreativeML Open RAIL-M」と記載されているので、商用利用、および二次利用が可能です。
オープンソースライセンスと商用利用
Stable Diffusionは無料で誰でも使えるオープンソースソフトであり、その性質上利用制限を設けるのは困難です。
そのため、多くのオープンソースは該当ソフトの使用や改変、頒布を許可する「オープンソースライセンス」を設けています。これらのオープンソースソフトは、商用利用を認めることで該当ソフトの普及率を向上させるとともに、コミュニティの活性化、およびさらなる開発促進を目指しています。
著作権に注意
Stable Diffusionの画像は著作権に注意が必要です。
特に、商用利用する場合、著作権にかかわる画像であれば違法の恐れがあります。
たとえば、「ハローキティ」のように既存キャラクター名を入力した場合、学習データにその情報が含まれていれば、類似した画像が生成される可能性が高いです。また、企業名やブランド名を入力すると、該当するロゴが生成される場合もあります。
なお、誤って著作権を侵害する画像を生成した場合でも、商用利用しなければ問題は生じません。しかし、故意か否かにかかわらず著作権侵害行為そのものが問題であるため、生成AIのプロンプト入力の際には十分注意を払いましょう。
Stable Diffusionをはじめ、各種生成AIの適切な使い方に対しては各方面で議論が繰り返されており、「生成AIガイドライン」を設ける企業や自治体も増えてきました。
生成AIを利用するにあたり、行政機関でも専門家の指導の重要性に着目しています。
生成AIを安全に利用したい方は、ぜひセミナーに参加してみてください。
生成AIセミナー|ProSkilll
ProSkilllの生成AIセミナーでは、個人情報保護など、生成AIが抱えるリスクについて深く学べます。画像生成AIの適切な利用方法や、効果的なプロンプト入力方法についても学習できるため、業務効率アップを目指す方にも最適です。
受講期間 | 2日 |
受講スタイル |
|
受講料 | 各38,500円 |
Stable Diffusionを使う方法
Stable Diffusionは2種類の方法で使えます。
以下では、それぞれの方法について解説しましょう。
- Webサービスを使う
- Stable Diffusionをインストールする
使い方①Webサービスを使う
Stable Diffusionは、Web上のサービスを使って画像生成できます。
具体的には、Stable Diffusionをインストールせず、ブラウザ上のプラットフォームを使ってStable Diffusionの画像を生成する方法です。
一般的には、以下の3つのプラットフォームが使われています。
プラットフォーム名 | 概要 |
Mage.space |
|
Dreamstudio |
|
Hugging Face |
|
上記の各ツールは、WindowsやMacなど、さまざまなOSで利用できます。
ただし、一部のツールは利用状況に合わせて有料版へ移行するため、あらかじめ各ツールの特徴やサービス内容を十分に確認しておきましょう。
使い方②Stable Diffusionをインストールする
Stable Diffusionは、Stable Diffusion自体をパソコンにインストールして使うことも可能です。
Stable Diffusionは、先ほどお伝えしたように無料で使えるオープンソースソフトなので、一度インストールすれば、無料で画像生成回数や機能の制限なく利用できます。さらに、自分好みの設定にカスタマイズできる点もメリットです。
ただし、インストールには、PythonやGitなどのツールに関するスキルが必要であるため、初心者の方の場合は①のWebサービスを使う方法がおすすめです。
Stable Diffusionの画像生成を試してみよう
Stable Diffusionの画像生成について理解したら、実際の画像を見てみたい方もいるでしょう。
以下では、上記で紹介したWeb上でStable Diffusionを使えるプラットフォーム「Mage.space」で画像生成してみました。
Mage.spaceの画像生成手順
Mage.spaceの画像生成は以下の手順で行います。
- 「Mage.space」にアクセス
- 画面中央にテキスト(プロンプト)を入力
- 「▶」をクリック
- 画面横に生成した画像が表示
- 生成画像上で右クリックすると画像が拡大表示
- 「写真風」というプロンプトを追加で入力
- 上記のような画像を表示
Mage.spaceでの画像生成は簡単なので、初めての方でも手軽にAI画像を作成できます。
実は、他の画像生成AIも基本的な手順は似ています。
Mage.spaceをマスターすれば、他のツールもスムーズに使いこなせるでしょう。
以下の記事では、Microsoft社の画像生成AIツール「Image Creator」を使った画像生成のやり方を解説しています。実際に生成した画像も添付しているので、ぜひ参考にしてください。
Stable Diffusionを利用する際のポイント
Stable Diffusionの性能を最大限に引き出すためには、プロンプトと呼ばれるテキストの入力方法を工夫することが重要です。
①具体的な内容を入力する
Stable Diffusionの利用時には、具体的な内容をプロンプトに入力することが重要です。
具体的な記述であれば、想像したイメージをStable Diffusionに的確に伝えることができ、何度も生成を繰り返すことなく、理想的な画像を生成できる可能性が高くなります。
画像の内容を細かく指示することはもちろんですが、構図やタッチ、カラートーン、画風まで指定すると、より意図したイメージに近い画像をスムーズに制作できます。
②強調したいプロンプトを優先する
Stable Diffusionを利用する際は、画像で強調したいプロンプトを優先的に記述しましょう。
Stable Diffusionは、先に入力されたプロンプトを主軸として画像を生成する仕組みのため、プロンプトの並べる順序を変えるだけで生成される画像が大きく異なります。
一般的には、以下の順番に入力します。
- 画像の主となるモチーフ(人物、動物など)
- モチーフの特徴(体形、年齢、性別など)
- 主となるモチーフに付加する要素(髪型、服装、小物など)
- 構図(全身像、バストアップなど)
- 画像のイメージ(写真風、絵画風など)
Stable Diffusionでは、必ずしもプロンプト通りの画像が生成されるわけではありませんが、優先順位が高い要素ほど反映されやすくなります。思い通りの要素が画像に反映されていない場合は、プロンプトの優先順位を変更してみると良いでしょう。
③文字数を増やしすぎない
Stable Diffusionは、入力文字数を75文字単位でカウントしています。
一度に入力するプロンプトが75文字を超えることも可能ですが、75文字を超過した部分は画像に反映される確率が下がるため注意が必要です。
また、75文字で区切られる仕様のため、ちょうど区切り部分にかかる単語は正しく認識されない場合があります。このような分割を防ぐためにも、文字数を意識して入力することが大切です。
④ネガティブプロンプトを用いる
Stable Diffusionを使用する際には、ネガティブプロンプトを用いるのも効果的です。ネガティブプロンプトとは、画像に含めたくない要素をあらかじめ指定する方法です。たとえば、「low quality(低品質)」と入力すれば、Stable Diffusionはその要素を避けて画像を生成します。
さらに、EasyNegativeという拡張機能を利用すれば、ネガティブプロンプト入力を自動化できます。「毎回ネガティブプロンプトを入力するのが面倒」という方はぜひ活用してみてください。
Stable Diffusionについてまとめ
Stable Diffusionは、スピーディに魅力的な画像を生成できるツールです。
このような生成AIの活用が広がるに従い、テキストやキーワードを効果的に入力する技術・プロンプトエンジニアリングが注目されています。
プロンプトエンジニアリングは、生成AIニーズの高まりとともに注目を集めている技術です。
この技術は、テキストの内容や構造を工夫することで、生成AIからより良い結果を引き出すため、生成AI活用における重要なスキルとして認知が広がっています。
ProSkilllの生成AIセミナーは、プロンプトエンジニアリングの理解を深め、さらにChatGPTをはじめとした生成AIの活用術を学べるセミナーです。Stable Diffusionを効果的に使いこなしたい方は、ぜひ以下のページでセミナーの詳細をご確認ください。
