Stable Diffusionとは、英国のStability AI社が開発した画像生成モデルです。画像生成AIに興味がある方のなかには「Stable Diffusionを使ってみたいが、使い方やプロンプトなどがわからない」という方もいるのではないでしょうか。
そこで今回は、Stable Diffusionの概要や使い方、プロンプト作成時のポイント、すぐに使える便利なプロンプト例、注意点などを解説します。
Stable Diffusionとは?
Stable Diffusionとは、英国のStability AI社が開発した画像生成AIモデルです。名前の由来は、社名の「Stability」と、開発時のモデルである「latent Diffusion model」の「Diffusion」を組み合わせた造語とされています。
ユーザーが指示文(プロンプト)を入力するだけで、簡単に画像やイラストを作成可能です。Stable Diffusionで作成できる画像やイラストは、人物画や風景画、インテリアなど多岐にわたります。
Stable Diffusionはオープンソースであり、誰でも無料で利用可能です。
Stable Diffusionのおもな利用方法
Stable Diffusionは、以下2つの方法で利用できます。
- Webブラウザ上のサービスを利用する方法
- パソコンにダウンロードしてローカル環境で利用する方法
Webブラウザ上のサービスを利用する方法
Stable DiffusionをWebブラウザ上で利用する場合、簡単に始められ、気軽に使える点が大きなメリットです。また、OSなどの利用環境による差がなく、パソコンのスペックに依存しないこともおすすめできるポイントです。
一方で、Webブラウザ上ではサービスによって作成できる画像枚数などに制限がある点や、有料となる機能・サービスがある点などに注意が必要です。
パソコンにダウンロードしてローカル環境で利用する方法
パソコンにダウンロードしてローカル環境で利用する場合、作成できる画像枚数や機能などに制限がなく、無料で自由に利用できます。
その反面、自分自身のパソコンにダウンロードするため、使用できるまでに時間がかかります。また、使用するパソコンにはそれなりに高いスペック(RAM16GB以上)が必要です。
Stable DiffusionをWebブラウザ上で利用できる3つのサービス
はじめてStable Diffusionを使う場合などは、パソコンのスペックに関係なく気軽に使えるWebブラウザ上のサービスがおすすめです。ここでは、Webブラウザ上で利用できるサービスについて、以下の3つを紹介します。
- Hugging Face
- Dream Studio
- Mage.space
Hugging Face
Hugging Faceは、自然言語処理・機械学習に関するライブラリ開発やAIコミュニティを運営している米国の企業・サービスです。Hugging Faceのサイトでは、無料かつログイン不要でStable Diffusionを使用できます。
テキスト入力欄に指示文(プロンプト)を入力し、実行ボタンを押すだけで簡単に画像を生成可能です。とりあえずStable Diffusionを試してみたい方や、シンプルなインターフェースで手軽に画像生成を体験してみたい方に適しています。
Dream Studio
Dream Studioは、Hugging Faceよりも高速に画像生成できる点、画像のスタイル・縦横比・枚数を指定できる点などが特徴です。
Dream Studioを使う際は、事前にアカウント作成(無料)が必要です。Dream Studioは無料で使用できますが、クレジット制のため回数制限があります。
最初に25クレジットが付与され、最大125枚の画像を出力可能です。なお、消費するクレジット量は、プロンプトの複雑さや画像の出力枚数などの条件によって増減します。クレジットがなくなったら、10ドルで1,000クレジットを追加購入する必要があります。
Mage.space
Mage.spaceもHugging Faceと同様に、回数無制限・ログインなしですぐにStable Diffusionを無料で利用できます。画面中央にあるテキスト欄にプロンプトを入力するだけで画像を作成できるため、操作も簡単です。
有料プランも用意されており、月額4ドルのベーシックプランと月額15ドルのプロプランがあります。
ベーシックプランでは、複数のセッションを同時に実行し、効率的に多くの画像を作成できるようになります。さらにプロプランでは、バナー広告非表示やさまざまな生成モデルの選択、GIF画像の生成、元画像から別画像の作成なども可能です。
Hugging Faceの使い方
ここからは、先ほど説明した3つのサービスについて、それぞれのサービスの使い方や実際の活用例を紹介していきます。まずはHugging Faceの活用例です。
はじめにHugging Faceサイト上のStable Diffusionの画面を開きます。
続いて任意の英単語を入力します。
「 Enter a negative prompt」…出力画像に含めたくない要素の入力欄
入力後、「Generate Image」を押下することで、ページ下部に画像が出力されます。
たとえば、プロンプト入力欄に「dog」と入力し、実行した結果が以下のとおりです。
犬が描写された画像が4枚出力されました。多少の違和感はありますが、犬の画像であることを認識できる程度のクオリティにはなっています。なお、出力までにはおよそ25秒程度かかりました。
上記の画像では、犬だけでなく人間や車なども含まれています。そこで、犬だけが描写されるよう「Enter a negative prompt」欄に「human, car, other objects」と入力し、再度実行しました。
その結果、花や人の集団の画像など、犬が全く含まれていない画像が4枚出力されました。画像生成の精度が必ずしも正確ではないことがうかがえます。
続いて、プロンプトを「dog」ではなく「toy poodle,brown color」とし、具体的な条件指定を行いました。
最初に出力した画像と比べて、より大きく鮮明なトイプードルの画像が4枚出力されました。具体的な単語を使って条件指定したほうが画像の精度も高くなることが分かります。
さらに条件を追加し、「toy poodle,brown color with coffee cup」と入力し、実行しました。実行結果は以下のとおりです。
トイプードルとコーヒーカップの2つの要素が含まれた画像が4枚出力されました。このように、複数の要素を組み合わせて画像を作成することも可能です。
Dream Studioの使い方
次に、Dream Studioの活用例です。はじめにDream Studioの画面を開きます。
画面の左側にあるメニューから、スタイルの指定やプロンプトの入力を行います。スタイルの指定では、以下のようなスタイルを指定可能です。
「 Photographic」…写実的
「 Comic book」…コミック調
「 Fantasy art」…ファンタジー風
「 Origami」…折り紙風
「 Pixel art」…ピクセル調
通常のプロンプト欄とネガティブプロンプト欄それぞれに任意のプロンプトを入力します。画像をアップロードして編集を行うことも可能です。
また、選択肢のなかから出力画像の縦横比や枚数を指定することもできます。入力や指定が完了したら、画面左下の「Dream」ボタンを実行することで画像が作成されます。ボタンの右側にある数値は、消費されるクレジット数を表しています。
「a whale, from side, ocean」とプロンプト入力し、スタイルを「Pixel art」(ピクセル調)にして実行した結果が以下のとおりです。
およそ10秒程度で上記のようなピクセル調のクジラの画像を作成することができました。
続いて、Hugging Faceのケースと同様に「toy poodle,brown color with coffee cup」と入力し、スタイルを「Comic book」(コミック調)にして実行した結果が以下のとおりです。
Dream Studioの場合でも、トイプードルとコーヒーカップの2つの要素が含まれた画像を作成できました。
続いて、プロンプトを英語と日本語の場合に分けて検証していきます。まずは英語のプロンプトとして、「moon, large, beautiful, pink ,floating in the night sky」と入力して実行した結果が以下のとおりです。
指定したとおりに、夜空に浮かぶピンク色の大きな美しい月の画像を作成できました。
次に日本語のプロンプトとして、同条件で「夜空に浮かぶピンク色の大きな美しい月」と入力して実行した結果が以下です。
日本語でも月が描かれた画像を生成できましたが、大きさや色などは指定通りになっていません。
日本語のプロンプト入力でも画像生成はできるものの、英語で入力したほうが精度は高いといえるでしょう。
Mage.spaceの使い方
最後にMage.spaceの活用例です。まずはMage.spaceの画面を開きます。
中央にあるテキスト入力欄に任意のプロンプトを入力し、右側の「→」をクリックすることで画像が生成されます。
入力窓の下にある「View Option」から以下のような条件も無料で指定できます。
「 画質」…低め、高め
「 AIがプロンプト内容に従う度合い」…自由(緩め)、普通、厳しめ、非常に厳しめ
実行後に新たなウィンドウが開き、出力結果の画像および指定した条件が表示されます。
たとえば、「a robot」とプロンプトを入力したところ、実行後およそ10秒程度で以下のようなロボットの画像が作成されました。
次に、少し条件を追加して、「a robot, 1970’s, in a restaurant」とプロンプトを入力して実行した結果が以下のとおりです。
1枚目のロボットとは異なり、1970年代のレストランにロボットがいるような画像を作成できました。このように、年代や場所を指定して画像に反映させることも可能です。
3つのサービスを使ってみましたが、「まずは手軽に使ってみたい」という場合は、Hugging FaceかMage.spaceを利用するのがよいでしょう。
スタイルや縦横比なども指定し、より高品質な画像を作成したい場合は、Dream Studioが適しています。ただし、Dream Studioはクレジット制限がある点に注意が必要です。
Stable Diffusionのプロンプトを作る際のポイント
ここでは、Stable Diffusionのプロンプトを作る際の以下のポイントについて解説します。
- なるべく多くのキーワードを入力する
- 優先順位の高いものから入力する
- 各単語に重みづけをする
- ネガティブプロンプトを指定する
なるべく多くのキーワードを入力する
なるべく多くのキーワードを英単語を入力することで、より希望に近い形の画像を出力できる可能性が高まります。たとえば、「茶色いトイプードル」を出力したい場合は、単に「dog」と記載するよりも「toy poodle,brown color」と入力するほうが適切です。
優先順位の高いものから入力する
Stable Diffusionでは、左側に入力されている指示ほど優先して認識されます。同じキーワード群でも、順番を変えることで画像が変化する可能性もあります。
基本的には全体に関わる要素やメインの被写体(動物や建物など)のプロンプトを先に入力し、そのあとに細かい構図やニュアンスを指定するとよいでしょう。
各単語に重みづけをする
単語の順番を変更する以外にも、各単語に重みづけをする方法もあります。たとえば、特定の単語Aを重視したい場合は、括弧をつけて(A:1.2)のように記載することで、通常の1.2倍の強さで指示が行われます。
反対に、特定の単語Bの要素を弱めたい場合は、(B:0.8)のように記載し、通常の0.8倍に弱めることも可能です。
ネガティブプロンプトを指定する
ネガティブプロンプトとは、通常のプロンプトとは反対に、「画像に含んでほしくない要素」を指定するためのプロンプトです。通常のプロンプトに加えてネガティブプロンプトも入力することで、より希望の条件に合致した画像を出力できるようになるでしょう。
たとえば、ネガティブプロンプト欄に「worst quality」や「low quality」と入力することで、画質の低下をある程度防止できます。
Stable Diffusionのプロンプト例
本章では、Stable Diffusionのプロンプトの例をいくつか紹介します。
画質を調整するプロンプト
画質を調整するプロンプトを入力することで、画像の解像度などを指定可能です。たとえば、以下のようなプロンプトがあります。
「 detailed」…よりきめ細やかな画質・描写
画像のスタイルを指定するプロンプト
水彩画や油絵、特定の有名画家のような画像のスタイルを指定することも可能です。たとえば、以下のようなプロンプトがあります。
「 watercolor」…水彩画風
「 ukiyoe」…浮世絵風
「 Picasso」…「ピカソ」のような特定の有名画家の作風
「animification」…アニメ風
世界観を指定するプロンプト
ファンタジーやノスタルジーといった画像の世界観や雰囲気を指定することもできます。たとえば、以下のようなプロンプトが挙げられます。
「 nostalgic」…ノスタルジーな世界観や雰囲気
構図を指定するプロンプト
画像の構図や角度の指定も可能です。たとえば、以下のようなプロンプトがあります。
「 from side」…横からのアングル
「 looking at viewer」…カメラ目線
Stable Diffusionを使ってできること
Stable Diffusionを使うことで、以下のようなことを実現できます。
- オリジナルキャラクターの作成
- 建造物の描写
- ロゴの作成
- アイキャッチ画像の作成
オリジナルキャラクターの作成
Stable Diffusionで作成した画像は、商用利用も可能です。Stable Diffusionを使って、オリジナルキャラクターを作成し、自社のメディアなどに活用できます。たとえばWebサイトで登場するキャラクターとして使用したり、キャラクターを使ったグッズを製造・販売したりできるでしょう。
建造物の描写
Stable Diffusionを使って、建造物の外観やインテリアを表現することもできます。外観やインテリアを描画することで、たとえば引っ越しをして物件を新たに探す場合や、自宅をリフォームする場合に希望のイメージを相手に視覚的に伝えられるようになります。
ロゴの作成
自社独自のロゴを作成することも可能です。ロゴの形やレイアウトなどに悩んでいる場合でも、Stable Diffusionを使って複数のパターンを出力することで、アイデア出しのサポートにもなるでしょう。
うまく使いこなせるようになれば、専門のデザイナーに依頼するコストや手間も省ける可能性があります。
アイキャッチ画像の作成
ブログ記事やコラム記事に利用するアイキャッチ画像の作成にも活用可能です。フォトストックサービスなどからアイキャッチ画像を選定している場合、他社の記事のアイキャッチ画像と重複し、オリジナリティに欠けてしまう場合もあるでしょう。
一方、Stable Diffusionを使ってオリジナルのアイキャッチ画像を作成すれば、自社の独自のアイキャッチ画像として差別化を図れます。
Stable Diffusion利用時の注意点
Stable Diffusionは便利である一方、以下の点に注意することが必要です。
- 希望の画像が出力できるまで何度も試行する必要がある
- プロンプト内容とは全く関係のない画像が出力される可能性もある
- 同じ条件でも毎回異なる画像が出力される
- 商用利用する際は著作権などに注意が必要
- 英語でのプロンプト入力が基本となる
希望の画像が出力できるまで何度も試行する必要がある
Stable Diffusionを使う際、1回のプロンプトの入力で望み通りの画像が出力されるとは限りません。出力される結果を基に、プロンプトを修正しながら何回も試行する必要があります。
1回の画像出力にあたりおよそ数秒~数十秒程度かかるため、何度も試行することを考えると、ある程度まとまった時間を確保しておくことが求められます。
プロンプト内容とは全く関係のない画像が出力される可能性もある
プロンプト内容によっては、指示した内容と全く関係のない画像が出力される可能性もあります。
Hugging Faceのサイトでプロンプト入力欄に「dog」、ネガティブプロンプト欄に「human,car,other objects」を入力した結果、犬が写っていない花畑や風景画が出力されました。画像出力の精度が必ずしも高くない場合もあります。
同じ条件でも毎回異なる画像が出力される
全く同じプロンプトを入力しても、実行のたびに異なる画像が出力されます。そのため、気に入った画像が出力できたら、その場で画像を保存しておくことが大切です。
商用利用する際は著作権などに注意が必要
Stable Diffusionで出力した画像は、商用利用に使うことも可能です。ただし、法律や人権、著作権に抵触するコンテンツや個人情報を広めるコンテンツなどを利用することは規約により禁止されています。
また、特定の画像をアップロードして新たな画像を作成する場合も、元の画像が著作権に違反していないか十分に注意しましょう。たとえば、企業のロゴやブランド商品のロゴなどを無断で使用し、類似する画像を作成して商用利用すると著作権侵害になるリスクがあります。
英語でのプロンプト入力が基本となる
Stable Diffusionは、基本的には英語対応です。日本語を入力しても画像は作成されましたが、精度は落ちる傾向にあります。まず翻訳サイトなどで英訳して指示を行う方が効果的です。
また、画面のUIはすべて英語で記載されています。使用にあたり難しい表記などはとくにありませんが、もし画面のUIを日本語化したい場合は、拡張機能などを使用し日本語に翻訳する必要があります。
Stable Diffusion以外の画像生成AI
最後に、Stable Diffusion以外の画像生成AI「Midjourney」「DALL·E2」について紹介します。
Midjourney
Midjourneyは、米国で開発されたチャットサービス「Discord」を通じて利用できる画像生成AIです。1度の指示で4枚の画像が作成され、バリエーション画像の追加作成や画像の高画質化なども可能です。ほかのユーザーと共同のワークスペース内で無料トライアルが25回分できます。
無料トライアルでは、ほかのユーザーのプロンプトや画像も参考にできるメリットがある一方、自分自身が入力したプロンプトや出力された画像を見つけにくい点がデメリットです。また、無料トライアルで作成した画像の商用利用はできません。
無料プランのほか、月額10ドルのベーシックプラン、月額30ドルのスタンダードプラン、月額60ドルのプロプランの3つの有料プランがあります。有料プランでは、高速な画像生成や自分専用のワークスペースの利用や、作成した画像の商用利用が可能です。
DALL·E2
DALL・E2(ダリ ツー)は、米国の非営利団体であるOpenAIによってリリースされた画像生成AIツールです。テキストから画像を作成する機能に加え、元画像アップロードによる別のバリエーション画像の生成や、元画像の一部編集・描き足しなどもできます。
DALL·E2はクレジット制であり、利用の際は15ドルで115クレジットを購入する必要があります。また、DALL·E2ではすべて「1024px×1024px」の固定サイズで出力されるため、出力画像をメディアなどに活用する際はサイズに注意が必要です。
まとめ
Stable Diffusionは、Stability AI社が開発した画像生成AIです。手軽に試してみたい方は、「Hugging Face」「Dream Studio」「Mage.space」などのWebブラウザサービスを利用するとよいでしょう。
Stable Diffusionを活用することで、無料で自社のオリジナルキャラクター作成やロゴ作成などが可能です。一方、希望通りに画像作成するためには何度か試行錯誤しなければならず、著作権の抵触にも注意が必要です。
プロンプトのコツや利用上の注意点などを理解し、Stable Diffusionを有効活用していきましょう。
AI技術はこれからさらに発展していくと予測されているので、早い段階で基本的な活用方法を取り入れておくことが大切です。SEデザインでは、IT分野におけるBtoBマーケティング&セールス支援を行っており、30年以上の実績がございます。業務の効率化や顧客へのアプローチでお困りの際は、お気軽にSEデザインへご相談ください。