この記事では、基礎知識から実践的な活用方法まで、わかりやすく解説します。専門用語もできるだけ噛み砕いて説明していきます。
Stable Diffusionとは、英国のStability AI社が開発した画像生成AIモデルで、テキストを入力するだけで高品質なイラストや画像を生成できるオープンソースツールです。
Stable Diffusionとは
Stable Diffusionは、英国のStability AI社が開発した画像生成AIモデルです。ユーザーが入力したテキストをもとに画像を生成するAIモデル(Diffusion Model)を搭載しているのが特徴です。
作成したい画像のイメージ(例えば、アマゾンのジャングル、高層ビルが建ち並ぶ都会など)を英単語で区切って入力することで、様々な画像を作成できます。
Stable Diffusionはオープンソースであり、誰でも無料で利用できるというのも大きな特徴です。
SNSやブログなどで「AIイラスト」を見かけたことがある方も多いでしょう。実はAIイラストはツールを使えばだれでも簡単に作ることができ、その中でもStable Diffusionはまるでプロが描いたかのように美しいイラストが生成できます。
Stable Diffusionの2つの利用方法
Webブラウザ上のサービスを利用する方法
Stable DiffusionをWebブラウザで利用することもできます。パソコンだけでなくスマホでも利用できます。
パソコンがあればだれでも簡単に始められるので、AIイラストを作ってみたいと思えばすぐにチャレンジできる点がメリットです。パソコンのスペックやOSなど環境も関係ないので、まずはWebブラウザ版から始めて見るのがいいでしょう。
ただしWebブラウザ版は作成できる画像に枚数制限があることや、有料になっている機能やサービスもあるので、使い込んでいく場合には有料もしくはパソコンにダウンロードするほうがおすすめです。
パソコンにダウンロードしてローカル環境で利用する方法
パソコンにダウンロードしてローカル環境で利用する場合、作成できる画像枚数や機能などに制限がなく、無料で自由に利用できるのが最大の特徴です。
パソコンにダウンロードして使う場合は、スペックが求められるので注意しましょう。そのため、ダウンロードして利用する場合は、AIイラスト生成を頻繁に使う人に適しているでしょう。
推奨スペック・パソコンの選び方
ノートPCかデスクトップ型か
Stable Diffusion用のパソコンとしておすすめなのはデスクトップ型です。サイズが大きいので性能の高いグラフィックボード(グラボ)を搭載できるからです。
ノートPCの場合は小さいサイズのグラフィックボードしか搭載できないので、スペック面でもデスクトップ型よりも劣ってしまうことが多いです。
OSはWindowsがおすすめ
OSはWindowsがおすすめです。Stable Diffusionを使うためのWeb UI(ユーザーインターフェイス)は、もともとWindows向けに作られたものです。またWindowsは64Bit版を選びましょう。32Bit版のPCではメモリを多く積んでもフルに使用できません。
Web UIの公式ページでは以下のように説明しています。
現在、Web UIのほとんどの機能はmacOS上で正しく動作しますが、最も注目すべき例外はCLIPインタロゲータとトレーニングです。トレーニングは機能しているように見えますが、信じられないほど遅く、大量のメモリを消費します。 現在、macOSのGPUアクセラレーションは大量のメモリを使用します。
Stable Diffusionの利用を前提としてパソコンを選ぶのならWindowsを選ぶことをおすすめします。
CPUはあまり気にしなくても大丈夫
CPUの性能はStable Diffusionを使う上ではあまり重視しなくても大丈夫です。イラスト生成に必要な部分は「GPU」だからです。またCPUを出している会社もAMD製・Intel製どちらでも構いません。
10年以上前の古いCPUというわけでもなければ、CPUのスペックはStable Diffusionを使う際にあまり関係ありません。
GPU
Stable Diffusionの要ともいえるパーツはGPU(グラフィックボード)です。おすすめは『VRAM』と呼ばれる画像処理専用のメモリ容量が12GB以上あるものです。
なお、Stable Diffusion WebUIでは、NVDIA(推奨)とAMDの2つのメーカーのグラフィックボード(GPU)に対応しています。さらに、もともとStable Diffusion WebUIはNVDIA製のグラフィックボードに向けて作られていますのでNVDIA製のほうがよりおすすめです。
もしVRAMの容量が少ないと以下のようなデメリットが生じます。
- 解像度が高いイラストを生成できない
- 一部の拡張機能が使えない
- 学習ができない
VRAMの容量はどれだけあっても足らないくらいなので、Stable Diffusionを使うことを前提としてPCを探すのであれば、VRAMにはお金をかけましょう。ぜひ16GB・24GBくらいグラフィックボードを探しましょう。
もし予算に余裕があれば、それ以上のスペックのものを探すこともおすすめです。
ストレージ
おすすめのストレージ容量は、1TB以上のSSDがおすすめです。SSDのほうが起動が早いので、ストレスなく使えます。ただし、使い方によって必要なストレージ容量が異なるので、以下を参考にしてください。
- どのくらいの関連ツール(モデルなど)をダウンロードするか
- イラストを1日何枚生成するか
- イラストの解像度はどのくらい大きいか
使い方によってストレージ容量は変わってしまうので、決められないという人はとりあえず1TBあればいいでしょう。
メモリ
Stable Diffusion WebUIは、メインメモリが16GB以上であることが推奨されています。以下は公式の見解です。
The program needs 16gb of regular RAM to run smoothly. If you have 8gb RAM, consider making an 8gb page file/swap file, or use the –lowram option (if you have more gpu vram than ram).
普通にイラストを生成するうえでは16GBあれば十分ですが、LoRA学習など上級者向けの機能を使う場合は32GBのメモリはあったほうがいいです。そのため、以下の基準で選ぶようにしましょう。
- 初期費用を抑えたい・初心者:16GB
- ガッツリ取り組みたい・趣味や仕事でも使いたい:32GB
Stable Diffusionの使い方:Hugging Face
Hugging Faceは、自然言語処理・機械学習に関するライブラリ開発やAIコミュニティを運営しているアメリカ企業が提供するサービスです。
無料かつログイン不要でStable Diffusionを使用できるのでビギナーにもおすすめです。
基礎編
Hugging Faceは、自然言語処理の分野において特に有名で、様々な自然言語処理系のデータセットが提供されています。
テキスト入力欄に指示文(プロンプト)を入力し、実行ボタンを押すだけで簡単に画像を生成可能です。とりあえずStable Diffusionを試してみたい方や、シンプルなインターフェースで手軽に画像生成を体験してみたい方に適しています。
Hugging FaceでStable Diffusionを利用する場合はHugging FaceのSpacesからStable Diffusionを提供する企業名「Stability AI」を検索し、「Stable Diffusion 2」を選択します。
使い方はとてもシンプルです。テキスト入力エリアに、生成したい画像を説明するテキストを入力し、画像生成実行ボタンを「Generate Image」をクリックするだけです。
応用編
基本的な操作はシンプルなので誰でも簡単に扱えますが、少し凝った使い方もできます。例えばテキストに入れる英単語を変化させることやHugging Face独自のカスタムオプションを調整することで、画像のテイストをイメージに近い雰囲気へと変化することもできます。
画質を上げる場合には「quality8k」とテキスト入力するだけでOKです。
そのほかにも「quality4k」「realistic」「photorealistic」「Unreal Engine」などがありますので、色々なパターンを試してみてください。
Stable Diffusionの使い方:Dream Studio
Dream StudioはHugging Faceよりは素早く画像生成ができるのが最大のポイントです。そのため、すぐにStable Diffusionを使いたいという人にもおすすめです。
Googleアカウントを例に挙げて説明していきます。ログイン画面下部の「Continue with Google」から自身のGoogleアカウントを選択することでログインできます。最初に25クレジットが付与され、最大125枚の画像を出力可能です。
クレジットがなくなったら、10ドルで1,000クレジットを追加購入する必要があります。
基礎編
「メニュー」画面では、画像生成を行うタブ「Dream」や、過去に生成した画像を保存する「History」、初心者向けのテキスト生成のガイドが記載された「Prompt Guide」のほかに、「FAQ」も表示されています。
画面右側にある部分は生成画像の細部(detail)を調整する機能です。それぞれ以下のような意味があります。
- 「Width」:画像の幅
- 「Height」:画像の高さ
- 「Cfg Scale」:テキストの再現度
- 「Steps」:画像生成にかかるノイズ除去の回数
- 「Number of Images」:生成する画像の枚数
- 「Sampler」:ノイズ除去を行うアルゴリズムの指定
- 「Model」:Stable Diffusionのバージョン
- 「Seed」:画像生成に使用する乱数の初期値
画面下部にはテキストを入力する部分があり、隣の「Dream」タブをクリックすることで実行となります。
応用編
応用編では、AIイラスト界隈で流行している浮世絵風で生成してみましょう。プロンプトはそのままにしておいて葛飾北斎の浮世絵でリクエストします。その際には「An ukiyoe painting of a dream of a distant galaxy in Katsushika Hokusai style.」とテキストに入力します。
写実的な描写からかなり浮世絵のタッチへと変化するので、別の絵のようなタッチになるのが楽しめます。
さらに「Steps(ノイズ除去の回数)」を増やしてみると、より細かく描画されるので、自分のイメージする画像や絵に自由に近づけることができます。
Stable Diffusionの使い方:Mage.space
Mage.spaceもHugging Faceと同様に、回数無制限・ログインなしですぐにStable Diffusionを無料で利用できます。画面中央にあるテキスト欄にプロンプトを入力するだけで画像を作成できるため、操作も簡単です。
有料プランは月額4ドルの「ベーシックプラン」と月額15ドルの「プロプラン」があります。ベーシックプランの場合は複数のセッションを同時に実行することができるので、効率的に多くの画像を作成できるようになります。
プロプランではそれに加えてバナー広告非表示やさまざまな生成モデルの選択、GIF画像の生成、元画像から別画像の作成もできるのでより凝った画像生成を可能としています。
基礎編
Mageもシンプルに作られており「テキスト入力エリア」、「画像の生成ボタン」、「オプション設定」だけとわかりやすいです。中央にあるテキスト入力欄に任意のプロンプトを入力し、右側の「→」をクリックすることで画像が生成されます。
入力窓の下にある「View Option」から以下のような条件も無料で指定できます。
アスペクト比:
- シネマ(16:9)
- ランドスケープ(3:2)
- スクエア(1:1)
- タブレット(2:3)
- スマートフォン(9:16)
画質:
- 低め
- 高め
AIがプロンプト内容に従う度合い:
- 自由(緩め)
- 普通
- 厳しめ
- 非常に厳しめ
応用編
画像変化においてはMage.spaceが得意としています。例えばトップページの「View Option」を選択し、「guidance scale」を「Very Strict」に設定します。
「guidance scale」はプロンプトの忠実度を表す値なので、作家の画風に近づけたい場合に有効です。「negative prompt」で「人間」を指定すると、人物の居ない綺麗な風景画を生成します。
つまりnegative promptに指定したプロンプトが描かれないように生成画像が調整されるということです。
Stable Diffusionの主要用語
Stable Diffusionを使う際に一番よく使う「txt2img(テキストからイラストを生成)」における用語説明をしていきます。
Stable Diffusion checkpoint
Stable Diffusion checkpointは、選択しているcheckpointの種類が表示されている部分です。これは「学習済みのデータ」のことを指しており、どんな画像を基として学習したモデルなのかがわかります。基準としている画像によって生成されるイラストのテイストが変化するというものです。
Prompt
プロンプトは生成してほしいイラストの特徴をStable Diffusionに指示するために必要です。プロンプトに生成してほしい単語や文章を入力して「Generate」を押して生成を待ちます。
もしイラストが気に入らなければ、再度Generateボタンを押すと何回でも新しく生成してくれます。つまり良いイラストと出会うためには、『Promptを調整しつつひたすら生成を繰り返す』という作業が必要になることは覚えておきましょう。
Negative prompt
Promptとは逆で、「生成してほしくない特徴」をStable Diffusionに指示する項目です。例えば『しっぽのない犬のイラスト』を作る場合を考えましょう。こんなときに活躍するのがNegative promptです。
- Prompt:a dog(犬のイラストを生成して)
- Negative prompt:tail(しっぽは描かないで)
この指示をすることで、しっぽがない犬のイラストが生成されます。ただし必ずしもイメージしているようなイラストでない場合もあります。
Sampling method
イラスト生成時のアルゴリズムで、生成されるイラストの絵柄と生成速度に影響します。「Sampler」と表示しているサイトも多いですが、どちらも同じです。
画面左側に表示されますが、種類がとても多くて最初のうちはどれを選べばいいかわからないことが多いでしょう。使用するモデルによっては特定のSampling methodを推奨しているものもあるので、推奨されているものを選ぶのがおすすめです。
補正機能について
Sampling stepsの下にはRestore faces・Tiling・Hires.fixという3つのチェックボックスがあります。これはいずれも生成されるイラストを補正する要素です。
Restore faces:「顔を左右対称にする」という補正をかけてくれるのですが、古い機能なのであまり触らなくてもOKです。
Tiling:Promptの内容をイラスト全体に敷き詰めてくれる機能ですが、壁紙や同じ画像を一面にちりばめたい場合に使える機能です。
Hires.fix:Hires.fixを使うと「高画質のイラストを生成する」という指示を以下の3つに分けてくれます。
- STEP1:標準サイズでイラストを生成する
- STEP2:イラストを拡大する(このとき画質は荒くなる)
- STEP3:荒く拡大されたイラストをimg2imgできれいにする
Stable Diffusionを利用する際の注意点
画像生成に時間がかかる場合がある
画像生成AIは、複雑な計算や処理を行うため、画像生成には時間がかかることがあります。中でも解像度の高い画像や複雑なデザインをリクエストした場合の画像生成は、多くの時間がかかってしまう可能性があります。
パソコンのスペックにも影響しますが、十分な時間を設けて使うようにしましょう。
倫理と法的な制約
AI画像生成のソフトを使用する際には、倫理と法的な制約に留意する必要があります。
倫理的な面では、他人のプライバシーや人権を尊重することが重要です。無断で他人の顔写真を使用したり、不適切なコンテンツを生成したりすることは避けなければなりません。また、人種、性別、宗教、性的指向などへの差別や偏見を助長するような画像生成も避けるべきです。
法的な制約としては、著作権や商標法の規定に従う必要があります。他人の著作権を侵害する画像生成や商標を不正使用する生成は違法です。
一部の国や地域では特定のコンテンツが規制されている場合もありますので、それらの制約にも従う必要があります。
常に安定した画質の画像を生成できるとは限らない
AI画像生成のソフトは、常に安定した画質の画像を生成するとは限りません。生成される画像の品質は、さまざまな要素に依存します。例えば、トレーニングデータの品質や量、モデルのアーキテクチャ、パラメータの設定などが影響を及ぼします。
また、AI画像生成は統計的な手法を用いており、ランダム性も組み込まれています。そのため、同じ入力に対して異なる結果が得られることもあります。
生成された画像には不適切な内容やノイズが含まれる可能性があるため、適切なフィルタリングやポストプロセス処理が必要です。
著作権やライセンスの考慮
著作権やライセンスは、AI画像生成において重要な考慮事項です。生成された画像が他人の著作物を含んでいる場合、無断使用や著作権侵害になる可能性があります。そのため、著作権法やライセンスに基づいて法的な制約に従う必要があります。
データのライセンスや利用条件を確認し、それに従って使用しましょう。特に商業利用や再配布などの制約がある場合には、それらの条件を遵守することが重要です。
また、AI画像生成には、有名人やパブリックフィギュアなどの肖像権やパーソナリティ権も関わってきます。他人の顔写真や肖像を生成する場合は、その個人の同意や適切な法的手続きを経る必要があります。
一部の画像が生成できない場合がある
AI画像生成において、一部の画像が生成できない場合があります。これは、以下のような理由によるものです。
- トレーニングデータの制約:使用されたトレーニングデータセットには、特定のカテゴリや属性が不十分な場合があります。そのため、生成される画像にはそれらの要素が欠落してしまうことがあります。
- コンテキストの理解不足:AIは画像を単純なピクセルの集まりとして扱うため、コンテキストや意味の理解に限界があります。その結果、複雑な構造や抽象的な概念を持つ画像の生成が困難な場合があります。
- 制約や制限の設定:使用されたモデルやアルゴリズムには、生成される画像に対して特定の制約や制限が設定されている場合があります。例えば、特定のスタイルや品質基準に合致しない画像を生成しないように制御されている場合があります。
バイアスや偏見の存在
AI画像生成には、バイアスや偏見の存在が懸念されます。AIはトレーニングデータから学習するため、それらのデータに潜んでいる人間のバイアスや偏見を反映する可能性があります。
- 人種や性別のバイアス:トレーニングデータに偏りがある場合、生成された画像において特定の人種や性別に対するステレオタイプや偏見が強調されることがあります。
- 社会的な偏り:トレーニングデータが社会的な偏りを持つ場合、AI画像生成の結果もそれに合わせた偏りを反映することがあります。例えば、職業や身体的な特徴における社会的な不平等を強化するような画像が生成される可能性があります。
- 内在的なバイアス:AIはトレーニングデータに基づいて予測を行いますが、その結果はトレーニングデータの特性やパターンに制約される傾向があります。これにより、新しいアイデアや多様性に対する柔軟性が制限される場合があります。
また、倫理的な観点からも、バイアスの存在とその影響を理解し、AIの使用や結果の評価に慎重に取り組む必要があります。
生成AI活用のヒントとリソース
Stable Diffusionのようなテキスト生成AIをより効果的に活用したい方は、生成AIおすすめ17選で他の優秀なAIツールについても学ぶことができます。また、企業での導入を検討している場合は、生成AI研修のカリキュラム設計が参考になるでしょう。
さらに、LLMO対策完全ガイドでは、AI時代のSEO戦略について詳しく解説しており、Webマーケティング全般についてはホームページ集客のコツで包括的な知識を得ることができます。
まとめ
Stable Diffusionはテキストから画像を生成する機械学習モデルで、絵に自信がない人でもまるで画家のようなイラストを生成することができます。
ブラウザ上で使う方法と、パソコンにダウンロードして使う方法の2種類がありますが、初心者の場合やとりあえず使ってみたいという人はブラウザ上での利用がおすすめです。
Hugging Faceをはじめ、様々なツールが用意されているのでStable Diffusionを使いたい人は自分にあったツールを選んで、イラスト生成を楽しんでみましょう。
さまざまなプロンプトを使って、より精度の高い画像生成を目指したい方はRomptnの関連記事も参考にしてみてください。
よくある質問
Q. Stable Diffusionは無料で使えますか?
A. はい、Stable Diffusionはオープンソースであり、基本的に無料で利用できます。Webブラウザ版では一部機能制限がありますが、パソコンにダウンロードして使用すれば完全に無料で利用可能です。
Q. 初心者におすすめの利用方法は?
A. 初心者にはWebブラウザ版から始めることをおすすめします。特にHugging FaceやMage.spaceはログイン不要で手軽に試せるため、まずはこれらのサービスで基本的な操作を覚えてから、より高度な機能を求める場合にローカル環境での利用を検討しましょう。
Q. パソコンのスペックはどの程度必要ですか?
A. ローカル環境で使用する場合、VRAM12GB以上のGPU(NVIDIA推奨)、メモリ16GB以上、ストレージ1TB以上のSSDが推奨されます。OSはWindows 64bit版がおすすめです。
Q. 生成した画像の商用利用は可能ですか?
A. 利用するサービスやモデルによって異なります。商用利用前には必ず各サービスの利用規約を確認し、著作権や肖像権に配慮して使用してください。また、生成した画像が既存の著作物に類似していないかチェックすることも重要です。
Q. プロンプトの書き方にコツはありますか?
A. 具体的で詳細な英語での記述が効果的です。「quality8k」「realistic」などの品質向上キーワードを含めたり、Negative promptで不要な要素を除外したりすることで、より理想に近い画像を生成できます。複数回生成を試して最適な結果を見つけることが重要です。
専門家からのアドバイス
情報を活用する際は、自社の状況に合わせてカスタマイズすることが重要です。そのまま真似るのではなく、本質を理解して応用しましょう。
この記事のポイント
- 最新の情報を網羅的に解説
- 実務で使える知識を提供
- 関連情報へのリンクも充実
