SNSやブログなどで「AIイラスト」というものを見かけたことがある人も多いでしょう。
実はAIイラストはツールを使えばだれでも簡単に作ることができます。
その中でもStable Diffusionはまるでプロが描いたかのように美しいイラストが生成できます。
そこで今回はStable Diffusionの使い方について詳しく解説していきます。
Stable Diffusionとは?
Stable Diffusionとは、英国のStability AI社が開発した画像生成AIモデルです。
画像生成AIの1つで、ユーザーが入力したテキストをもとに画像を生成するAIモデル(Diffusion Model)を搭載しているのが特徴です。
作成したい画像のイメージ(例えば、アマゾンのジャングル、高層ビルが建ち並ぶ都会、など)を英単語で区切って入力することで、様々な画像を作成できます。
Stable Diffusionの利用方法は2種類
Webブラウザ上のサービスを利用する方法
Stable DiffusionをWebブラウザで利用することもできます。パソコンだけでなくスマホでも利用できます。
パソコンがあればだれでも簡単に始められるので、AIイラストを作ってみたいと思えばすぐにチャレンジできる点がメリットです。
パソコンのスペックやOSなど環境も関係ないので、まずはWebブラウザ版から初めて見るのがいいでしょう。
ただしWebブラウザ版は作成できる画像に枚数制限があることや、有料になっている機能やサービスもあるので、使い込んでいく場合には有料もしくはパソコンにダウンロードするほうがおすすめです。
パソコンにダウンロードしてローカル環境で利用する方法
パソコンにダウンロードしてローカル環境で利用する場合、作成できる画像枚数や機能などに制限がなく、無料で自由に利用できるのが最大の特徴です。
パソコンにダウンロードして使う場合は、スペックが求められるので注意しましょう。
そのため、ダウンロードして利用する場合は、AIイラスト生成を頻繁に使う人に適しているでしょう。
以下に推奨スペックを紹介します。
ノートPCかデスクトップ型か
パソコンと一言にいっても大きくはノートPCかデスクトップ型に分けられます。
Stable Diffusion用のパソコンとしておすすめなのはデスクトップ型です。サイズが大きいので性能の高いグラフィックボード(グラボ)を搭載できるからです。
ノートPCの場合は小さいサイズのグラフィックボードしか搭載できないので、スペック面でもデスクトップ型よりも劣ってしまうことが多いです。
OSはWindowsがおすすめ
OSはWindowsがおすすめです。Stable Diffusionを使うためのWeb UI(ユーザーインターフェイス)は、もともとWindows向けに作られたものです。
またWindowsは64Bit版を選びましょう。32Bit版のPCではメモリを多く積んでもフルに使用できません。
ですが最近のPCは64Bit版のPCがほとんどですので、よほど古いPCを買う予定でない限り、気にしなくても大丈夫です。
Web UIの公式ページでは以下のように説明しています。
現在、Web UIのほとんどの機能はmacOS上で正しく動作しますが、最も注目すべき例外はCLIPインタロゲータとトレーニングです。トレーニングは機能しているように見えますが、信じられないほど遅く、大量のメモリを消費します。
現在、macOSのGPUアクセラレーションは大量のメモリを使用します。
もちろんMacでは絶対に使えないというわけではないですが、Windowsと比較すると要求されるスペックがWindowsよりも高いので、費用面で厳しいのではないでしょうか。
またStable Diffusionを使っているユーザーが圧倒的にWindowsが多いため、エラーが起きたときに情報を探す際にも数が少ない点もあまりおすすめできない理由の1つです。
CPUはあまり気にしなくても大丈夫
CPUの性能はStable Diffusionを使う上ではあまり重視しなくても大丈夫です。イラスト生成に必要な部分は「GPU」だからです。
またCPUを出している会社もAMD製・Intel製どちらでも構いません。
10年以上前の古いCPUというわけでもなければ、CPUのスペックはStable Diffusionを使う際にあまり関係ありません。
GPU
Stable Diffusionの要ともいえるパーツはGPU(グラフィックボード)です。おすすめは『VRAM』と呼ばれる画像処理専用のメモリ容量が12GB以上あるものです。
なお、Stable Diffusion WebUIでは、NVDIA(推奨)とAMDの2つのメーカーのグラフィックボード(GPU)に対応しています。
さらに、もともとStable Diffusion WebUIはNVDIA製のグラフィックボードに向けて作られていますのでNVDIA製のほうがよりおすすめ。
AMD製のものはスペックに対して価格が手ごろなこともあって人気ですが、ネットの情報も少ないため(特に日本語は)、何か不具合があったときに情報を取得できない可能性があるので取り扱いには注意しましょう。
もしVRAMの容量が少ないと以下のようなデメリットが生じます。
- 解像度が高いイラストを生成できない
- 一部の拡張機能が使えない
- 学習ができない
VRAMの容量はどれだけあっても足らないくらいなので、Stable Diffusionを使うことを前提としてPCを探すのであれば、VRAMにはお金をかけましょう。
ぜひ16GB・24GBくらいグラフィックボードを探しましょう。
もし予算に余裕があれば、それ以上のスペックのものを探すこともおすすめ。
ストレージ
おすすめのストレージ容量は、1TB以上のSSDがおすすめです。SSDのほうが起動が早いので、ストレスなく使えます。ただし、使い方によって必要なストレージ容量が異なるので、以下を参考にしてください。
- どのくらいの関連ツール(モデルなど)をダウンロードするか
- イラストを1日何枚生成するか
- イラストの解像度はどのくらい大きいか
使い方によってストレージ容量は変わってしまうので、決められないという人はとりあえず1TBあればいいでしょう。
また必要に応じて外付けHDDを取り付けるのも一つの手です。過去のデータを保存しておくだけなら、転送速度が遅いHDDを使うといった方法で対処できます。
なお4TBの外付けHDDは1万円以下でも手に入るので、状況に応じて買い足すという感じでOK。
メモリ
table Diffusion WebUIは、メインメモリが16GB以上であることが推奨されています。以下は公式の見解です。
The program needs 16gb of regular RAM to run smoothly. If you have 8gb RAM, consider making an 8gb page file/swap file, or use the –lowram option (if you have more gpu vram than ram).
つまり「プログラムをスムーズに実行するには、16GBの通常のRAMが必要です。」ということです。
なお普通にイラストを生成するうえでは16GBあれば十分ですが、LoRA学習など上級者向けの機能を使う場合は32GBのメモリはあったほうがいいです。
そのため、以下の基準で選ぶようにしましょう。
- 初期費用を抑えたい・初心者:16GB
- ガッツリ取り組みたい・趣味や仕事でも使いたい:32GB
なおメモリはほかのPCパーツと比較してもあまり高くはないので、あとから増設するという方法でもOKです。
そのため、とりあえずこれくらいでいいかな?くらいの選び方でも問題ありません。
Stable Diffusionの使い方:Hugging Face
Hugging Faceは、自然言語処理・機械学習に関するライブラリ開発やAIコミュニティを運営しているアメリカ企業が提供するサービスです。
基礎編
Hugging Faceは、自然言語処理の分野において特に有名で、様々な自然言語処理系のデータセットが提供されています。
テキスト入力欄に指示文(プロンプト)を入力し、実行ボタンを押すだけで簡単に画像を生成可能です。
とりあえずStable Diffusionを試してみたい方や、シンプルなインターフェースで手軽に画像生成を体験してみたい方に適しています。
Hugging FaceでStable Diffusionを利用する場合はHugging FaceのSpacesからStable Diffusionを提供する企業名「Stability AI」を検索し、「Stable Diffusion 2」を選択します。
そこからは使い方はとてもシンプル。テキスト入力エリアに、生成したい画像を説明するテキストを入力し、画像生成実行ボタンを「Generate Image」をクリックするだけです。
なお生成したい画像の英文イメージが湧かない方は、ページ下部の英文例が記載されたエリア(Examples)から好みの英文を選択するだけでも作れます。
応用編
基本的な操作はシンプルなので誰でも簡単に扱えますが、少し凝った使い方もできます。
例えばテキストに入れる英単語を変化させることやHugging Face独自のカスタムオプションを調整することで、画像のテイストをイメージに近い雰囲気へと変化することもできます。
画質を上げる場合には「quality8k」とテキスト入力するだけでOKです。
そのほかにも「quality4k」「realistic」「photorealistic」「Unreal Engine」などがありますので、色々なパターンを試してみてください。
Stable Diffusionの使い方:Dream Studio
Dream StudioはHugging Faceよりは素早く画像生成ができるのが最大のポイントです。そのため、すぐにStable Diffusionを使いたいという人にもおすすめ。
Googleアカウントを例に挙げて説明していきます。ログイン画面下部の「Continue with Google」から自身のGoogleアカウントを選択することでログインできます。
最初に25クレジットが付与され、最大125枚の画像を出力可能です。
なお、消費するクレジット量は、プロンプトの複雑さや画像の出力枚数などの条件によって増減します。
クレジットがなくなったら、10ドルで1,000クレジットを追加購入する必要があります。
基礎編
「メニュー」画面では、画像生成を行うタブ「Dream」や、過去に生成した画像を保存する「History」、初心者向けのテキスト生成のガイドが記載された「Prompt Guide」のほかに、「FAQ」も表示されています。
なお画面真ん中の広い部分が画像が生成される場所です。
画面右側にある部分は生成画像の細部(detail)を調整する機能です。それぞれ以下のような意味があるので覚えておきましょう。
- 「Width」:画像の幅
- 「Height」:画像の高さ
- 「Cfg Scale」:テキストの再現度
- 「Steps」:画像生成にかかるノイズ除去の回数
- 「Number of Images」:生成する画像の枚数
- 「Sampler」:ノイズ除去を行うアルゴリズムの指定
- 「Model」:Stable Diffusionのバージョン
- 「Seed」:画像生成に使用する乱数の初期値
画面下部にはテキストを入力する部分があり、隣の「Dream」タブをクリックすることで実行となります。
応用編
応用編では、AIイラスト界隈で流行している浮世絵風で生成してみましょう。
プロンプトはそのままにしておいて葛飾北斎の浮世絵でリクエストします。
その際には「An ukiyoe painting of a dream of a distant galaxy in Katsushika Hokusai style.」とテキストに入力します。
写実的な描写からかなり浮世絵のタッチへと変化するので、別の絵のようなタッチになるのが楽しめます。
Stable Diffusionの使い方:Mage.space
Mage.spaceもHugging Faceと同様に、回数無制限・ログインなしですぐにStable Diffusionを無料で利用できます。
画面中央にあるテキスト欄にプロンプトを入力するだけで画像を作成できるため、操作も簡単です。
有料プランは月額4ドルの「ベーシックプラン」と月額15ドルの「プロプラン」があります。
ベーシックプランの場合は複数のセッションを同時に実行することができるので、効率的に多くの画像を作成できるようになります。
プロプランではそれに加えてバナー広告非表示やさまざまな生成モデルの選択、GIF画像の生成、元画像から別画像の作成もできるのでより凝った画像生成を可能としています。
基礎編
Mageもシンプルに作られており「テキスト入力エリア」、「画像の生成ボタン」、「オプション設定」だけとわかりやすいです。
中央にあるテキスト入力欄に任意のプロンプトを入力し、右側の「→」をクリックすることで画像が生成されます。
入力窓の下にある「View Option」から以下のような条件も無料で指定できます。
「 アスペクト比」:
シネマ(16:9)
ランドスケープ(3:2)
スクエア(1:1)
タブレット(2:3)
スマートフォン(9:16)
「 画質」:
低め
高め
「 AIがプロンプト内容に従う度合い」:
自由(緩め)
普通
厳しめ
非常に厳しめ
実行後に新たなウィンドウが開き、出力結果の画像および指定した条件が表示されます。
なおスタイルや縦横比なども指定し、より高品質な画像を作成したい場合は、Dream Studioが適しています。
ただし、Dream Studioはクレジット制限がある点に注意しましょう。
応用編
画像変化においてはMage.spaceが得意としています。
例えばトップページの「View Option」を選択し、「guidance scale」を「Very Strict」に設定します。
なお「guidance scale」はプロンプトの忠実度を表す値なので、作家の画風に近づけたい場合に有効です。
「negative prompt」で「人間」を指定すると、人物の居ない綺麗な風景画を生成します。
つまりnegative promptに指定したプロンプトが描かれないように生成画像が調整されるということです。
Stable Diffusionを利用する際の注意点
画像生成に時間がかかる場合がある
画像生成AIは、複雑な計算や処理を行うため、画像生成には時間がかかることがあります。
中でも解像度の高い画像や複雑なデザインをリクエストした場合の画像生成は、多くの時間がかかってしまう可能性があります。
パソコンのスペックにも影響しますが、十分な時間を設けて使うようにしましょう。
倫理と法的な制約
AI画像生成のソフトを使用する際には、倫理と法的な制約に留意する必要があります。
倫理的な面では、他人のプライバシーや人権を尊重することが重要です。無断で他人の顔写真を使用したり、不適切なコンテンツを生成したりすることは避けなければなりません。
また、人種、性別、宗教、性的指向などへの差別や偏見を助長するような画像生成も避けるべきです。
法的な制約としては、著作権や商標法の規定に従う必要があります。他人の著作権を侵害する画像生成や商標を不正使用する生成は違法です。
常に安定した画質の画像を生成できるとは限らない
AI画像生成のソフトは、常に安定した画質の画像を生成するとは限りません。
生成される画像の品質は、さまざまな要素に依存します。例えば、トレーニングデータの品質や量、モデルのアーキテクチャ、パラメータの設定などが影響を及ぼします。
また、AI画像生成は統計的な手法を用いており、ランダム性も組み込まれています。
そのため、同じ入力に対して異なる結果が得られることもあります。
安定した画質を求める場合は、モデルのトレーニングやパラメータの調整、データのクオリティの向上などの取り組みが必要となります。
さらに、AI画像生成においては、生成された画像の評価や修正が必要な場合もあります。
著作権やライセンスの考慮
著作権やライセンスは、AI画像生成において重要な考慮事項です。生成された画像が他人の著作物を含んでいる場合、無断使用や著作権侵害になる可能性があります。
そのため、著作権法やライセンスに基づいて法的な制約に従う必要があります。
データのライセンスや利用条件を確認し、それに従って使用しましょう。
特に商業利用や再配布などの制約がある場合には、それらの条件を遵守することが重要です。
また、AI画像生成には、有名人やパブリックフィギュアなどの肖像権やパーソナリティ権も関わってきます。
他人の顔写真や肖像を生成する場合は、その個人の同意や適切な法的手続きを経る必要があります。
一部の画像が生成できない場合がある
AI画像生成において、一部の画像が生成できない場合があります。これは、以下のような理由によるものです。
- トレーニングデータの制約: 使用されたトレーニングデータセットには、特定のカテゴリや属性が不十分な場合があります。そのため、生成される画像にはそれらの要素が欠落してしまうことがあります。
- コンテキストの理解不足: AIは画像を単純なピクセルの集まりとして扱うため、コンテキストや意味の理解に限界があります。その結果、複雑な構造や抽象的な概念を持つ画像の生成が困難な場合があります。
- 制約や制限の設定: 使用されたモデルやアルゴリズムには、生成される画像に対して特定の制約や制限が設定されている場合があります。例えば、特定のスタイルや品質基準に合致しない画像を生成しないように制御されている場合があります。
これらの制約や限界により、AI画像生成はすべての種類の画像を完璧に生成するわけではありません。
技術の進歩により改善される可能性もありますが、現時点では一部の画像生成には限定があることを認識しておく必要があります。
バイアスや偏見の存在
AI画像生成には、バイアスや偏見の存在が懸念されます。
AIはトレーニングデータから学習するため、それらのデータに潜んでいる人間のバイアスや偏見を反映する可能性があります。
- 人種や性別のバイアス: トレーニングデータに偏りがある場合、生成された画像において特定の人種や性別に対するステレオタイプや偏見が強調されることがあります。
- 社会的な偏り: トレーニングデータが社会的な偏りを持つ場合、AI画像生成の結果もそれに合わせた偏りを反映することがあります。例えば、職業や身体的な特徴における社会的な不平等を強化するような画像が生成される可能性があります。
- 内在的なバイアス: AIはトレーニングデータに基づいて予測を行いますが、その結果はトレーニングデータの特性やパターンに制約される傾向があります。これにより、新しいアイデアや多様性に対する柔軟性が制限される場合があります。
これらのバイアスや偏見は、AI技術の進展と適切な対策によって軽減される可能性があります。
適切なトレーニングデータの収集やバイアスの検出、修正手法の導入などが重要です。
また、倫理的な観点からも、バイアスの存在とその影響を理解し、AIの使用や結果の評価に慎重に取り組む必要があります。
Stable Diffusionの用語説明
Stable Diffusionを使う際に一番よく使う「txt2img(テキストからイラストを生成)」における用語説明をしていきます。
Stable Diffusion checkpoint
Stable Diffusion checkpointは、選択しているcheckpointの種類が表示されている部分です。これは「学習済みのデータ」のことを指しており、どんな画像を基として学習したモデルなのかがわかります。
基準としている画像によって生成されるイラストのテイストが変化するというものです。
Prompt
プロンプトも重要な単語なので覚えておきましょう。プロンプトは生成してほしいイラストの特徴をStable Diffusionに指示するために必要です。
プロンプトに生成してほしい単語や文章を入力して「Generate」を押して生成を待ちます。
もしイラストが気に入らなければ、再度Generateボタンを押すと何回でも新しく生成してくれます。
つまり良いイラストと出会うためには、『Promptを調整しつつひたすら生成を繰り返す』という作業が必要になることは覚えておきましょう。
Negative prompt
Promptとは逆で、「生成してほしくない特徴」をStable Diffusionに指示する項目です。
例えば『しっぽのない犬のイラスト』を作る場合を考えましょう。こんなときに活躍するのがNegative prompt。
- Prompt:a dog(犬のイラストを生成して)
- Negative prompt:tail(しっぽは描かないで)
この指示をすることで、しっぽがない犬のイラストが生成されます。ただし必ずしもイメージしているようなイラストでない場合もあります。
Sampling method
イラスト生成時のアルゴリズムで、生成されるイラストの絵柄と生成速度に影響します。「Sampler」と表示しているサイトも多いですが、どちらも同じです。
画面左側に表示されますが、種類がとても多くて最初のうちはどれを選べばいいかわからないことが多いでしょう。
なお使用するモデルによっては特定のSampling methodを推奨しているものもあるので、推奨されているものを選ぶのがおすすめです。
特に指定がない場合は、基本的にDDIMがおすすめ。少ないstep数で高品質なイラストを生成してくれます。
また、Sampling stepsの下にはRestore faces・Tiling・Hires.fixという3つのチェックボックスがあります。これはいずれも生成されるイラストを補正する要素です。
Restore faces
「顔を左右対称にする」という補正をかけてくれるのですが、古い機能なのであまり触らなくてもOKです。
Tiling
Promptの内容をイラスト全体に敷き詰めてくれる機能ですが、壁紙や同じ画像を一面にちりばめたい場合に使える機能です。
Hires.fix
Hires.fixを使うと「高画質のイラストを生成する」という指示を以下の3つに分けてくれます。
- STEP1:標準サイズでイラストを生成する
- STEP2:イラストを拡大する(このとき画質は荒くなる)
- STEP3:荒く拡大されたイラストをimg2imgできれいにする
モデルは高画質のイラストを生成するのが苦手なため、いきなり高画質のイラストを生成しようとすると上手くいかない可能性が高いです。
そこでHires.fixを使うことではじめに標準的なサイズでイラストを作った後に高画質化していくことで元の構造をそのままにしつつも画質だけを向上することができます。
まとめ
Stable Diffusionの使い方について解説していきました。
Stable Diffusionはテキストから画像を生成する機械学習モデルのことで、絵に自信がない人でもまるで画家のようなイラストを生成することができます。
ブラウザ上で使う方法と、パソコンにダウンロードして使う方法の2種類がありますが、初心者の場合やとりあえず使ってみたいという人はブラウザ上での利用がおすすめです。
Hugging Faceをはじめ、様々なツールが用意されているのでStable Diffusionを使いたい人は自分にあったツールを選んで、イラスト生成を楽しんでみましょう。