「DALL-E 3」は、OpenAI社が提供を始めた、ChatGPTを使って画像生成AIできるサービスです。
画像生成AIはいろんな企業からすでにサービス提供が開始されているので、すでに使ったことがある人も多いのではないでしょうか。
そこ今回は、DALL-E 3の特徴やほかの生成AIとの違いについてなど詳しく解説していきます。
DALL-E 3とは?
DALL-E 3は、テキストを入力しただけで高い解像度の画像を生成してくれる画像生成AIです。
OpenAI社が2023年9月21日にChatGPTの新機能に追加すると発表し、AI業界を驚かせたことで知られます。
なおこの機能は同年10月初旬くらいから有料版であるChatGPT Plusと、法人向けのChatGPT Enterprise向けにサービス提供が始まってます。
DALL-E 3の概要・スペック
前のVerであるDALL-E2と比べて圧倒的精度の高さを誇るプロンプトへの理解だけでなくニュアンスもしっかりと理解できるのが強み。
何度も指示文を書き直すといった手間やコストの削減にもつながります。
そしてChatGPT上で使えることがとても大きなポイント。チャット欄上でアイデアの提示をするだけで詳細な画像を自動生成してくれます。
DALL-E 3の利用料金
DALL-E 3はChatGPTとMicrosoftのBing Image Creatorで利用できます。
ChatGPTは毎月20ドル必要のChatGPT Plus、そして企業向けのEnterpriseの2つの有料プランでDALL-E3が利用できます。
DALL-E 3を使う際の著作権・商用利用は?
気になるのは著作権や商用利用の面ではないでしょうか。基本的にDALL-E 3で生成されたものの所有権は、指示をしたユーザー側にあります。
そして成人向けや暴力的・憎悪的なコンテンツの生成は制限されている点にも注目。
フェイクニュースの喧伝に使われないようにするために、公人の名前を入れたリクエストにも応えないようにする対策も順次進めれられています。
今後もルールを含めて様々な点での改善は行われるとみていいでしょう。
世界中の人が使う人を想定しての対策が様々に講じられていくことが予想されます。
DALL-E 3の使い方
ChatGPT-4の始め方
まずChatGPT-4を利用するにはまずアカウントの登録が必要です。
ChatGPTの公式サイトにアクセスすればすぐに登録可能なので、まずは公式サイトを見てみましょう。
アカウント自体はGoogleアカウントやMicrosoftアカウント 、Appleアカウンとでも登録可能です。
どのアカウントも持っていない場合でも、eメールアドレスがあれば登録自体は可能です。
対応しているアカウントまたはeメールアドレスを登録して、ChatGPT用のパスワードを設定すればまずはChatGPTを利用する準備が完了します。
ChatGPT-4に切り替える
GPT-4を使用する場合「ChatGPT Plus」という有料プランに切り替える必要があります。
支払いはクレジットカード決済になります。サブスク登録になるので、有料プランを中止する場合は解除を忘れないようにしましょう。
ChatGPT Plusに登録すると、チャットを始める前に「モデルの変更」が可能になり、そこでGPT-3.5かGPT-4を選択可能になります。
GPT-4の場合は時間当たりのメッセージ制限などもあるので、制限がかかってしまった場合はGPT-3.5に切り替えるということも可能です。
また、有料プランであるChatGPT Plusに登録していれば、混雑時にレスポンスが遅くなったり、返答がなくなるということが少なくなります。
DALL-E 3の始め方
DALL-E 3を導入する際の難しい工程はありません。
GPT-3.5かGPT4を選ぶタブで「GPT4」を選び、続けてDALL-E 3を選択するだけ。
もちろんGPT4に契約(課金)していることが前提です。
あとはいつも通りにチャット欄にプロンプトをテキストで入力するだけです。
プロンプトを入力すると画像の自動生成が始まります。1分もたたないうちに2枚の画像を生成し、提案してくれます。
この画像は商用利用も許可されているので、プレゼン資料や広告、マーケティング資料に使うのもOKです。
なお、2023年11月6日10時(日本時間11月7日午前3時)に開かれた、開発者向けの初のカンファレンス「OpenAI DevDay」では、「GPT-4 Turbo」や「GPTs」、「GPT Builder」、「GPT Store」や新APIなど様々な機能が次々と発表されました。
それぞれの機能については後述していきます。
Bing Image CreatorでDALL-E 3を利用する方法
無料でDALL-E 3を使う場合には、Bing Image Creatorの利用がおすすめです。
Image Creator for Microsoft Bing
にアクセスをしてMicrosoft アカウントにログインすれば使えるようになります。
画面上部にあるバーに、生成してほしいテキストを入力して「Create」のボタンをクリックするだけ。
1つのリクエストに対して2~4枚の画像が提案されます。
無料で画像を生成できるので、お試しで使いたい人におすすめですが、使用回数の制限が設けられている点に注意。
Bing ChatでDALL-E 3を利用する方法
基本的には「Bing Image Creator」と同じで、Microsoft アカウントにログインすることで使えるようになります。
ログインしたら画面下部にあるバーにリクエストしたい画像のプロンプトを入力します。
Enterキーまたは右側の矢印マークをクリックすれば自動的に画像生成が開始されます。
こちらでも利用回数に制限があり、ログインユーザーの場合は1日100回までチャットや画像生成が可能となっています。
ただし、ゲストユーザーは1日5回までしかチャットができず、画像生成はできないので必ずログインしてからにしましょう。
制限回数を超えてしまうと、新しい話題にうつるメッセージが表示されます。
新機能「gen_id」の使い方
2023年11月5日に加えられた新しい機能に「gen_id」があります。
これは、DALL-E 3で生成された画像に、固有IDを付与するという機能です。
つまりDALL-E 3で生成された画像を管理したり、ほかの人と簡単に共有できるというものです。
使い方も簡単で、生成された画像の右下に表示される「gen_id:xxxx~」という文字列が固有IDにあたります。
このIDはまったくのランダムに生成され、画像と一緒に保存されます。
画像を他の人に送りたいという場合は、IDを送るだけです。
gen-idを使って加工する
実は一度生成された画像は、さらに加工することができます。
例えば「フランダンスを踊る犬の画像を生成して」とリクエストした画像が生成されたものを加工することもできます。
「gen_id:xxxx~の犬を猫にしてください」と入力すると、フランダンスを踊っている犬が猫の画像に変更されます。
IDがわかっていれば、その画像を元に色々な画像へと変化させることができます。
新機能「All Tools」を使ってDALL-E 3で画像生成をする
従来、ChatGPTの様々な機能を使う場合にはそれぞれのツールに切り替えてからしか使えませんでした。
しかし今回のアップデートで追加されたAll Toolsはそれらの手間を一切なくした機能になります。
All Toolsは、ChatGPTの機能を切り替えないで、1つのチャット内だけですべて行える機能のことです。
そのため、画像生成以外にもグラグ作成や文章作成、リアルタイム検索などが連続してできるのが強み。
「All Tools」の機能:Browse with Bing
Browse with BingとはWebブラウジング機能のことでChatGPTでチャットしているときにChatGPTがインターネットの検索で最新の情報を得て回答に組み込んでくれるというツールのことです。
通常、ChatGPTは2021年9月までの学習データしか持っていないため、最新の情報を使った作業がほぼできないということで悩んでいる人も多いことでしょう。
そこで今回追加されたこの機能を使うことで、リアルタイム検索ができるというのが魅力です。
「All Tools」の機能:Advanced Data Analysis
Advanced Data Analysisは、日本語や英語などの自然言語を使ったPythonコードを生成し、それに基づいて命令を実行できるツールのことです。
この機能ならプログラミング言語が使えない人であっても、データファイルのアップロードから分析、複雑な数学的計算、グラフ作成といった専門的な作業が簡単にできる優れもの。
指示もシンプルで「データを分析する」とか「グラフ作成をして」とChatGPT上で命令をするだけ。
大量のデータ処理・入力を人間の手でする必要もないので、作業効率はもちろん、ヒューマンエラー防止にもつながります。
「All Tools」の機能:GPT-4V
GPT-4Vは画像認識機能のことで、わかりやすく言えばアップロードした画像を解析して、詳細なテキスト情報として提供するという画期的な機能です。
画像→テキストもしくはテキスト→画像への情報転換は今まで人の手によって行われることが多かったのですが、この機能を使うことでその手間を削減することができます。
たとえば冷蔵庫の中身を撮影して、その画像をGPT-4Vに分析した場合、冷蔵庫にある食材を使ったレシピを提案してもらうということができます。
そのほか、部屋の模様替えをするときのヒントとして、部屋の写真を使えば、配置や色・大きさなどを含めて様々な提案が受けられます。
文字情報ではなかなか表現しきれない状況を画像を通してより鮮明にかつ具体的に指示できるのが強みでしょう。
DALL-E 3をもっと活用するポイント
明確な指示を与える
- 具体的な対象や場面を指定:
- 具体的な対象や場面を指定すると、AIがより具体的で理解しやすい指示となります。例えば、「都会の夜景の中で、高層ビルがライトアップされている風景を生成してください」といった具体的な対象や場面を指定します。
- 詳細な特徴や条件を明示:
- 望む特徴や条件をできるだけ具体的に述べることが大切です。例えば、「大きな赤い花を咲かせた緑の樹木の下で、晴れた日差しの中でピクニックを楽しむ人々を描いてください」といった詳細な条件を含めることが役立ちます。
- 色や雰囲気の指定:
- 生成物の色や雰囲気についても具体的な指示を行います。例えば、「温暖で穏やかな色調で、幸せそうな雰囲気の家族のポートレートを描いてください」といった具体的な指定が含まれると、生成物が期待通りの感情を表現しやすくなります。
- 簡潔かつ明快な表現:
- 不要な冗長性を避け、簡潔で明快な表現を心がけます。指示がわかりやすいほど、AIが要求を正確に理解しやすくなります。
これらのポイントを考慮して、具体的で明確な指示を与えることで、AIが期待通りの生成物を出力しやすくなります。
詳細な条件を設定
詳細な条件を設定する際は、生成される画像に具体的な要素を指定します。
たとえば、「青い空に広がる山々の中で、夕焼けに染まる赤いホットエアバルーンを描いた風景を作ってください」といった条件を追加することで、AIは特定の色調や対象物の配置を理解しやすくなります。
複数の段階で調整
複数の段階で調整することは、一度の指示ではなく、逐次的にプロンプトを修正して目的の画像を得る手法です。
最初は基本的な指示から始め、生成された画像を見て不足している要素や修正が必要な部分を特定します。
その後、追加のプロンプトで補足的な指示を加えることで、AIによる生成が向上します。
例えば、「夏の海の風景を描いてください」という初期のプロンプトで生成された画像が不十分な場合、次に「波が青く輝く夏の海で、白い砂浜とココナッツツリーを追加してください」といった具体的な指示を追加することで、より具体的で満足のいく結果が得られる可能性があります。
ランダム性を利用
ランダム性を利用することは、生成される画像に予測できない変化や驚きを取り入れ、新しいアイディアやクリエイティブな成果を引き出す方法です。
単調なパターンではないほうが、興味深く多様な結果を得ることができます。
例えば、「抽象的な花の絵を描いてください」という指示にランダム性を加える場合、「抽象的な花の絵を描いてくださいが、花の形状や色に関してはランダムな要素を含めてください」といった追加の指示を行います。
このプロンプトにより、AIは生成される花の形や色において予測困難な変動を取り入れ、面白く多様な花のイメージを生成できるようになります。
試行錯誤
試行錯誤、つまり「トライ&エラー」は、異なるアプローチや方法を試してより希望する結果を見つけることも有効です。
画像生成AIにおいては、異なるプロンプトや条件を使用して生成される画像を評価し、望ましい結果を得るためにプロンプトを調整していきます。
この過程は反復的で、初めての試みから学びを得ながら、次第により効果的なアプローチを見つけ出すことが期待されます。
試行錯誤をすることは、一見遠回りのように見えるかもしれませんが、柔軟性と創造性の可能性を高めて、思わぬ良い画像が提案されることも期待できますよ。
コンテキストを利用してみる
コンテキストを利用する際は、生成AIに与えるプロンプトや指示に周囲の状況や関連情報を組み込みます。
この方法を試すことで、AIは特定の背景や文脈を理解しやすくなり、より適切な画像を生成することが期待できます。
例えば、「都市の公園で子供たちが遊んでいる風景を描いてください」というプロンプトにおいて、コンテキストを利用すると「晴れた日曜日に、都市の公園で元気な笑顔の子供たちが遊んでいる風景を描いてください」といった具体的なコンテキスト情報を加えることができます。
OpenAI DevDayで新機能が続々発表
OpenAI社がサンフランシスコで2023年11月6日10時(日本時間11月7日午前3時)に開始した開発者向けのカンファレンス「OpenAI DevDay」を開催しました。
そこでは、「GPT-4 Turbo」や「GPTs」、「GPT Builder」、「GPT Store」そして新しいAPIなど新機能が発表され、世界中が驚きました。
DALL-E 3に関係することといえば、「GPT-4」の中に、「Browsing」「Advanced Data Analysis」と「DALL-E 3」が統合されてシンプルで使いやすくなったとのこと。
「GPT-4(ChatGPT 4)」を選択すれば、「All Tools」が使えるということですね。
そのほかには、AI技術の最前線から新たなモデル「GPT-4 Turbo」が発表されたことも大きいです。
開発者だけでなく一般ユーザーにとっても有益な情報我慢s内でした。
GPT-4 Turboでは、なんと最大100,000語に相当する情報を処理できるほか、300ページを超える文量を一度に理解し処理できるという、前代未聞のレベルでした。
さらに情報の鮮度も2023年4月まで網羅しているなど、鮮度の高い情報に対するニーズにも対応しています。
まとめ
DALL-E 3の使い方について解説していきました。DALL-E 3はChatGPT上で画像生成が行える新機能です。
他の画像生成AIと比較すると、プロンプトの要求を正確に認識し、高精度な生成能力を発揮します。
2023年11月時点ではまだまだ始まったばかりの新機能なので、今後もアップグレードされていくことが予想されます。
DALL-E 3以外にも様々な機能が追加されたので、今後もアップデートをはじめ情報を楽しみにしていてください。