2024年2月15日にOpenAIから公開された動画生成AI「Sora」は、ほかの動画生成AIにはないクオリティの動画を最長1分という長さで生成できるのが特徴です。
それまでの動画生成AIは数秒くらいの動画しか生成できないのが難点でしたが、Soraはその問題を解決し、さらに画質の良さにも強みがあります。
動画を作ったことがある人も、作ったことはないけど興味がある人はSoraを使った動画の作り方を知りたいと思うのではないでしょうか。
そこで今回は、動画生成AI「Sora」の使い方をはじめ、Soraの魅力に迫っていきます。
動画生成AI「Sora」とは
まずはSoraが作った動画を見てみましょう。1分ほどある動画ですが、本物のようにとてもリアルです。
注意深くみれば、看板や標識が日本語らしくないので、実写ではないことがわかるといったレベルのクオリティです。
引用元:https://openai.com/sora#capabilities
何の情報もなく、いきなりこの動画を見ただけでは多くの人が本物の風景と間違えてしまうほどの高品質です。
しかもそれが1分近くという長さなのにも驚きです。
そのほかにも以下のようなものも公開されています。
引用元:https://openai.com/sora#capabilities
こちらは10秒ほどの短い動画ですが、まるで本物のガラス容器に妖精のような小人が中にいます。
中の妖精だけCGかと思いきや、動画すべてがAIによって生成されたものだからすごいですよね。
Soraを使える人
現在は、SoraはOpenAI外のデザイナーや映画製作者など、特定の分野の専門家にも限定的に提供されています。
動画生成による悪用・著作権など、まだまだ検討すべき事柄がたくさんある業界でもあるため、すぐに一般公開というわけにはいかないかもしれません。
動画生成AI「Sora」ができること・機能
Text-To-Video
「Text-To-Video」はSoraの最も強みとしている機能の1つで、テキスト(プロンプト)の入力でその内容に従って動画を自動生成してくれるものです。
具体的には以下のようなことが可能です。
- ストーリーやシナリオを入力すると、その内容に基づいて動画を生成する。
- 商品やサービスの説明を入力すると、その内容に基づいて商品説明動画を生成する。
- ニュース記事を入力すると、その内容に基づいてニュース動画を生成する。
- レシピを入力すると、その内容に基づいて料理動画を生成する。
「Text-To-Video」は、動画制作の作業を効率化し、より高品質な動画を作成することができます。また、動画制作の経験がない人でも、簡単に動画を作成することができます。
例えば以下のプロンプトを入力したときに生成された動画を紹介します。
【Prompt: A corgi vlogging itself in tropical Maui.】
引用元:https://openai.com/sora#capabilities
Prompt: The Glenfinnan Viaduct is a historic railway bridge in Scotland, UK, that crosses over the west highland line between the towns of Mallaig and Fort William. It is a stunning sight as a steam train leaves the bridge, traveling over the arch-covered viaduct. The landscape is dotted with lush greenery and rocky mountains, creating a picturesque backdrop for the train journey. The sky is blue and the sun is shining, making for a beautiful day to explore this majestic spot…
以上2つの動画も背景含めすべてSoraによって生成されたものです。
人や動物の場合、よく見れば違和感を感じるレベルですが、無機物になるともう本物かどうか区別がつかないレベルではないでしょうか。
Image-to-Video、Video-to-Video
Soraはテキスト入力以外にも画像や動画入力による動画生成も可能としています。
そのほかには画像からアニメーションを作ることも。
- 1枚の画像を入力すると、その画像をアニメーション化して動画を生成する。
- 複数の画像を入力すると、それらの画像を繋ぎ合わせてスライドショー動画を生成する。
- 画像とテキストを入力すると、それらを組み合わせて説明動画を生成する。
Sora は、画像とプロンプトを入力として動画を生成できます。
DALL・Eで生成された画像をアニメーション化
OpenAIの発表では、DALL・E2およびE3で生成された画像からアニメーション化した例を挙げています。
たとえば、【A Shiba Inu dog wearing a beret and black turtleneck.】とプロンプト入力し、生成された画像とSoraがそれをもとに生成した動画を紹介します。
引用元:https://openai.com/sora#capabilities
画像1枚だけで細部まで高クオリティな動画が生成されます。
生成された動画を拡張させる
画像→動画の生成以外にもそもそもの動画を前後に拡張させる機能も持っています。
3つの動画はどれも違うところから始まっていますが、最後は同じところで終わっているというもの。
引用元:https://openai.com/sora#capabilities
ドラマティックでテクニカルな動画であってもSoraにかかればあっという間です。
動画の編集
動画の拡張機能を使えば、動画の編集も簡単にできます。元の動画が以下のものです。
そして以下が編集した後の動画です。
引用元:https://openai.com/sora#capabilities
緑多い場面での風景に変わりました。当然ですが車への光の入り方などもきちんと表現されています。
動画の接続
例えば複数の動画をつなげる際に違和感なくつなげることも可能です。
以上の2つの動画を下のような1つの動画に生成できます。
引用元:https://openai.com/sora#capabilities
新しいシミュレーション能力
Soraは今までの動画生成AIにはできなかった「シミュレーション能力」も持っています。
カメラ移動・回転、人物や建物などが空間内を移動する動画の生成も可能です。
引用元:https://openai.com/sora#capabilities
もちろんこのシミュレーション動画でさえも、テキスト(プロンプト)入力だけでできてしまいます。
画像生成
Soraは、動画だけでなく画像生成も得意としています。最大 2048×2048 の解像度までさまざまなサイズの画像を生成できるので、大きな画像を作りたい人にもおすすめです。
引用元:https://openai.com/sora#capabilities
非常に高いクオリティの画像も生成できてしまいます。まるで本物の人間のような画像がプロンプトの入力だけでできてしまいます。
Soraに使われている技術
ビジュアルデータのパッチ化
ビジュアルデータのパッチ化は、画像や動画を小さな部分に分割し、それぞれのパッチを独立した情報として扱う技術です。
これは、まるでジグソーパズルのピースのように、画像や動画を小さなピースに分解して扱いやすくするイメージです。
まず動画を低次元の潜在空間に圧縮し、次に表現を時空間パッチに分解することで、動画をパッチに変換するという順番で動画の生成を行っています。
Video compression network
「Video compression network」とは「動画圧縮ネットワーク」といい、動画のファイルサイズを小さくしながら、画質をできるだけ維持する技術のことを指します。
これは、インターネットやモバイルネットワークでの動画配信を効率化するために重要な技術です。
動画をフレームと呼ばれる静止画の連続体として分割し、各フレームの特徴を分析し、冗長な情報を除去します。
そのあとに除去した情報をエンコードして、動画ファイルに保存するという流れで生成されます。
動画圧縮ネットワークのメリットとしては、以下のようなことが挙げられます。
- インターネットやモバイルネットワークでの動画配信を効率化できる
- 動画の保存容量を節約できる
- 動画の読み込み時間を短縮できる
例えばYouTubeは、動画圧縮ネットワークを使用して、動画を効率的に配信しています。
Spacetime Latent Patches
Soraで使われている「Spacetime Latent Patches」は、動画の空間情報と時間情報を同時に捉えることで、動画編集や動画生成を効率化する技術です。
従来の技術では、空間情報と時間情報を別々に処理していたため、編集や生成に時間がかかったり、画質が劣化したりすることがありました。
Spacetime Latent Patchesは、動画を小さなパッチに分割し、各パッチの空間情報と時間情報をまとめて処理することで、これらの課題を解決します。具体的には、以下のような処理を行います。
- 動画を3次元空間に変換し、各パッチを空間と時間における位置情報と関連付けます。
- 各パッチの特徴を分析し、潜在変数と呼ばれる低次元ベクトルに変換します。
- 潜在変数を使って、動画の編集や生成を行います。
Spacetime Latent Patchesは、動画編集や動画生成の分野に大きな革新をもたらす技術として期待されています。
将来的には、この技術を活用することで、より高度な動画編集ツールや、より創造的な動画生成システムが開発されることが期待されます。
ビデオ生成用のスケーリングトランスフォーマー
ビデオ生成用のスケーリングトランスフォーマーは、大量の動画データから学習することで、高画質な動画を生成できる技術です。
従来の動画生成技術では、画質が粗かったり、動きがぎこちなかったりすることがありましたが、スケーリングトランスフォーマーはこれらの課題を克服し、よりリアルで自然な動画を生成することができます。
つまり、トレーニングを増やすにつれて徐々に質が向上するということです。
いかに、トレーニングを行った動画の成果を紹介します。
元動画
4倍
32倍
引用元:https://openai.com/sora#capabilities
スケーリングトランスフォーマーは、Transformerと呼ばれるニューラルネットワークアーキテクチャをベースにしています。
また自然言語処理の分野で大きな成果を上げており、近年では画像生成や動画生成などの分野にも応用されています。
スケーリングトランスフォーマーは、動画をフレームと呼ばれる静止画の連続体として捉え、各フレームの関係性を学習します。そして、学習した関係性に基づいて、新しいフレームを生成していきます。
将来的には、この技術を活用することで、よりリアルな映画やドラマ、ゲームなどの制作の効率化にもつながるでしょう。
言語理解
Soraのテキストキャプション生成技術は、単なる画像キャプション生成技術ではありません。動画の内容を理解し、言語化することで、動画の検索、理解、編集など、様々なタスクを支援する強力なツールとなります。
特にSoraは、DALL·Eの研究で得た成果、特にDALL·E 3からのキャプション再生成技術を使っており、動画の検索、理解、編集など、様々なタスクをサポートしています。
Soraは、動画の画像情報、音声情報、テキスト情報などを統合的に処理することで、動画の内容をより深く理解することができます。
これらの技術を組み合わせることで、Soraは動画の内容を理解し、詳細で説明的なキャプションを生成することができます。
さらに、言語理解技術の進歩により、動画の内容だけでなく、話者の意図や感情なども理解できるようになる可能性があります。
これにより、より高度な動画理解や編集が可能となるでしょう。
Soraの課題点
正確にモデル化できていない
Soraは、動画生成や編集など、様々なタスクにおいて大きな可能性を秘めたAI技術です。しかし、現時点ではいくつかの課題も存在します。その中でも、特に重要な課題が「正確なモデル化」です。
以下は椅子の動画ですが、砂から突然椅子が現れ、人間の手に持たれているのではなく、宙をういているような構図になっています。
引用元:https://openai.com/sora#capabilities
ガラスの動画においては、ガラスが割れるという表現が正確にできていません。
これらの課題は、主に以下の2つの原因によって発生します。
- データ不足: Soraは、学習に使用するデータ量がまだ十分ではありません。
- モデルの複雑性: Soraは非常に複雑なモデルであり、すべての状況を正確にモデル化することは難しい。
現時点では、より多くのデータを使用して、Soraの学習精度を向上させる・より複雑な状況にも対応できるような、より精緻なモデルを開発するといった取り組みが進んでいるとのこと。
出力に失敗することもある
Soraは、動画生成や編集など様々な可能性を秘めたAI技術です。しかし、現時点ではいくつかの課題も存在します。その中でも、特に重要な課題の一つが「出力の失敗」です。
引用元:https://openai.com/sora#capabilities
なおエンティティとは、動画内の人物、動物、物体など、個別に認識される要素のことを指します。
エンティティ数が多いシーンでは、Soraは以下の理由から出力に失敗する可能性が高くなります。
- 処理負荷の増加: エンティティ数が多いと、それぞれのエンティティを認識し、処理する必要があります。そのため、処理負荷が増加し、計算資源が不足して出力に失敗する可能性があります。
- 複雑な相互作用: エンティティ数が多いと、エンティティ間の相互作用も複雑になります。これらの相互作用をすべて正確に処理することは難しく、処理に誤りが発生して出力に失敗する可能性があります。
- データ不足: エンティティ数が多いシーンのバリエーションは非常に多くなります。そのため、すべてのバリエーションを学習するには十分なデータを持っていない可能性があり、学習不足のために出力に失敗する可能性があります。
例えば、以下のシーンはエンティティ数が多く、出力失敗が起こりやすいシーンの例です。
- 動物園のシーン: 動物園には、様々な種類の動物がたくさんいます。これらの動物をすべて認識し、それぞれの動きを処理する必要があります。
- 街中のシーン: 街中には、人や車、建物など、様々なエンティティがたくさん存在します。その際、のエンティティをすべて認識し、それぞれの動きを処理する必要があります。
- スポーツの試合: スポーツの試合では、選手や観客など、たくさんの人が動いています。は、人の動きをすべて認識し、処理する必要があります。
これらの改善として、モデルの改善や計算資源の増加、データ量を増やすといった取り組みを通して正確に出力できるように開発が進められています。
Soraの活用方法
画像から動画を作成
Soraは、テキストや簡単な指示に基づいて、高品質な動画を生成できるAIです。その驚異的な能力は、静止画から動画を作成する「画像アニメーション」にも発揮されます。
静止画に動きを与える方法は様々です。既存のフレーム間に自動で中間フレームを生成し、滑らかな動きを実現したり、画像内の物体や人物を認識して個別に動きを付与したりすることもできます。
さらに、物理法則に基づいてリアルな動きを生成したり、特定の動画スタイルを抽出して静止画に適用することで、アニメーションに統一感を持たせることも可能です。
これらの手法を組み合わせることで、Soraは静止画に奥行きと生命力を与え、見る人の心を惹きつける動画へと昇華させます。
アニメーション
Soraは、AIを活用した日本語テキスト生成サービスです。その機能の一つに「アニメーション」への活用が挙げられます。
テキストを入力するだけで、ストーリーに沿ったアニメーションを自動生成できます。セリフや場面描写だけでなく、キャラクターの動きや表情まで表現可能です。
クリエイティブ動画
YoutubeやTiktokなど、動画を作って多くの人に見てもらい、いわゆる「バズ」を狙う人も多いです。
そんな人たちにもSoraはとても大きな貢献をするでしょう。
一般的に自力で動画を作成する時には、まず動画撮影の企画から始まり、撮影・編集作業といった工程を必要とします。
しかしこれにはとても多くの時間や手間がかかります。
Soraであれば、企画は練ってしまえばあとはプロンプトの入力によって動画が自動的に生成されます。
短時間で動画を生成できるので、企画力がある人であれば魅力的な動画をすぐにいくつも作ることができるということです。
広告・プロモーションの作成
近年、情報過多の時代において、消費者の心を掴む広告・プロモーションはますます重要になっています。
しかし、効果的な広告・プロモーションの作成は、多くの時間と労力、そして専門知識を必要とします。
そこで、AI日本語テキスト生成サービス「Sora」を活用することで、誰でも手軽に、そして効果的な広告・プロモーションを作成できるようになります。
広告・プロモーションのストーリーをテキストで記述し、Soraで動画化することで、視覚的に訴求力のあるコンテンツを作成できます。
アニメーションを使っての広告作成であれば、製品説明やサービス紹介など、説明を伴うアニメーションを制作できます。
複雑な内容も視覚的に分かりやすく伝えられるため、教育や研修にも有効です。
そして実写映像に視覚効果(VFX)を加えることで、映画やドラマのような迫力のある映像表現を実現できます。
動画のOP・ED動画
近年、アニメのOP・ED動画は、作品の世界観を表現し、視聴者の心を掴む重要な役割を担っています。
しかし、高品質なOP・ED動画を制作するには、専門的な知識や技術、そして時間とコストが必要となります。
そこで、AI動画生成サービス「Sora」を活用することで、誰でも手軽に、そして高品質なアニメのOP・ED動画を制作できるようになります。
歌詞やストーリー、イメージなどをテキストで記述し、Soraで動画化することで、思い通りのOP・ED動画を制作できます。
既存動画の編集
Sora」は、動画編集機能も搭載しており、既存動画の編集にも活用できます。
シーンの切り抜きやつなぎのほかに、被写体以外の背景のみを編集した動画など、人間がやる場合はとても手間のかかる作業であっても、プロンプトの入力だけで行えます。
2024年2月時点ではどれくらいのレベルで編集ができるのかは公表されていませんが、今後もクオリティが上がっていくことは間違いないでしょう。
違う動画を組み合わせる
複数の動画を組み合わせる機能も搭載しており、様々な用途に活用できます。
OpenAIが公表している動画には、海辺の町の動画とクリスマスのシーンを組み合わせた動画を作ることができます。
医療場面
「Sora」は、医療現場における様々な課題解決に貢献できる可能性を秘めています。
複雑な医療情報を分かりやすくアニメーションで説明することで、患者の理解度向上に貢献できます。専門用語を避け、患者に合わせた言葉遣いで説明することで、より効果的なコミュニケーションを実現できます。
そして医療従事者向けには、手術や治療の手順をアニメーションで説明することで、医療従事者のスキルアップに貢献できます。3Dモデルを用いることで、よりリアルな視覚体験を提供できます。
そして医療情報の可視化にも貢献できるかもしれません。
検査結果や患者の病状をアニメーションで可視化することで、医療従事者間の情報共有を促進できます。
科学
科学の分野でも将来的にSoraの活躍のチャンスはあるかもしれません。
例えば複雑な研究結果をアニメーションで可視化することで、論文や学会発表の理解度向上に貢献できます。
データ分析結果を分かりやすく表現することで、より効果的な情報伝達を実現できます。
そのほか、科学論文の内容をアニメーションで要約することで、論文の理解度向上に貢献できます。
専門用語を避け、分かりやすく表現することで、より多くの人に論文の内容を理解してもらうことができます。
教育場面
Soraは教育現場においても活躍できるかもしれません。例えば、個別学習においては生徒一人ひとりの理解度に合わせた学習コンテンツを作成することで、個別学習を実現できます。
教科書の内容をアニメーションで説明することで、より分かりやすく学習できます。複雑な概念や抽象的な内容を、視覚的に理解しやすい表現で伝えることができます。
理解が追いついていない生徒には、より基礎的な内容の動画を提供し、理解が早い生徒には、より高度な内容の動画を提供できます。
また実物のように完成度の高い動画を生成できるメリットとして、体験学習においても活用できるでしょう。
実際に体験することが難しい内容を、アニメーションで疑似体験できます。歴史上の人物や出来事、自然現象などを、リアルに再現することで、より深い理解を促すことができます。
シミュレーション動画の作成
OpenAIがSoraのことを「ワールドシミュレーター」と説明しているだけに、Soraはこれまでの動画生成AIとは一線を画す存在を証明する「シミュレーション能力」を有しています。
公開されている動画に「Minecraft」というテキスト(プロンプト)を入力して生成された動画があります。
まるでMinecraftをプレイしているかのようにキャラクターの動き、世界観などがしっかりと構成されたつくりになっています。
そのほか製品の開発場面において設計図や試作品に基づいて、製品の動作や性能をシミュレーション動画の生成もできるでしょう。
観光業界
Soraによって生成される動画は観光業界でも役立つかもしれません。
実際に旅行に行く前に、観光地の風景や観光スポットの様子をアニメーションで疑似体験できます。
つまりまるでその場にいるかのような動画が見られるので旅行計画の際の資料としても使えるということです。
そのほか、観光地の歴史や文化、見どころなどをアニメーションで分かりやすく説明できます。外国人観光客向けに、多言語対応も可能です。
また交通案内でもSoraが生成した動画が役立ちます。
観光地の交通機関の乗り換え案内や、徒歩での道案内などをアニメーションで分かりやすく説明できます。外国人観光客向けに、多言語対応も可能です。
Soraは、観光業界における情報発信の強化、観光客の利便性向上、観光地の魅力向上など様々な場面でのニーズが高まるのではないでしょうか。
まとめ
Soraの使い方について紹介していきました。テキスト(プロンプト)の入力だけで、誰でもすぐにクオリティの高い動画が作れてしまうのが強みです。
従来は数秒程度しか作れなかったですが、Soraにかかればなんと1分程度の長さのものが作れます。
またイラストから動画にすることや、動画と動画を違和感なくミックスさせるといった技術も可能なのが素晴らしい点です。
2024年2月時点ではまだ一般公開されていないのですが、ChatGPT Plusのユーザーが優先にSoraのサービスを利用できるかもしれません。
気になる方は今後の発表をチェックしてみましょう。