「生成AI」は学習済みのデータを活用し、新しいデータを生み出す技術です。この生成AIを利用すれば、テキストや画像、動画などのデジタルコンテンツを自動で生成することができます。
世界中の企業がさまざまなタイプの生成AIを開発してきましたが、革新的な動画生成AIとして注目されているのが、今回紹介する「Sora(ソラ)」です。
本記事では、動画生成AI「Sora」でできることや、メリット、課題について詳しく解説します。Soraで使われている技術についてもわかりやすく解説していますので、最後までご覧ください。
Soraとは?
Soraとは、OpenAI社が2024年に公開した、動画生成AIモデルです。OpenAI社といえばChatGPTを開発した企業として知られていますが、さまざまなタイプのAIサービスを開発しています。
このSoraという名前は、創造できる動画が無限にあることと、日本語の「空」にちなんで名づけられたと言われています。ユーザーはプロンプトを入力することで、高品質な動画を簡単に作成できます。
Soraの特徴は、ほかの動画生成AIツールと比べて詳細な風景やカメラワーク、キャラクターなどを自由に設定できる点です。たとえば、ドローンで撮影したカメラワークにするようにとプロンプトを入力すれば、実際にドローンで撮影した映像と遜色ない動画が作成されます。動画のクオリティーも実写と見分けがつかないレベルとなっています。
Soraは、ユーザーのより高いレベルの要求に応えられる動画を生成できるように、高度な言語理解能力を備えているのが特徴です。
Soraの公開日・料金は?
Soraの公式ページでは、プロンプトの例や、生成した動画の事例が多く公開されていますが、一般公開日は未定となっています。そのため、現段階では研究・開発中となっており、料金も発表されていません。引き続きOpenAI社の公式発表を待ちましょう。
Soraでできる5つのこと
Soraでできることは、大きく以下の5つです。
- テキスト→動画作成
- 静止画→動画作成
- 動画編集
- 画像生成
- 高度なシミュレーション
それぞれの内容について解説します。
テキスト→動画作成
テキストから動画を生成する機能(Text-To-Video)では、簡単なテキストで指示するだけで動画を生成することが可能です。Soraではプロンプトの内容を忠実に再現しつつ、キャラクターの動きや複雑な背景なども自然に再現できます。
これまでのText-to-Videoの動画生成AIの場合、長くても十数秒程度の動画しか生成できませんでしたが、Soraでは最長60秒の動画を生成できます。
参照:Sora AI
静止画→動画作成
Soraでは、静止画から動画を作成する機能(Image-to-Video)が搭載されているため、画像をアニメーション化できます。Soraに画像とテキストのプロンプトを入力することで、動画を作成できます。
動画編集
Soraでは、動画を拡張や編集する機能(Video-to-Video)も利用できます。
たとえば、被写体や構図が異なる2つの動画を組み合わせ、映画にあるような動画を作り出すことが可能です。撮影や編集に膨大な時間とコストがかかる動画も、AIで作成できます。
画像生成
Soraは、動画生成だけでなく高品質な画像を生成することも可能です。Soraの最大解像度は2,048×2,048となっています。
Soraはテキストから高品質な画像を生成するだけでなく、 ChatGPT有料版と比べてもより実写に近い動画も生成できるのが特徴です。
高度なシミュレーション
Soraでは、高度なシミュレーションも可能となっています。たとえば、紙飛行機の群れが渡り鳥のように木々の周りを飛び回っている映像などを作成することが可能です。
Soraに搭載されている3つの技術
Soraは、以下の3つの技術を用いて高品質な動画を生成しています。
- 拡散モデル(Diffusion Model)
- スケーリングトランスフォーマー
- 動画や画像をパッチに変換する技術
それぞれ詳しくみていきましょう。
拡散モデル(Diffusion Model)
拡散モデルとは、動画や画像を生成する際に利用されている技術のことです。
まずは、画像やテキスト、音声といったコンテンツに一度ノイズを加え、そこからノイズを段階的に取り除いていきます。この過程を経ることで高解像度のビデオを生成することができ、複雑なシーンや細部をリアルに再現することができるのです。
スケーリングトランスフォーマー
スケーリングトランスフォーマーとは、ノイズが多い情報が入力された際に元の奇麗麗な状態のパッチを予測する技術のことです。
動画生成において全体の一貫性を保つために不可欠な技術となっており、この機能によって複雑なシーンやキャラクターの細部をリアルに再現できます。
動画や画像をパッチに変換する技術
Soraでは、動画や画像を「パッチ」と呼ばれる単位で表しています。動画をパッチへと変換する際には、まず画像や動画を圧縮し、Soraが理解できるパッチに変換します。
動画や画像をパッチに変換することで、元の動画や画像をスピーディーに再構成し、鮮やかな映像を作ることが可能です。
Soraで動画を作成する4つのメリット
Soraで動画を作成するメリットは、以下の4つです。
- 臨場感のある動画を作成できる
- 実写やアニメーションなども生成できる
- 現実世界の街並みや世界観を再現できる
- 物理法則にのっとった動きも再現できる
それぞれのメリットについて解説します。
臨場感のある動画を作成できる
Soraは単一視点の動画だけでなく、多彩なカメラワークに対応できるのが特徴です。
たとえば、プロンプトに「ドローンカメラが旋回」と指定すれば、ドローンカメラが撮影しているような映像を作ることができます。
実写やアニメーションなども生成できる
Soraでは、実写やアニメーションなども生成できます。実写の場合、外観や動作・表情などの詳細をプロンプトに入力することでよりリアルな映像を作成することが可能です。また、俳優の名前なども指定できます。
以下のようなオリジナルのキャラクターやアニメーションも作成できます。
現実世界の街並みや世界観を再現できる
Soraでは、現実世界の街並みや世界観なども再現できます。たとえば、東京郊外を走る電車の窓に映る反射などの動画を作成することが可能です。
物理法則にのっとった動きも再現できる
Soraは人や動物などの自然な動きを学習するため、さまざまな表現が可能です。物理法則にのっとった動きをSora自らが学習する仕組みとなっています。
たとえば、以下の子犬の群れが雪の中から飛び出している動画では、雪の質感や雪が舞う様子がリアルに再現されています。
Soraの課題・問題点
現在、Soraの実用化が進められていますが、以下の2点が課題・問題点となっています。
物理シミュレーションや因果関係を再現できないケースもある
Soraは、物理シミュレーションや因果関係を動画として忠実に再現できないケースがあるのが課題です。
たとえば、以下の動画では5匹の子どものオオカミが追いかけっこをしている動画ですが、数匹は何もないところから急に現れており、違和感を覚える動画となっています。
生成された動画を悪用されるリスクがある
Soraを活用すれば、実在の人物を無断で登場させたり、偽の情報を拡散させたりするような動画も作成できます。Soraで生成した動画は、予想もしない形で悪用されるリスクがあるのが大きな課題です。
OpenAIでは、作成した動画を悪用されないようにするために、生成する動画に対するガイドラインを設けています。現在はより多くの方が利用できるように、ルール整備を速やかにで進めている段階です。
まとめ:Soraを活用してクリエイティブな動画を作成しよう
今回は、Soraの搭載機能や使われている技術、メリット、現在の課題について解説しました。
Soraは単一視点の動画だけでなく、多彩なカメラワークやアニメーション、オリジナルのキャラクターの作成など、複雑なニーズに対応できるのが魅力です。現実世界の街並みや世界観も忠実に再現でき、より高いクオリティーの動画を作成することができます。
Soraの公開日や料金などは、まだ発表がありません。公開日に関してはさまざまな憶測が飛び交っており、現在は安全に使えるように検証・改善が進められています。
料金については、無料版と有料版の両方がリリースされる可能性があります。ChatGPTと同じように無料版で基本機能を利用でき、一定以上の機能は有料版でのみ使えるといった形です。
Soraを自由に使えるようになれば、クリエイティブな動画をスピーディーかつ簡単に作成できるようになります。OpenAI社のプレスリリースでSoraに関する最新情報を確認するようにしましょう。
AI技術はこれからさらに発展していくと予測されているので、早い段階で基本的な活用方法を取り入れておくことが大切です。SEデザインでは、IT分野におけるBtoBマーケティング&セールス支援を行っており、35年以上の実績がございます。業務の効率化や顧客へのアプローチでお困りの際は、お気軽にSEデザインへご相談ください。