Sora は、ユーザーのプロンプトに忠実で高い視覚品質を維持するビデオを生成することができます。Sora はまた、複数のキャラクター、異なる動きのタイプ、背景が互いにどのように関連しているかを理解し、それらを含む複雑なシーンを生成する能力を持っています。その他の能力には、キャラクターと視覚スタイルを通じて一貫性を持たせながら、単一のビデオ内で複数のショットを作成することが含まれます。以下は、Sora によって生成されたビデオのいくつかの例です。
Sora は、ビデオ全体を生成したり、生成されたビデオを拡張できる拡散モデルであると報告されています。また、スケーリング性能を向上させる Transformer アーキテクチャを使用しています。ビデオと画像は、GPT のトークンと同様に、パッチとして表現され、これにより、より長い期間、解像度、およびアスペクト比を可能にする統合されたビデオ生成システムが実現しています。彼らは、Sora がテキストの指示により密接に従うことを可能にする DALL·E 3 で使用される再キャプション技術を使用しています。Sora は、与えられた画像からビデオを生成することもでき、システムが画像を正確にアニメーション化することを可能にします。
## 制限と安全性
Sora の報告された制限には、物理のシミュレーションと原因と結果の欠如が含まれます。プロンプトで説明された空間の詳細やイベント(例:カメラの軌道)も、Sora によって時々誤解されます。OpenAI は、損害と能力を評価するために、Sora をレッドチームとクリエイターに提供していると報告しています。