OpenAIは2026年3月14日、テキストから動画を生成するAIモデル「Sora 2.0」を正式リリースした。最大10分間の動画を4K解像度で生成でき、映像品質は従来モデルから飛躍的に向上。プロの映像クリエイターからも高い評価を得ている。
ChatGPT Plus/Pro加入者には即日提供が開始されており、API経由での利用も可能となった。
Sora 2.0の主な進化ポイント
Sora 2.0は、2024年末にリリースされた初代Soraから大幅なアップグレードが施されている。主な変更点は以下の通り。
| 項目 | Sora 1.0 | Sora 2.0 |
|---|---|---|
| 最大動画長 | 60秒 | 10分 |
| 最大解像度 | 1080p | 4K (2160p) |
| フレームレート | 24fps | 60fps |
| 物理法則の理解 | 基本的 | 高精度(流体・布・光) |
| カメラワーク | 限定的 | 完全制御(パン・ズーム・トラッキング) |
| 音声生成 | 非対応 | 環境音・BGM自動生成 |
| 生成速度(1分動画) | 約15分 | 約3分 |
競合モデルとの比較
AI動画生成の分野は急速に競争が激化しており、RunwayのGen-4、Pikaの2.0、中国発のKling 2.0など有力な競合が存在する。各モデルの性能比較は以下の通りだ。
AI動画生成モデルの性能比較(各社公表データ・独自テストより作成)
Sora 2.0は全項目で他モデルを上回っており、特に動画長と解像度の面で圧倒的な差をつけている。Runway Gen-4は最大30秒、Pikaは15秒が上限であるのに対し、Sora 2.0は最大10分まで対応する。
映像クオリティの飛躍
Sora 2.0で最も評価されているのが、物理法則に基づいた映像のリアリズムだ。初代Soraでは水の流れや布の動き、光の反射が不自然になるケースが多かったが、2.0では物理シミュレーションエンジンが統合され、自然な挙動を再現できるようになった。
具体的には以下のような改善が報告されている。
- 流体シミュレーション:水しぶき、雨、波の動きが写実的に表現可能
- 布の物理演算:風になびく服やカーテンの自然な動き
- 光と影:グローバルイルミネーション対応で、環境光や反射が正確に
- 人物の動作:指の動き、表情変化、歩行サイクルの破綻が大幅に減少
音声の自動生成にも対応
Sora 2.0の大きな新機能として、音声の自動生成がある。動画の内容に合わせて環境音(鳥のさえずり、車の走行音、群衆のざわめきなど)やBGMを自動で付加できる。
さらに、ナレーション用のテキスト読み上げ機能も搭載されており、動画にナレーションを付ける場合は別途音声を用意する必要がない。音声は多言語に対応しており、日本語にも対応済みだ。
ハリウッドも本格検討
映画・映像業界からの反響も大きい。複数のハリウッドスタジオがSora 2.0をプリビジュアライゼーション(撮影前の映像プレビュー)ツールとして採用を検討していると報じられている。
「Sora 2.0は映像制作のワークフローを根本から変える可能性がある。コンセプトアートからプリビズへの変換が数分で完了し、監督やプロデューサーが映像のイメージを即座に共有できる」
── 映像制作会社 元関係者
一方で、映像クリエイターの仕事が奪われるとの懸念も根強い。OpenAIはこれについて「Soraは人間のクリエイティビティを置き換えるのではなく、増幅するためのツール」とコメントしている。
料金プラン
Sora 2.0の利用料金は以下の通り。
| プラン | 月額 | 月間生成量 | 最大解像度 |
|---|---|---|---|
| ChatGPT Plus | $20 | 50本(各30秒まで) | 1080p |
| ChatGPT Pro | $200 | 無制限(各10分まで) | 4K |
| API(従量課金) | – | $0.50 / 秒(1080p) | 4K |
今後の展望
OpenAIは今後、Sora 2.0に画像からの動画生成(Image-to-Video)、動画の編集・延長機能、リアルタイムプレビューなどの機能を順次追加する予定としている。年内にはSora APIを活用したサードパーティアプリとの連携も計画されており、映像制作の民主化がさらに加速しそうだ。
AI動画生成はまだ発展途上の技術だが、Sora 2.0の登場により「テキストだけで映画レベルの映像を作れる」時代が一歩近づいたと言える。
ソース: OpenAI公式ブログ、Sora 2.0テクニカルレポート
関連記事: Runway Gen-4レビュー | Pika 2.0使い方ガイド | AI動画生成ツール比較まとめ