ビデオ生成モデル

完了

詳細については、「 テキストと画像 」タブを参照してください。

静的な画像に加えて、ビジュアル コンテンツをビデオとして使用することがますます期待されています。

Foundry からのビデオ生成モデルの使用

Microsoft Foundry には、元のビデオ コンテンツを作成するために使用できるビデオ生成モデルが含まれています。

3 つのビデオ生成モデルが表示されている Foundry モデル カタログのスクリーンショット。

Foundry のビデオ生成モデルは次のとおりです。

  • ソラ 1: ソラ は、Microsoft Foundry で利用可能になった OpenAI の最初 のテキストからビデオ へのモデルです。 テキスト プロンプトから短いビデオ クリップを生成し、画像を入力として使用してビデオ作成をガイドすることもできます。 ソラ 1 は、複数の解像度と期間をサポートしており、実験のために Azure OpenAI サービスと Foundry Video Playground を通じて公開されます。

一般的な用途:

  • 概念のビデオとストーリーボード
  • テキストの説明からの短いアニメーション
  • クリエイティブ ワークフローの視覚的なプロトタイプ作成

ソラ2(パブリックプレビュー): ソラ2 はファウンドリーの 次世代ビデオジェネレーションモデル であり、ソラ1の大幅なアップグレードを表しています。 テキスト→ビデオ、画像→ビデオ、ビデオ→ビデオ(リミックス)など、複数のモダリティをサポートしています。 ソラ2はまた、ビデオ全体を再生成する代わりに、ターゲット編集を可能にする オーディオ生成、改善されたリアリズム、およびリミックス機能を導入しています。 Azure OpenAI v1 API と Foundry Video Playground を介して利用でき、責任ある AI セーフガードが組み込まれています。

一般的な用途:

  • マーケティングとプロモーションビデオ
  • 映画の概念のプレビューと予告編
  • 教育的でイマーシブなメディア コンテンツ

重要なこと, ソラモデルは、現在、Foundryを介して直接提供される唯一のネイティブビデオ生成モデルです. その他の Foundry モデルはマルチモーダル (テキスト、画像、オーディオ) でもかまいませんが、ビデオ出力 は生成されません 。 ソラ 1 とソラ 2 には、実際のユーザーの制限、著作権で保護されたキャラクター、特定のコンテンツ タイプなどの 責任ある AI 制限が含まれています。

Foundry プレイグラウンドでのビデオ生成

適切なビデオ生成モデルをデプロイしたら、Foundry ポータルのプレイグラウンドでテストできます。 プレイグラウンドでは、ビデオのサイズや再生時間などのパラメーターを指定することもできます。

パラメーターとプロンプトが表示された Foundry Playground のソラ モデルのスクリーンショット。

ビデオ生成モデルに対するプロンプトには、目的のビデオ内のコンテンツの説明が含まれている必要があります。 数分後に、モデルによってビデオが生成されます。

プレイグラウンドのサンプル コードを確認できます。

サンプル コードを含む Foundry Playground のソラ モデルのスクリーンショット。

サンプル コードでは、ビデオ生成に REST インターフェイスを使用します。

ビデオ生成に REST インターフェイスを使用する

Foundry REST インターフェイスを使用して、ビデオ生成ジョブを要求し、完成した MP4 をプログラムで取得できます。 プログラムによるビデオ生成を使用すると、ビデオ生成プロセスを自動化できます。

REST API (Representational State Transfer API) は、プログラムが HTTP を使用して通信できるようにする Web インターフェイスです。 そのインターフェイスの上に構築された開発者向けツールキットとしての SDK。 基になる REST API を常に操作できます。特に、使い慣れたプログラミング言語の SDK が存在しない場合です。 curl (クライアント URL の短縮形) を使用して、REST API を呼び出したり、REST API と通信したりすることができます。 Curl は、インターネット経由でデータを送受信するために使用されるコマンド ライン ツールです。 コアとなる curl: HTTP 要求 (およびその他のプロトコル) を作成し、データをサーバーに送信し、サーバーの応答を受信して出力します。

ビデオ生成はリソースを大量に消費し、通常は 非同期ジョブとして実行されます。

非同期とは、次のことを意味します。

  1. ジョブの作成
  2. ジョブの状態をポーリングする
  3. ジョブが完了したら、ビデオをダウンロードします。

ビデオの生成時間は、多くの場合、設定に応じて 1 ~ 5 分です。 Foundry REST インターフェイスを使用して非同期ジョブを実行するには、次のものが必要です。

  • サポートされているリージョンのAzure OpenAI/Foundry リソースと、Foundry のモデルとエンドポイントからソラをデプロイするソラデプロイメント
  • 承認方法: API キー または Microsoft Entra ID

ソラ 2 モデルで Azure OpenAI v1 API を使用する方法を見てみましょう。

ソラ 2 API は、次の目的で個別のエンドポイントを提供します。

  • レンダリング ジョブの開始
  • ジョブ状態のポーリング
  • ビデオのダウンロード

1. ビデオ ジョブを作成する

この例では、スクリプトは 非同期レンダリング ジョブ を開始し、ポーリングする ビデオ ID を 含む応答を返します。

Bash は、コマンド ライン シェルとスクリプト言語です。 Curl は Bash 内で実行するコマンドです。

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos" \
  -H "Content-Type: application/json" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -d '{
    "model": "sora-2",
    "prompt": "A cinematic close-up of raindrops sliding down a neon-lit window at night.",
    "size": "1280x720",
    "seconds": "8"
  }'

2. 完了するまでジョブ状態のポーリングを行う

この例では、ジョブが completed (または failed) に達するまで、スクリプトがエンドポイントをポーリングします。

curl -X GET "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos/{video_id}" \
  -H "api-key: $AZURE_OPENAI_API_KEY"

3. 完成したビデオをダウンロードする

ビデオは、状態が completedされた後にのみダウンロードされます。

curl -L "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos/{video_id}/content?variant=video" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  --output output.mp4

ビデオ モデルは常に改善されており、Microsoft Foundry を使用すると、それらをクリエイティブ ソリューションに簡単に統合できます。 次に、Foundry でビジョン対応モデル、画像生成、ビデオ生成を自分で試してみてください。