画像生成モデル

完了

詳細については、「 テキストと画像 」タブを参照してください。

ビジョン対応モデルは、多くの場合、画像内の視覚情報を適切な対応するテキストに一致させます。 一部のモデルは、このプロセスを逆に実行し、テキストの説明に対応する画像を生成するように設計されています。

Foundry からのイメージ生成モデルの使用

Microsoft Foundry には、テキストから画像への推論をサポートするモデルが含まれており、これを使用して視覚的な出力を生成できます。

ほとんどの新しいプロジェクトでは、品質、編集サポート、エンタープライズ対応性が向上しているため、 GPT-Image-1 ファミリ (特に GPT-Image-1.5) から開始することをお勧めします。

Foundry のイメージ生成モデルの一般的な例を次に示します。

  • GPT-Image-1.5: GPT-Image-1.5 は、Microsoft Foundry で使用できる最新かつ最も高度なイメージ生成モデルです。 これは、忠実度が高く、エンタープライズ レベルのイメージの作成と編集を目的として設計されており、プロンプトの配置が強く、イテレーション全体の一貫性が向上します。 このモデルでは 、テキストから画像への変換、 画像から画像への変換、正確な画像編集がサポートされており、視覚的な精度が重要なブランド化、マーケティング、設計のワークフローに適しています。

  • GPT-Image-1: GPT-Image-1 は、以前の DALL-E モデルの機能に基づく強力な汎用イメージ生成モデルです。 テキストから画像への生成、画像のバリエーション、正確な画像編集がサポートされています。 これは一般的に、クリエイティブ なアプリケーション、プロトタイプ作成、ビジュアル コンテンツの生成に使用されます。 GPT-Image-1 は、Responses API やエージェント ツールなど、Foundry ツールと API 全体で広くサポートされています。

  • GPT-Image-1-Mini: GPT-Image-1-Mini は、軽量でコスト効率に優れた GPT-Image-1 バージョンです。 同じコア イメージ生成タスクをサポートしますが、待機時間の短縮やコストの削減が最大の視覚的忠実性よりも重要なシナリオ向けに最適化されています。 このモデルは、実験、内部ツール、または大量のイメージ生成に適しています。

これらのイメージ生成モデルはすべて、次のことができます。

  • Foundry (Azure OpenAI) リソースにデプロイ済み
  • Foundry Playground でテスト済み
  • OpenAI Responses API またはイメージ生成 API を使用してプログラムでアクセスする

Foundry でサード パーティ製のイメージ生成モデルにアクセスすることもできます。 たとえば、 FLUX は、Black Forest Labs によって作成されたオープンソースのイメージ生成モデルのファミリです。 これらは、テキスト プロンプトから高品質でフォトリアリスティックで、スタイル的に柔軟な画像を生成するように設計されています。

Foundry プレイグラウンドでの画像の生成

ビジョン対応モデルをデプロイし、Foundry ポータルプレイグラウンドでテストできます。 モデルをテストするには、作成するイメージを記述します。 数分後に、説明に一致する画像が生成されます。

Foundry プレイグラウンドでの画像生成のスクリーンショット。

Foundry プレイグラウンドのコード例のスクリーンショット。

イメージ生成に OpenAI Python SDK を使用する

Azure OpenAI API の images クラスを使用して、イメージ生成モデルを使用するアプリケーションを構築するコードを記述できます。 OpenAI Python SDK の OpenAI images クラスを使用すると、新しいイメージを生成し、既存のイメージを編集できます。 OpenAI Python SDK を使用するには、Python インターフェイスを介して OpenAI Images API エンドポイントを呼び出します。

説明から元の画像を動的に生成する機能は、メディア、発行、コンテンツの作成などのシナリオで非常に価値があります。

OpenAI Python SDK でイメージを生成するには、次のものが必要です。

  • ファウンドリーのリソース
  • 視覚情報処理可能なモデルがデプロイされ (デプロイ名はMODEL_NAMEとして渡す名前です)
  • API キーまたは Microsoft Entra ID を使用した認証
  • 画像入力 (URL または base64 データ URL) を含む OpenAI Responses API 呼び出し

Base64 は、イメージがバイナリ (生バイト) のようなファイルを参照します。 JSON と URL はテキスト専用です。 Base64 エンコードでは、バイナリ データを安全な ASCII テキストに変換し、バイナリ ファイルを JSON または URL 内に埋め込みます。

たとえば、次の Python コードを考えてみましょう。

import os
import base64
from openai import OpenAI

# Required environment variables (example names)
FOUNDRY_KEY="..."
ENDPOINT="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME="your-gpt-image-deployment-name"  # e.g., "gpt-image-1"

client = OpenAI(
    api_key=os.environ["FOUNDRY_KEY"],
    base_url=os.environ["ENDPOINT"],
)

prompt = "A modern flat illustration of a robot holding a potted plant, clean vector style, pastel colors."

response = client.responses.create(
    model=os.environ["MODEL_NAME"],  # your deployment name in Foundry
    input=prompt,
    tools=[{"type": "image_generation"}],
)

image_base64 = next(
    item.result for item in response.output
    if item.type == "image_generation_call"
)

with open("foundry_generated.png", "wb") as f:
    f.write(base64.b64decode(image_base64))

print("Saved: foundry_generated.png")

次に、Foundry のビデオ生成モデルを使用する方法について説明します。