你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

为 Microsoft Foundry 模型启用优先级处理

优先级处理提供低延迟性能,具有即用即付的灵活性。 在本文中,将在模型部署上启用优先级处理,验证哪个服务层级处理了请求,并监视关联的成本。

先决条件

  • Azure订阅 - 免费创建一个订阅
  • 有一个 Microsoft Foundry 项目,并且已部署 GlobalStandardDataZoneStandard 部署类型的模型。
  • 模型版本 2025-12-01 或更高版本。

关键用例

  • 响应式用户体验的一致性和低延迟。
  • 按需付费的简单性,没有长期承诺。
  • 营业时间或突发流量会受益于可缩放且具有成本效益的性能。 (可选)可以将优先级处理与预配的吞吐量单位(PTU)相结合,实现稳定状态容量和成本优化。

延迟目标

模型 延迟目标值2
gpt-5.4, 2026-03-051 99% > 每秒 50 个令牌
gpt-5.2, 2025-12-11 99% > 每秒 50 个令牌
gpt-5.1, 2025-11-13 99% > 每秒 50 个令牌
gpt-4.1, 2025-04-141 99% > 每秒 80 个令牌

1 长上下文请求(即估计超过 128k 个提示令牌的请求)将被转为标准处理,并将按标准费率收费。

2 计算为 p50 请求延迟(每 5 分钟)。

根据部署类型的处理优先级可用性

可以在全局标准部署或数据区域标准(美国)部署中启用优先级处理。 有关定价信息,请参阅 Azure OpenAI 定价页

全局标准模型可用性

地区 gpt-5.52026-04-24 gpt-5.4-mini2026-03-17 gpt-5.42026-03-05 gpt-5.22025-12-11 gpt-5.12025-11-13 gpt-4.12025-04-14
australiaeast -
brazilsouth -
canadacentral -
canadaeast -
centralus -
eastus -
eastus2 -
francecentral -
德国中西部 -
意大利北部 -
japaneast -
koreacentral -
northcentralus -
挪威东部 -
polandcentral
southafricanorth -
southcentralus
东南亚 -
南印度 -
西班牙中部 (spaincentral) -
swedencentral
switzerlandnorth -
switzerlandwest -
uaenorth -
uksouth -
westeurope -
westus -
westus3 -

在部署级别启用优先级处理

可以在部署级别启用优先级处理,并在 请求级别(可选)启用优先级处理。

注意

可以在全局标准部署或数据区域标准(美国)部署中启用优先级处理。 优先级处理使用与标准处理相同的配额。

Microsoft Foundry 门户中,创建部署时,可在部署详细信息页上打开 优先处理开关,或通过编辑部署详细信息来更新已部署模型的设置。

显示如何在 Foundry 门户中的模型部署期间启用优先级处理的屏幕截图。

注意

如果希望使用代码在部署级别启用优先级处理,可以通过 REST API 进行部署,方法是设置service_tier属性,如下所示: "properties" : {"service_tier" : "priority"} 特性service_tier的允许值为defaultprioritydefault 表示标准处理,同时 priority 启用优先级处理。

将模型部署配置为使用优先级处理后,可以开始向模型发送请求。

查看使用情况指标

可以在Azure门户的“Azure Monitor”部分中查看资源的利用率度量值。

若要查看标准处理与优先级处理所处理的请求量,请按原始请求中的服务层级(标准层或优先级)拆分:

  1. 登录 https://portal.azure.com
  2. 转到 Azure OpenAI 资源,然后从左侧导航中选择 Metrics 选项。
  3. 在指标页上,添加 Azure OpenAI 请求指标。 还可以选择其他指标,例如 Azure OpenAI 延迟Azure OpenAI 使用情况等。
  4. 选择 “添加筛选器 ”以选择处理优先级请求的标准部署。
  5. 选择 “应用拆分 ”以按 ServiceTierRequestServiceTierResponse 拆分值。

在 Azure 门户的资源指标页面中,显示优先级处理利用率的屏幕截图。

有关监视部署的详细信息,请参阅 Monitor Azure OpenAI

监视成本

可以通过筛选部署名称和计费标记,在Azure门户的成本分析页中查看优先级和标准请求的成本明细,如下所示:

  1. 转到 Azure 门户中的成本分析页
  2. (可选)按资源进行筛选。
  3. 要按部署名称进行筛选:先添加计费标记>的筛选器,然后选择部署作为值,最后选择部署名称。

在 Azure 门户的资源成本分析页面上关于优先级处理利用率的截图。

有关优先级处理定价的信息,请参阅 Azure OpenAI 服务 定价概述

在请求级别启用优先级处理

在请求级别启用优先级处理是 可选的。 聊天完成 API 和响应 API 都有一个可选属性,该属性 service_tier 指定在处理请求时要使用的处理类型。 以下示例演示如何在响应请求中将service_tier设置为priority

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

使用 service_tier 特性替代部署级别设置。 service_tier 可以获取值 autodefault以及 priority

  • 如果未设置属性,则默认为 auto.

  • service_tier = auto 表示请求使用部署中配置的服务层。

  • service_tier = default 表示请求使用所选模型的标准定价和性能。

  • service_tier = priority 表示请求使用优先级处理服务层。

下表总结了哪个服务层级会根据部署级别和请求级设置处理 service_tier 的请求。

部署级别设置 请求级别设置 服务层处理的请求
默认 auto、default 标准
默认 优先级 优先级处理
优先级 自动、优先级 优先级处理
优先级 默认 标准

限制

  • 该服务目前不支持区域标准部署和欧盟数据区域标准部署。

  • 在这些情况下,该服务可能会将某些优先级请求重新路由到标准处理* :

    • 如果每分钟处理令牌的优先级快速增加,则会导致达到渐变速率限制。 目前,速率限制定义为在不到 15 分钟内每分钟通过令牌将流量增加超过 50%。
    • 在处理优先级任务的高峰请求期间。
    • 发送到 延迟目标表中列出的特定模型的长文本上下文请求。

    提示

    如果遇到速率限制,可以考虑购买 PTU 作为优先处理的替代方案,或是同时选择两者。

    * 服务根据标准费用率对标准服务层处理的请求进行计费。 标准服务层处理的请求包含在 service_tier = default 响应中,而按优先级处理层处理的请求包含在 service_tier = priority 响应中。

故障 排除

问题 原因 分辨率
降级到标准层的请求 其中一种情况:
- 流量在不到 15 分钟内每分钟增长超过 50%,达到了渐变速率限制。
- 在请求高峰期间发送的请求会被优先处理。
- 发送到 延迟目标表中列出的某些模型的长篇上下文请求。
- 如果遇到渐变速率限制,则逐渐增加流量。
- 考虑购买 PTU 以满足稳态容量需求。