你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

为 Microsoft Foundry 模型启用优先级处理

优先级处理提供低延迟性能，具有即用即付的灵活性。在本文中，将在模型部署上启用优先级处理，验证哪个服务层级处理了请求，并监视关联的成本。

先决条件

Azure订阅 - 免费创建一个订阅。
有一个 Microsoft Foundry 项目，并且已部署 GlobalStandard 或 DataZoneStandard 部署类型的模型。
模型版本 2025-12-01 或更高版本。

关键用例

响应式用户体验的一致性和低延迟。
按需付费的简单性，没有长期承诺。
营业时间或突发流量会受益于可缩放且具有成本效益的性能。（可选）可以将优先级处理与预配的吞吐量单位（PTU）相结合，实现稳定状态容量和成本优化。

延迟目标

模型	延迟目标值²
gpt-5.4， 2026-03-05¹	99% > 每秒 50 个令牌
gpt-5.2， 2025-12-11	99% > 每秒 50 个令牌
gpt-5.1， 2025-11-13	99% > 每秒 50 个令牌
gpt-4.1， 2025-04-14¹	99% > 每秒 80 个令牌

¹ 长上下文请求（即估计超过 128k 个提示令牌的请求）将被转为标准处理，并将按标准费率收费。

² 计算为 p50 请求延迟（每 5 分钟）。

根据部署类型的处理优先级可用性

可以在全局标准部署或数据区域标准（美国）部署中启用优先级处理。有关定价信息，请参阅 Azure OpenAI 定价页。

全局标准
数据区域标准

全局标准模型可用性

地区	gpt-5.5， 2026-04-24	gpt-5.4-mini， 2026-03-17	gpt-5.4， 2026-03-05	gpt-5.2， 2025-12-11	gpt-5.1， 2025-11-13	gpt-4.1， 2025-04-14
australiaeast	-	✅	✅	✅	✅	✅
brazilsouth	-	✅	✅	✅	✅	✅
canadacentral	-	✅	✅	✅	✅	✅
canadaeast	-	✅	✅	✅	✅	✅
centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
eastus2	✅	✅	✅	✅	✅	-
francecentral	-	✅	✅	✅	✅	✅
德国中西部	-	✅	✅	✅	✅	✅
意大利北部	-	✅	✅	✅	✅	✅
japaneast	-	✅	✅	✅	✅	✅
koreacentral	-	✅	✅	✅	✅	✅
northcentralus	-	✅	✅	✅	✅	✅
挪威东部	-	✅	✅	✅	✅	✅
polandcentral	✅	✅	✅	✅	✅	✅
southafricanorth	-	✅	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅	✅	✅
东南亚	-	✅	✅	✅	✅	✅
南印度	-	✅	✅	✅	✅	✅
西班牙中部 (spaincentral)	-	✅	✅	✅	✅	✅
swedencentral	✅	✅	✅	✅	✅	✅
switzerlandnorth	-	✅	✅	✅	✅	✅
switzerlandwest	-	✅	✅	✅	✅	✅
uaenorth	-	✅	✅	✅	✅	✅
uksouth	-	✅	✅	✅	✅	✅
westeurope	-	✅	✅	✅	✅	✅
westus	-	✅	✅	✅	✅	✅
westus3	-	✅	✅	✅	✅	✅

数据区域标准模型可用性

地区	gpt-5.5， 2026-04-24	gpt-5.4-mini， 2026-03-17	gpt-5.4， 2026-03-05	gpt-5.2， 2025-12-11	gpt-5.1， 2025-11-13	gpt-4.1， 2025-04-14
centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
eastus2	✅	✅	✅	✅	✅	-
northcentralus	-	✅	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅	✅	✅
westus	-	✅	✅	✅	✅	✅
westus3	-	✅	✅	✅	✅	✅

在部署级别启用优先级处理

可以在部署级别启用优先级处理，并在请求级别（可选）启用优先级处理。

注意

可以在全局标准部署或数据区域标准（美国）部署中启用优先级处理。优先级处理使用与标准处理相同的配额。

在 Microsoft Foundry 门户中，创建部署时，可在部署详细信息页上打开 优先处理开关，或通过编辑部署详细信息来更新已部署模型的设置。

注意

如果希望使用代码在部署级别启用优先级处理，可以通过 REST API 进行部署，方法是设置service_tier属性，如下所示： "properties" : {"service_tier" : "priority"} 特性service_tier的允许值为default和 priority。 default 表示标准处理，同时 priority 启用优先级处理。

将模型部署配置为使用优先级处理后，可以开始向模型发送请求。

查看使用情况指标

可以在Azure门户的“Azure Monitor”部分中查看资源的利用率度量值。

若要查看标准处理与优先级处理所处理的请求量，请按原始请求中的服务层级（标准层或优先级）拆分：

登录 https://portal.azure.com。
转到 Azure OpenAI 资源，然后从左侧导航中选择 Metrics 选项。
在指标页上，添加 Azure OpenAI 请求指标。还可以选择其他指标，例如 Azure OpenAI 延迟、Azure OpenAI 使用情况等。
选择 “添加筛选器 ”以选择处理优先级请求的标准部署。
选择 “应用拆分 ”以按 ServiceTierRequest 和 ServiceTierResponse 拆分值。

有关监视部署的详细信息，请参阅 Monitor Azure OpenAI。

监视成本

可以通过筛选部署名称和计费标记，在Azure门户的成本分析页中查看优先级和标准请求的成本明细，如下所示：

转到 Azure 门户中的成本分析页。
（可选）按资源进行筛选。
要按部署名称进行筛选：先添加计费标记>的筛选器，然后选择部署作为值，最后选择部署名称。

有关优先级处理定价的信息，请参阅 Azure OpenAI 服务定价概述。

在请求级别启用优先级处理

在请求级别启用优先级处理是 可选的。聊天完成 API 和响应 API 都有一个可选属性，该属性 service_tier 指定在处理请求时要使用的处理类型。以下示例演示如何在响应请求中将service_tier设置为priority。

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

使用 service_tier 特性替代部署级别设置。 service_tier 可以获取值 auto， default以及 priority。

如果未设置属性，则默认为 auto.
service_tier = auto 表示请求使用部署中配置的服务层。
service_tier = default 表示请求使用所选模型的标准定价和性能。
service_tier = priority 表示请求使用优先级处理服务层。

下表总结了哪个服务层级会根据部署级别和请求级设置处理 service_tier 的请求。

部署级别设置	请求级别设置	服务层处理的请求
默认	auto、default	标准
默认	优先级	优先级处理
优先级	自动、优先级	优先级处理
优先级	默认	标准

限制

该服务目前不支持区域标准部署和欧盟数据区域标准部署。
在这些情况下，该服务可能会将某些优先级请求重新路由到标准处理* ：
- 如果每分钟处理令牌的优先级快速增加，则会导致达到渐变速率限制。目前，速率限制定义为在不到 15 分钟内每分钟通过令牌将流量增加超过 50%。
- 在处理优先级任务的高峰请求期间。
- 发送到延迟目标表中列出的特定模型的长文本上下文请求。
提示

如果遇到速率限制，可以考虑购买 PTU 作为优先处理的替代方案，或是同时选择两者。

* 服务根据标准费用率对标准服务层处理的请求进行计费。标准服务层处理的请求包含在 service_tier = default 响应中，而按优先级处理层处理的请求包含在 service_tier = priority 响应中。

故障排除

问题	原因	分辨率
降级到标准层的请求	其中一种情况： - 流量在不到 15 分钟内每分钟增长超过 50%，达到了渐变速率限制。 - 在请求高峰期间发送的请求会被优先处理。 - 发送到延迟目标表中列出的某些模型的长篇上下文请求。	- 如果遇到渐变速率限制，则逐渐增加流量。 - 考虑购买 PTU 以满足稳态容量需求。

反馈

此页面是否有帮助？

Last updated on 2026-05-13