Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo fornisce un riferimento rapido e una descrizione dettagliata delle quote e dei limiti per i modelli Foundry venduti direttamente da Azure. Per quote e limiti specifici per Azure OpenAI nei modelli Foundry, vedere Quotas e limiti in Azure OpenAI.
Aggiornamenti alla gestione delle quote dopo il 07/05/2026
Microsoft Foundry introduce un aggiornamento alla gestione delle quote per offrire coerenza e prevedibilità alla modalità di gestione della quota tra le distribuzioni. A partire da Realtime Translate e Realtime Whisper, la quota per le distribuzioni viene monitorata a livello di sottoscrizione, condivisa tra tutte le risorse e le aree, invece di essere allocata separatamente per ogni risorsa o per area.
Questa modifica consolida la quota in pool condivisi:
- Standard globale: le distribuzioni dello stesso modello e della stessa versione condividono un pool di quote in tutte le aree di una sottoscrizione.
- Data Zone Standard: distribuzioni dello stesso modello e versione condividono un pool di quote per zona dati (ad esempio, Stati Uniti o UE).
Cosa cambia per me?
Per i modelli di cui è stato eseguito l'onboarding del nuovo sistema di gestione delle quote:
- Tutte le distribuzioni Standard globali dello stesso modello e della stessa versione in una sottoscrizione ora derivano da un singolo pool di quote condivise in tutte le aree.
- Tutte le distribuzioni Standard della zona dati dello stesso modello e della stessa versione in una sottoscrizione ora derivano da un pool di quote condiviso all'interno di ogni zona dati.
- La quota approvata esistente viene mantenuta e applicata automaticamente a livello di sottoscrizione, senza alcuna azione necessaria.
Questo consolidamento consente Microsoft Foundry di offrire modelli supportati in modo coerente in tutte le aree foundry, indipendentemente dal modo in cui la quota viene distribuita tra risorse o aree.
Importante
Attualmente la gestione delle quote aggiornata si applica solo a Realtime Translate e Realtime Whisper. Per tutti gli altri modelli foundry illustrati in questo articolo, le quote e i limiti vengono gestiti per area, per sottoscrizione e per modello o tipo di distribuzione. In futuro, queste linee guida per la quota si applicheranno anche ad alcuni modelli esistenti e ai nuovi lanci del modello Foundry.
Informazioni di riferimento su quote e limiti
Le sezioni seguenti forniscono una guida rapida alle quote e ai limiti predefiniti applicabili ai modelli Foundry. Le quote e i limiti non vengono applicati a livello di tenant. Invece, il livello massimo di restrizioni di quota è definito al livello della sottoscrizione Azure. I token al minuto (TPM) e le richieste al minuto (RPM) sono definiti per area, per sottoscrizione e per modello o tipo di distribuzione.
Limiti delle risorse (per sottoscrizione Azure, per area)
| Nome del limite | Valore limite |
|---|---|
| Risorse Foundry per area per abbonamento di Azure | 100 |
| Numero massimo di progetti per risorsa | 250 |
| Numero massimo di distribuzioni per risorsa (distribuzioni di modelli all'interno di una risorsa Foundry) | 32 |
Limiti di frequenza
Nella tabella seguente sono elencati i limiti per i modelli foundry per le tariffe seguenti:
- Token al minuto
- Richieste al minuto
- Richiesta concorrente
| Modelli | Token al minuto | Richieste al minuto | Richieste simultanee |
|---|---|---|---|
| Azure modelli OpenAI | Varia per modello e SKU. Visualizza limiti di Azure OpenAI. | Varia per modello e SKU. Visualizza limiti di Azure OpenAI. | Variabile. Vedere limiti di Azure OpenAI. |
| - DeepSeek-R1 - DeepSeek-V3-0324 |
5,000,000 | 5,000 | 300 |
| - Llama 3.3 70B Istruzioni - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - Grok 3 mini |
400,000 | 1,000 | 300 |
| - Flux.2-Pro | non applicabile | - Basso (impostazione predefinita): 15 - Medio: 30 - Alta (Impresa): 100 |
non applicabile |
| - Flux-Pro 1.1 - Flux.1-Kontext Pro |
non applicabile | 2 unità di capacità (6 richieste al minuto) | non applicabile |
| Resto dei modelli | 400,000 | 1,000 | 300 |
Per aumentare la quota:
- Per Azure OpenAI, usare Servizio Foundry: richiesta di aumento della quota per inviare la richiesta.
- Per altri modelli, vedere l'articolo relativo all'aumento delle richieste ai limiti predefiniti.
A causa di una domanda elevata, le richieste di aumento dei limiti vengono valutate singolarmente.
Altri limiti
| Nome del limite | Valore limite |
|---|---|
| Numero massimo di intestazioni personalizzate nelle richieste API1 | 10 |
1 Le API correnti consentono fino a 10 intestazioni personalizzate, che la pipeline elabora e restituisce. Se si supera questo numero di intestazioni, la richiesta genera un errore HTTP 431. Per risolvere questo errore, ridurre il volume dell'intestazione. Le versioni future dell'API non passeranno attraverso intestazioni personalizzate. Non fare affidamento sulle intestazioni personalizzate nelle architetture di sistema future.
Livelli di utilizzo
Le distribuzioni Standard globali usano l'infrastruttura globale di Azure per instradare dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Questa infrastruttura consente una latenza più coerente per i clienti con livelli di traffico da basso a medio. I clienti con livelli elevati di utilizzo sostenuti potrebbero riscontrare una maggiore variabilità nella latenza di risposta.
Il limite di utilizzo determina il livello di utilizzo superiore al quale i clienti potrebbero riscontrare una maggiore variabilità nella latenza di risposta. L'utilizzo di un cliente viene definito per modello ed è il totale dei token utilizzati in tutte le distribuzioni in tutte le sottoscrizioni in tutte le aree per un determinato tenant.
Richiedi di aumentare i limiti predefiniti
Invia il modulo di richiesta di aumento di quota per i modelli Foundry venduti direttamente da Azure, i modelli Azure OpenAI e i modelli Anthropic. Ad eccezione dei modelli Anthropic, i Modelli di partner e della community non supportano gli aumenti della quota.
Le richieste di aumento della quota vengono elaborate nell'ordine in cui vengono ricevute e la priorità passa ai clienti che usano attivamente l'allocazione di quote esistente. Le richieste che non soddisfano questa condizione potrebbero essere negate.
Procedure consigliate generali per rimanere entro i limiti di velocità
Per ridurre al minimo i problemi relativi ai limiti di frequenza, usare le tecniche seguenti:
- Implementare la logica di ripetizione dei tentativi nell'applicazione.
- Evitare modifiche nitide nel carico di lavoro. Aumentare gradualmente il carico di lavoro.
- Testare modelli di aumento del carico diversi.
- Aumentare la quota assegnata alla distribuzione. Spostare la quota da un'altra distribuzione, se necessario.
Impostazione del timeout lato client
Impostare il timeout lato client in modo esplicito in base alle indicazioni seguenti.
Nota
Se non è impostato in modo esplicito, il timeout sul lato client esiste in base alla libreria usata e potrebbe non corrispondere agli stessi limiti indicati in precedenza.
- Modelli di ragionamento (modelli che generano token di ragionamento intermedi prima di produrre una risposta riepilogata): fino a 29 minuti.
- Modelli senza ragionamento:
- Per lo streaming, fino a 60 secondi.
- Per le richieste non in streaming, fino a 29 minuti.
29 minuti in questo caso non significa che tutte le richieste richiedano 29 minuti, ma invece a seconda dei token di contesto, dei token generati e della frequenza di riscontri nella cache, le richieste possono richiedere fino a 29 minuti.
Impostare un timeout minore di questi valori, ottimizzato per i modelli di traffico.
Per i modelli di ragionamento, incluse le richieste di streaming, tutti i token di ragionamento vengono prima generati e quindi riepilogati prima di inviare di nuovo il primo token di risposta all'utente.
È possibile modificare il parametro di sforzo di ragionamento per controllare il numero di token di ragionamento generati nel processo.
Risoluzione dei problemi
| Sintomo | Causa | Risoluzione |
|---|---|---|
| HTTP 429 Troppe richieste | È stato superato il limite di token al minuto o di richiesta al minuto | Implementare la logica di ripetizione con backoff esponenziale. Usare il valore dell'intestazione Retry-After. |
| Campi di intestazione della richiesta HTTP 431 troppo grandi | Più di 10 intestazioni personalizzate inviate | Ridurre le intestazioni personalizzate a 10 o meno. |
| La pagina delle quote mostra 0 disponibili | Sottoscrizione o quota regionale completamente allocata | Spostare la quota inutilizzata da un'altra distribuzione. Per aumentare il limite, richiedere un aumento della quota. |
| Modello non disponibile nell'area | Il modello non è distribuito o supportato nell'area selezionata | Controllare la disponibilità del modello e scegliere un'area disponibile. |