Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
VAN TOEPASSING OP: Alle API Management-lagen
Gebruik het azure-openai-semantic-cache-lookup
beleid om cachezoekacties uit te voeren voor antwoorden op api-aanvragen voor voltooiings-API's van Azure OpenAI Chat vanuit een geconfigureerde externe cache, op basis van vectornaleving van de prompt naar eerdere aanvragen en een opgegeven drempelwaarde voor overeenkomstenscore. Reactiecaching vermindert de bandbreedte en verwerkingsvereisten die zijn opgelegd aan de Back-end Azure OpenAI-API en verlaagt de latentie die wordt waargenomen door API-consumenten.
Notitie
- Dit beleid moet een overeenkomstig Cache-antwoord hebben op het beleid voor Api-aanvragen van Azure OpenAI.
- Zie Semantische caching inschakelen voor Azure OpenAI-API's in Azure API Management voor vereisten en stappen voor het inschakelen van semantische caching.
Notitie
Stel de elementen en onderliggende elementen van het beleid in de volgorde in die in de beleidsverklaring is opgegeven. Meer informatie over het instellen of bewerken van API Management-beleid.
Ondersteunde Azure OpenAI in Foundry Models-modellen
Het beleid wordt gebruikt met API's die zijn toegevoegd aan API Management vanuit de Azure OpenAI in Foundry-modellen van de volgende typen:
API-type | Ondersteunde modellen |
---|---|
Chatvoltooiing | gpt-3.5 gpt-4 gpt-4o gpt-4o-mini o1 o3 |
Insluitingen | text-embedding-3-large text-embedding-3-small text-embedding-ada-002 |
Antwoorden (preview) |
gpt-4o (Versies: 2024-11-20 , 2024-08-06 , 2024-05-13 )gpt-4o-mini (Versie: 2024-07-18 )gpt-4.1 (Versie: 2025-04-14 )gpt-4.1-nano (Versie: 2025-04-14 )gpt-4.1-mini (Versie: 2025-04-14 )gpt-image-1 (Versie: 2025-04-15 )o3 (Versie: 2025-04-16 )o4-mini (Versie: '2025-04-16) |
Notitie
Traditionele voltooiings-API's zijn alleen beschikbaar met verouderde modelversies en ondersteuning is beperkt.
Zie Azure OpenAI in Foundry Models voor actuele informatie over de modellen en hun mogelijkheden.
Beleidsinstructie
<azure-openai-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
embeddings-backend-auth ="system-assigned"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>
Kenmerken
Kenmerk | Beschrijving | Vereist | Standaardinstelling |
---|---|---|---|
score-threshold | Drempelwaarde voor overeenkomstenscore die wordt gebruikt om te bepalen of een reactie in de cache moet worden geretourneerd naar een prompt. De waarde is een decimaal getal tussen 0,0 en 1,0. Kleinere waarden vertegenwoordigen een grotere semantische gelijkenis. Meer informatie. | Ja | N.v.t. |
embeddings-backend-id | Back-end-id voor openAI-insluitingen API-aanroep. | Ja | N.v.t. |
embeddings-backend-auth | Verificatie die wordt gebruikt voor de back-end van azure OpenAI-insluitingen van de API. | Ja. Moet worden ingesteld op system-assigned . |
N.v.t. |
ignore-system-messages | Booleaans. Als deze optie is ingesteld op true (aanbevolen), verwijdert u systeemberichten uit een gpT-chatvoltooiingsprompt voordat u de overeenkomsten in de cache beoordeelt. |
Nee | onwaar |
max-message-count | Indien opgegeven, het aantal resterende dialoogvensterberichten waarna caching wordt overgeslagen. | Nee | N.v.t. |
Elementen
Naam | Beschrijving | Vereist |
---|---|---|
variëren per | Een aangepaste expressie die tijdens runtime wordt bepaald waarvan de waardepartities in de cache worden opgeslagen. Als er meerdere vary-by elementen worden toegevoegd, worden waarden samengevoegd om een unieke combinatie te maken. |
Nee |
Gebruik
- Beleidssecties: inkomend
- Beleidsbereiken: globaal, product, API, bewerking
- Gateways: klassiek, v2, verbruik
Gebruiksnotities
- Dit beleid kan slechts eenmaal worden gebruikt in een beleidssectie.
- Verfijn de waarde van op basis van
score-threshold
uw toepassing om ervoor te zorgen dat de juiste gevoeligheid wordt gebruikt bij het bepalen welke query's in de cache moeten worden opgeslagen. Begin met een lage waarde, zoals 0,05, en pas deze aan om de verhouding tussen cachetreffers te optimaliseren. - Het insluitingsmodel moet voldoende capaciteit en voldoende contextgrootte hebben om het promptvolume en de prompts te kunnen verwerken.
Voorbeelden
Voorbeeld met het bijbehorende beleid voor azure-openai-semantic-cache-store
<policies>
<inbound>
<base />
<azure-openai-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="azure-openai-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
</inbound>
<outbound>
<azure-openai-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Gerelateerd beleid
Gerelateerde inhoud
Zie voor meer informatie over het werken met beleid:
- Zelfstudie: Uw API transformeren en beveiligen
- Beleidsreferentie voor een volledige lijst met beleidsinstructies en hun instellingen
- Beleidsexpressies
- Beleid instellen of bewerken
- Beleidsconfiguraties opnieuw gebruiken
- Beleidsfragmentenopslagplaats
- Beleidsspeelplaats
- Azure API Management-beleidstoolkit
- Krijg hulp van Copilot bij het maken, uitleggen en oplossen van problemen met beleid.