Delen via


Reacties op Azure OpenAI API-aanvragen in de cache opslaan

VAN TOEPASSING OP: Alle API Management-lagen

Met het azure-openai-semantic-cache-store beleid worden antwoorden op de voltooiings-API-aanvragen voor Azure OpenAI Chat opgeslagen in een geconfigureerde externe cache. Reactiecaching vermindert de bandbreedte en verwerkingsvereisten die zijn opgelegd aan de Back-end Azure OpenAI-API en verlaagt de latentie die wordt waargenomen door API-consumenten.

Notitie

Notitie

Stel de elementen en onderliggende elementen van het beleid in de volgorde in die in de beleidsverklaring is opgegeven. Meer informatie over het instellen of bewerken van API Management-beleid.

Ondersteunde Azure OpenAI in Foundry Models-modellen

Het beleid wordt gebruikt met API's die zijn toegevoegd aan API Management vanuit de Azure OpenAI in Foundry-modellen van de volgende typen:

API-type Ondersteunde modellen
Chatvoltooiing gpt-3.5

gpt-4

gpt-4o

gpt-4o-mini

o1

o3
Insluitingen text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002
Antwoorden (preview) gpt-4o (Versies: 2024-11-20, 2024-08-06, 2024-05-13)

gpt-4o-mini (Versie: 2024-07-18)

gpt-4.1 (Versie: 2025-04-14)

gpt-4.1-nano (Versie: 2025-04-14)

gpt-4.1-mini (Versie: 2025-04-14)

gpt-image-1 (Versie: 2025-04-15)

o3 (Versie: 2025-04-16)

o4-mini (Versie: '2025-04-16)

Notitie

Traditionele voltooiings-API's zijn alleen beschikbaar met verouderde modelversies en ondersteuning is beperkt.

Zie Azure OpenAI in Foundry Models voor actuele informatie over de modellen en hun mogelijkheden.

Beleidsinstructie

<azure-openai-semantic-cache-store duration="seconds"/>

Kenmerken

Kenmerk Beschrijving Vereist Standaardinstelling
duur Time-to-live van de items in de cache, opgegeven in seconden. Beleidsexpressies zijn toegestaan. Ja N.v.t.

Gebruik

Gebruiksnotities

  • Dit beleid kan slechts eenmaal worden gebruikt in een beleidssectie.
  • Als het opzoeken van de cache mislukt, veroorzaakt de API-aanroep die gebruikmaakt van de bewerking met betrekking tot de cache geen fout en wordt de cachebewerking voltooid.

Voorbeelden

Voorbeeld met het bijbehorende beleid voor azure-openai-semantic-cache-lookup

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Zie voor meer informatie over het werken met beleid: