Azure AI Foundry Models では、Azure AI Foundry Services (旧称 Azure AI Services) のモデル デプロイの概念を使用してモデルを使用できるようになります。 モデル デプロイは Azure リソースでもあります。また、作成されると、特定の構成で特定のモデルにアクセスできます。 このような構成には、要求を処理するために必要なインフラストラクチャが含まれます。
Azure AI Foundry Models は、ビジネスパターンと使用パターンに合ったホスティング構造に関する選択肢を顧客に提供します。 これらのオプションは、Azure AI Foundry リソースのモデル デプロイ時に使用できるさまざまなデプロイの種類 (または SKU) に変換されます。 このサービスには、 標準 とプロビジョニングの 2 種類のデプロイが用意 されています。 特定のデプロイの種類に対して、お客様は、Azure 地域 (Standard
または Provisioned-Managed
)、Microsoft が指定したデータ ゾーン (DataZone-Standard
または DataZone Provisioned-Managed
)、またはグローバル (Global-Standard
または Global Provisioned-Managed
) の処理オプションを選択することで、データ処理要件に合わせてワークロードを調整することができます。
微調整されたモデルの場合、追加の Developer
展開の種類により、コスト効率の高いカスタム モデル評価手段が提供されますが、データ所在地は提供されません。
実行される推論操作はどのデプロイもまったく同じですが、課金、スケール、パフォーマンスは大きく異なります。 ソリューション設計の一環として、2 つの重要な決定を行う必要があります。
- データ処理の場所
- Call volume
Azure AI Foundry デプロイのデータ処理の場所
標準デプロイの場合、グローバル、データ ゾーン、Azure 地域という 3 種類のデプロイ オプションから選択できます。 プロビジョニング デプロイの場合、グローバルと Azure 地域という 2 種類のデプロイ オプションから選択できます。 グローバル標準は、初めて使用する場合に推奨されます。
グローバル デプロイでは、Azure のグローバル インフラストラクチャが利用され、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータ センターに動的にルーティングされます。 これは、グローバルでは最高の初期スループット制限と最適なモデル可用性が手に入るだけでなく、アップタイムに関する SLA と低い待機時間が提供されることを意味します。 標準およびグローバル標準上の指定された使用レベルを超える大量のワークロードでは、待機時間の変動が増加する可能性があります。 大規模なワークロードの使用時に待ち時間の変動を低く抑える必要があるお客様の場合、プロビジョニング デプロイの種類を利用することをお勧めします。
グローバル デプロイは、すべての新しいモデルと特徴の最初の場所になります。 大規模かつ低待ち時間の変動要件があるお客様は、呼び出し量に応じて、プロビジョニング デプロイの種類を検討する必要があります。
データ ゾーンのデプロイでは、Azure のグローバル インフラストラクチャを利用して、Microsoft が定義したデータ ゾーン内でお客様の推論要求に最適な可用性を持つデータ センターに、お客様のトラフィックを動的にルーティングします。 データ ゾーンのデプロイは、Azure 地域とグローバル デプロイ オファリングの間に位置し、クォータ制限を引き上げられるだけでなく、Microsoft が指定したデータ ゾーン内にデータ処理をとどめることができます。 保存データは引き続き Azure AI Foundry リソースの地理的な場所に残ります (たとえば、スウェーデン中部 Azure リージョンで作成された AI Foundry リソースの場合、Azure の地域はスウェーデンです)。
データ ゾーンのデプロイで使用される Azure AI Foundry リソースが米国内にある場合、データは米国内で処理されます。 データ ゾーンデプロイで使用される Azure AI Foundry リソースが欧州連合加盟国にある場合、データは欧州連合加盟国の地域内で処理されます。 すべての Azure AI Foundry デプロイの種類において、保管されるすべてのデータは、Azure AI Foundry リソースが存在する地域に留まります。 Azure のデータ処理とコンプライアンスのコミットメントは引き続き適用されます。
"グローバル" というラベルの 付いたデプロイの種類 については、関連する Azure AI Foundry モデルがデプロイされている任意の地域でプロンプトと応答を処理できます ( モデルのリージョンの可用性の詳細を参照)。 "DataZone" というラベルが付いたデプロイの種類の場合、プロンプトと応答は、Microsoft が定義している、指定されたデータ ゾーン内の任意の地域で処理される可能性があります。 米国にある Azure AI Foundry リソースで DataZone デプロイを作成した場合、プロンプトと応答は米国内の任意の場所で処理される可能性があります。 欧州連合加盟国にある Azure AI Foundry リソースで DataZone デプロイを作成する場合、プロンプトと応答は、その他の欧州連合加盟国で処理される可能性があります。 グローバルと DataZone の両方のデプロイの種類で、アップロードされたデータなど、すべての格納データは、お客様が指定した地域に保存されます。 お客様が Azure AI Foundry リソースでグローバル デプロイの種類または DataZone デプロイの種類を使用する場合、処理の場所のみが影響を受けます。Azure データ処理とコンプライアンス コミットメントは引き続き適用されます。
Note
グローバル標準およびデータゾーン標準のデプロイメントタイプの場合、プライマリリージョンでサービスの中断が発生すると、このリージョンに最初にルーティングされるすべてのトラフィックが影響を受けます。 詳細については、 ビジネス継続性とディザスター リカバリー ガイドを参照してください。
Global standard
Important
保存時に格納されたデータは指定された Azure 地域に残りますが、データは任意の Azure AI Foundry の場所で推論のために処理される場合があります。 データ所在地の詳細を確認する。
コード内の SKU 名:GlobalStandard
グローバル デプロイは、非グローバル デプロイの種類と同じ Azure AI Foundry リソースで利用できますが、Azure のグローバル インフラストラクチャを利用して、要求ごとに最適な可用性でデータ センターにトラフィックを動的にルーティングできます。 グローバル標準では、最大の既定クォータが提供され、複数のリソース間での負荷分散の必要がなくなります。
一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 しきい値はモデルごとに設定されます。 詳しくはクォータに関するページを参照してください。 大規模なワークロードの使用時に、変動の少ない待ち時間を必要とするアプリケーションには、プロビジョニング済みスループットを購入することをお勧めします。
Global provisioned
Important
保存時に格納されたデータは指定された Azure 地域に残りますが、データは任意の Azure AI Foundry の場所で推論のために処理される場合があります。 データ所在地の詳細を確認する。
コード内の SKU 名:GlobalProvisionedManaged
グローバル デプロイは、非グローバル デプロイの種類と同じ Azure AI Foundry リソースで利用できますが、Azure のグローバル インフラストラクチャを利用して、要求ごとに最適な可用性でデータ センターにトラフィックを動的にルーティングできます。 グローバルなプロビジョニング済みデプロイでは、Azure グローバル インフラストラクチャを使用して、予測可能な高いスループットを実現するための予約済みのモデル処理容量が提供されます。
Global batch
Important
保存時に格納されたデータは指定された Azure 地域に残りますが、データは任意の Azure AI Foundry の場所で推論のために処理される場合があります。 データ所在地の詳細を確認する。
Global Batch は、大規模で大量の処理タスクを効率的に処理するように設計されています。 個別のクォータを持つ要求の非同期グループを、24時間以内のターンアラウンドで、グローバル標準よりも50%低いコストで処理します。 バッチ処理では、一度に 1 つの要求を送信するのではなく、1 つのファイル内で多数の要求を送信します。 グローバル バッチ要求には、オンライン ワークロードの中断を回避する個別のエンキュー トークン クォータがあります。
コード内の SKU 名:GlobalBatch
主なユース ケースは次のとおりです。
大規模なデータ処理: 広範なデータセットを並列ですばやく分析します。
コンテンツ生成: 製品の説明や記事など、大量のテキストを作成します。
ドキュメントの校閲と要約: 長いドキュメントの校閲と要約を自動化します。
カスタマー サポートの自動化: 多数の問い合わせを同時に処理して迅速な対応を実現します。
データの抽出と分析: 膨大な量の非構造化データから情報を抽出して分析します。
自然言語処理 (NLP) タスク: 大規模なデータセットに対して感情分析や翻訳などのタスクを実行します。
マーケティングとパーソナル化: パーソナル化されたコンテンツとレコメンデーションを大規模に生成します。
データ ゾーン標準
Important
データが保存されている間は指定されたAzureの地域に留まりますが、推論のための処理はMicrosoftが指定したデータゾーン内の任意のAzure AI Foundryの場所で行われることがあります。 データ所在地の詳細を確認する。
コード内の SKU 名:DataZoneStandard
データ ゾーン標準デプロイは、他のすべての Azure AI Foundry デプロイの種類と同じ Azure AI Foundry リソースで利用できますが、Azure グローバル インフラストラクチャを利用して、要求ごとに最適な可用性を持つ Microsoft 定義データ ゾーン内のデータ センターにトラフィックを動的にルーティングできます。 データ ゾーン標準では、Azure の地理ベースのデプロイの種類よりも高い既定のクォータが提供されます。
一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 しきい値はモデルごとに設定されます。 詳細については、「クォータと制限」ページを参照してください。 大規模な処理で低待ち時間の変動を必要とするワークロードの場合は、プロビジョニング デプロイ オファリングを利用することをお勧めします。
データ ゾーン プロビジョニング済み
Important
保存時に保存されたデータは指定された Azure 地域に残りますが、データは、Microsoft が指定したデータ ゾーン内の任意の Azure AI Foundry の場所で推論するために処理される場合があります。データ所在地の詳細を確認します。
コード内の SKU 名:DataZoneProvisionedManaged
データ ゾーンにプロビジョニングされたデプロイは、他のすべての Azure AI Foundry デプロイの種類と同じ Azure AI Foundry リソースで利用できますが、Azure グローバル インフラストラクチャを利用して、要求ごとに最適な可用性を備えた Microsoft 指定のデータ ゾーン内のデータ センターにトラフィックを動的にルーティングできます。 データ ゾーン プロビジョニング済みデプロイでは、Microsoft が指定したデータ ゾーン内の Azure インフラストラクチャを使用して、高くて予測可能なスループットを実現するための予約されたモデル処理容量を提供します。
データ ゾーン バッチ
Important
データが保存されている間は指定されたAzureの地域に留まりますが、推論のための処理はMicrosoftが指定したデータゾーン内の任意のAzure AI Foundryの場所で行われることがあります。 データ所在地の詳細を確認する。
コード内の SKU 名:DataZoneBatch
データ ゾーン バッチ デプロイはグローバル バッチ デプロイとすべて同じ機能を備え、さらに、Azure のグローバル インフラストラクチャを利用して、各要求に対して可用性が最も高い Microsoft 定義のデータ ゾーン内のデータ センターのみにトラフィックを動的にルーティングできます。
Standard
コード内の SKU 名:Standard
標準デプロイでは、選択されたモデルで呼び出し単位の支払いの課金モデルが提供されます。 消費した分だけ支払うので、最も早く使い始めることができます。 各リージョンで使用できるモデルとスループットは、制限される場合があります。
標準デプロイは、バースト性が高い中程度以下のボリューム用に最適化されています。 一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。
Regional Provisioned
コード内の SKU 名:ProvisionedManaged
リージョンにプロビジョニングされたデプロイでは、デプロイに必要なスループットの量を指定できます。 その後、サービスは必要なモデル処理容量を割り当て、その準備が整っていることを確認します。 スループットは、デプロイのスループットを表す正規化された方法であるプロビジョニング スループット ユニット (PTU) という観点で定義されます。 各モデルバージョン ペアでは、デプロイして PTU ごとにさまざまな量のスループットを提供するために、さまざまな量の PTU が必要となります。 詳しくは、プロビジョニング済みスループットの概念に関する記事をご覧ください。
サブスクリプションでグローバル デプロイへのアクセスを無効にする方法
Azure Policy は、組織の標準を適用し、コンプライアンスを大規模に評価するのに役立ちます。 コンプライアンス ダッシュボードを通じて、環境の全体的な状態を評価するための集計ビューを提供します。これには、リソースごと、およびポリシーごとの粒度でドリルダウンできる機能が備わっています。 既存のリソースの一括修復と新しいリソースの自動修復を使用して、お客様のリソースでコンプライアンスを実現するのにも便利です。 AI サービスに関する Azure Policy と具体的な組み込みコントロールの詳細を参照してください。
次のポリシーを使用して、任意の種類の Azure AI Foundry デプロイへのアクセスを無効にすることができます。 特定のデプロイの種類に対するアクセスを無効にするには、GlobalStandard
を、アクセスを無効にするデプロイの種類の SKU 名に置き換えます。
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
開発者 (微調整されたモデル用)
Important
保存時に格納されたデータは指定された Azure 地域に残りますが、データは任意の Azure AI Foundry の場所で推論のために処理される場合があります。 データ所在地の詳細を確認する。
コード内の SKU 名:DeveloperTier
微調整されたモデルは、カスタム モデルの評価をサポートするように特別に設計された開発者デプロイをサポートします。 データ所在地の保証も SLA も提供しません。 開発者展開の種類の使用の詳細については、 微調整ガイドを参照してください。
Deploy models
リソースの作成とモデルのデプロイについては、リソース作成ガイドに関する記事をご覧ください。