你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
如果具有依赖于 Azure 资源的关键应用程序和业务流程,则需要监视并获取系统的警报。 Azure Monitor 服务从系统的每个组件(包括 Foundry 模型部署)收集和聚合指标和日志。 可以使用此信息查看可用性、性能和复原能力,并获取问题的通知。
本文档介绍如何使用指标和日志监视 Foundry 模型中的模型部署。
先决条件
若要在 Foundry 模型中对模型部署使用监视功能,需要满足以下条件:
Azure AI 服务资源。 有关详细信息,请参阅创建 Azure AI 服务资源。
小窍门
如果使用的是无服务器 API 终结点,并且想要利用本文档中所述的监视功能, 请将无服务器 API 终结点迁移到 Foundry 模型。
至少一个模型部署。
访问资源的诊断信息。
指标
Azure Monitor 自动从 Foundry 模型收集指标。 无需配置。 这些指标是:
- 存储在 Azure Monitor 时序指标数据库中。
- 轻量级且具备支持准实时警报的能力。
- 用于跟踪资源随时间推移的性能变化。
查看指标
可以使用多种工具查询 Azure Monitor 指标,包括:
Azure AI Foundry 门户
可以在 Azure AI Foundry 门户中查看指标。 若要查看它们,请执行以下步骤:
通过选择“部署”导航到你的模型部署,然后选择你想要查看其指标的部署的名称。
选择选项卡 “指标”。
可以访问可能感兴趣的常见指标的概述。 对于与成本相关的指标,请使用 Azure 成本管理深层链接,该链接提供对位于 Azure 门户的成本分析部分中的详细消耗后成本指标的访问权限。 Azure 门户中的成本数据展示了模型使用后的实际费用,包括 Azure AI Foundry 中的其他 AI 资源。 按照此链接获取 AI 资源的完整列表。 从计费事件到可以在 Azure 门户成本分析中查看它大约有五个小时的延迟。
重要
Azure 成本管理深层链接在 Azure 门户中提供直接链接,允许用户访问已部署 AI 模型的详细成本指标。 此深层链接与 Azure 成本分析服务视图集成,提供对模型级成本的透明且可作的见解。 深层链接将用户定向到 Azure 门户中的成本分析视图,提供一键式体验来查看每个资源的部署,包括输入/输出令牌成本/消耗。 若要查看成本数据,至少需要 Azure 帐户的读取访问权限。 要了解如何分配对 Microsoft 成本管理数据的访问权限,请参阅分配对数据的访问权限。
可以使用 Azure Monitor 指标资源管理器查看和分析指标 ,以进一步切片和筛选模型部署指标。
使用 指标资源管理器 分析指标。
指标资源管理器
指标资源管理器 是 Azure 门户中的一种工具,可用于查看和分析 Azure 资源的指标。 有关更多信息,请参阅使用 Azure Monitor 指标资源管理器来分析指标数据。
若要使用 Azure Monitor,请执行以下步骤:
转到 Azure 门户。
在搜索框中输入并选择监视器。
在左侧导航栏中选择 “指标 ”。
在 “选择范围”上,选择要监视的资源。 可以选择一个资源,也可以选择一个资源组或订阅。 如果是这种情况,请确保选择 资源类型 作为 Azure AI 服务。
此时会显示指标资源管理器。 选择要浏览的 指标 。 以下示例显示了对资源中的模型部署发出的请求数。
重要
Azure OpenAI 类别中的指标包含资源中 Azure OpenAI 模型的指标。 类别 模型 包含资源中提供的所有模型,包括 Azure OpenAI、DeepSeek、Phi 等。建议切换到这组新的指标。
可以根据需要向同一图表或新图表添加任意数量的指标。
如果需要,可以按其中任何可用维度筛选指标。
按某些维度细分特定指标非常有用。 以下示例演示如何使用“ 添加拆分”选项按模型细分对资源发出的请求数:
可以随时保存仪表板,以避免每次都对其进行配置。
Kusto 查询语言 (KQL)
如果将 诊断设置 配置为将指标发送到 Log Analytics,则可以使用 Azure 门户通过 Kusto 查询语言(KQL)查询和分析日志数据。
若要查询指标,请执行以下步骤:
确保已 配置诊断设置。
转到 Azure 门户。
找到要查询的 Azure AI 服务资源。
在左侧导航栏中,导航到 “监视>日志”。
选择已配置诊断的 Log Analytics 工作区。
在 Log Analytics 工作区页的左窗格中的“概述”下,选择“日志”。 默认情况下,Azure 门户会显示一个查询窗口,其中包含示例查询和建议。 你可以关闭此窗口。
若要检查 Azure 指标,请使用资源表
AzureMetrics
并运行以下查询:AzureMetrics | take 100 | project TimeGenerated, MetricName, Total, Count, Maximum, Minimum, Average, TimeGrain, UnitName
注释
在资源的菜单中选择 “监视>日志 ”时,Log Analytics 会打开,并将查询范围设置为当前资源。 可见日志查询只包含来自该特定资源的数据。 如果要运行的查询包含来自其他资源或其他 Azure 服务的数据,请从 Azure 门户的“Azure Monitor”菜单中选择“日志”。 有关详细信息,请参阅 Azure Monitor Log Analytics 中的日志查询范围和时间范围。
其他工具
支持更复杂可视化效果的工具包括:
- 工作簿、可在 Azure 门户中创建的可自定义报表。 工作簿可以包括文本、指标和日志查询。
- Grafana 是一个在运维仪表板方面表现出色的开放平台工具。 可以使用 Grafana 创建包含 Azure Monitor 以外的多个源的数据的仪表板。
- Power BI 是一项业务分析服务,可跨各种数据源提供交互式可视化效果。 可将 Power BI 配置为自动从 Azure Monitor 导入日志数据,以利用这些可视化效果。
指标参考
可以使用以下类别的指标:
模型 - 请求
指标 | 内部名称 | 单位 | 集合体 | 尺寸 |
---|---|---|---|---|
模型可用性率 使用以下公式计算可用性百分比:(调用总数 - 服务器错误数)/调用总数。 服务器错误包括任何 >=500 的 HTTP 响应。 |
ModelAvailabilityRate |
百分比 | 最小值、最大值、平均值 | ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion |
模型请求 在导致服务错误(>500)的时间段内对模型推理 API 进行的调用数。 |
ModelRequests |
计数 | 总计(总和) | ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion 、StatusCode |
模型 - 延迟
指标 | 内部名称 | 单位 | 集合体 | 尺寸 |
---|---|---|---|---|
响应时间 对于流式处理请求,建议使用延迟(响应能力)度量值。 适用于 PTU 和 PTU 管理的部署。 计算方式为用户发送提示后首个响应出现所花费的时间,由 API 网关进行度量。 随着提示大小增加和/或缓存命中大小减小,此数字将增加。 注意:此指标是一个近似值,因为测量的延迟在很大程度上取决于多个因素,包括并发调用和总体工作负载模式。 此外,它不考虑客户端与 API 终结点之间可能存在的任何客户端延迟。 请参阅您自己的日志,以实现最佳延迟跟踪。 |
TimeToResponse |
毫秒 | 最大值、最小值、平均值 | ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion 、StatusCode |
令牌间的标准化时间 对于流式处理请求,模型令牌生成速率,以毫秒为单位。 适用于 PTU 和 PTU 管理的部署。 |
NormalizedTimeBetweenTokens |
毫秒 | 最大值、最小值、平均值 | ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion |
模型 - 使用情况
指标 | 内部名称 | 单位 | 集合体 | 尺寸 |
---|---|---|---|---|
输入标记 在模型上处理(输入)的提示标记数量。 适用于 PTU、PTU 管理的部署和标准部署。 |
InputTokens |
计数 | 总计(总和) | ApiName 、Region 、ModelDeploymentName 、ModelName 、ModelVersion |
输出令牌 从模型生成的令牌数(输出)。 适用于 PTU、PTU 管理的部署和标准部署。 |
OutputTokens |
计数 | 总计(总和) | ApiName 、Region 、ModelDeploymentName 、ModelName 、ModelVersion |
令牌总数 在模型上处理的推理标记数量。 计算公式为提示令牌(输入)加上生成的令牌(输出)。 适用于 PTU、PTU 管理的部署和标准部署。 |
TotalTokens |
计数 | 总计(总和) | ApiName 、Region 、ModelDeploymentName 、ModelName 、ModelVersion |
令牌缓存匹配率 命中缓存的提示令牌的百分比。 适用于 PTU 和 PTU 管理的部署。 |
TokensCacheMatchRate |
百分比 | 平均值 | Region 、ModelDeploymentName 、ModelName 、ModelVersion |
预配利用率 预配管理的部署的利用率百分比,计算公式为 (已使用的 PTU/已部署的 PTU) x 100。 当利用率大于或等于 100% 时,调用将受到限制,并返回错误代码 429。 |
TokensCacheMatchRate |
百分比 | 平均值 | Region 、ModelDeploymentName 、ModelName 、ModelVersion |
预配的已使用标记 令牌总数减去一段时间内缓存的令牌。 适用于 PTU 和 PTU 管理的部署。 |
ProvisionedConsumedTokens |
计数 | 总计(总和) | Region 、ModelDeploymentName 、ModelName 、ModelVersion |
音频输入令牌 在模型上处理(输入)的音频提示标记数量。 适用于 PTU 托管的模型部署。 |
AudioInputTokens |
计数 | 总计(总和) | Region 、ModelDeploymentName 、ModelName 、ModelVersion |
音频输出令牌 模型上生成的音频提示令牌数(输出)。 适用于 PTU 托管的模型部署。 |
AudioOutputTokens |
计数 | 总计(总和) | Region 、ModelDeploymentName 、ModelName 、ModelVersion |
日志
借助资源日志,可以深入了解 Azure 资源已执行的操作。 日志是自动生成的,但必须将其路由到 Azure Monitor 日志,以便 通过配置诊断设置来保存或查询。 创建诊断设置时,日志按类别进行组织,指定要收集的日志类别。
配置诊断设置
可以使用 Azure Monitor 中的诊断设置导出所有指标。 若要使用 Azure Monitor Log Analytics 查询分析日志和指标数据,需要为 Azure AI Services 资源配置诊断设置。 需要对每个资源执行此操作。
在 Log Analytics 工作区中收集数据需要付费,因此只收集每项服务所需的类别。 资源日志的数据量因服务而异,差别明显。