AksEndpoint 类
注释
这是一个实验类,随时可能会更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental。
表示 Azure Kubernetes 服务上运行的同一终结点后面的 Web 服务版本的集合。
AksWebservice AksEndpoint 类部署具有单个评分终结点的单个服务,因此,可以在同一评分终结点后面部署多个 Web 服务版本。 可以将每个 Web 服务版本配置为提供流量的百分比,以便可以采用受控方式部署模型,例如用于 A/B 测试。 AksEndpoint 允许从类似于 AksWebservice 的模型对象进行部署。
初始化 Webservice 实例。
Webservice 构造函数检索与提供的工作区关联的 Webservice 对象的云表示形式。 它将返回与检索的 Webservice 对象的特定类型对应的子类的实例。
构造函数
AksEndpoint(workspace, name)
参数
名称 | 说明 |
---|---|
workspace
必需
|
包含要检索的 Webservice 对象的工作区对象。 |
name
必需
|
要检索的 Webservice 对象的名称。 |
变量
名称 | 说明 |
---|---|
versions
|
版本名称到版本对象的字典。 包含作为此终结点的一部分部署的所有版本。 |
方法
create_version |
在终结点中添加具有提供属性的新版本。 |
delete_version |
删除终结点中的版本。 |
deploy_configuration |
创建用于部署到 AKS 计算目标的配置对象。 |
serialize |
将此 Web 服务转换为 JSON 序列化字典。 |
update |
使用提供的属性更新终结点。 保留为 None 的值将在此终结点中保持不变 |
update_version |
使用提供的属性更新终结点中的现有版本。 保留为 None 的值将在此版本中保持不变。 |
create_version
在终结点中添加具有提供属性的新版本。
create_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)
参数
名称 | 说明 |
---|---|
version_name
必需
|
要添加到终结点中的版本的名称。 |
autoscale_enabled
|
是否在终结点中为此版本启用自动缩放。
默认值为 True(如果 默认值: None
|
autoscale_min_replicas
|
在终结点中自动缩放此版本时要使用的最小容器数。 默认值为 1 默认值: None
|
autoscale_max_replicas
|
在终结点中自动缩放此版本时使用的最大容器数。 默认值为 10 默认值: None
|
autoscale_refresh_seconds
|
自动缩放程序在终结点中尝试缩放此版本的频率。 默认值为 1 默认值: None
|
autoscale_target_utilization
|
自动缩放程序应尝试在终结点中为此版本维护目标利用率(以 100% 为单位)。 默认值为 70 默认值: None
|
collect_model_data
|
是否在终结点中为此版本启用模型数据收集。 默认为 False 默认值: None
|
cpu_cores
|
在终结点中为此版本分配的 CPU 核心数。 可以是小数。 默认值为 0.1 默认值: None
|
memory_gb
|
在终结点中为此版本分配的内存量(以 GB 为单位)。 可以是小数。 默认值为 0.5 默认值: None
|
scoring_timeout_ms
|
在终结点中强制实施对此版本的调用进行评分的超时。 默认值为 60000。 默认值: None
|
replica_max_concurrent_requests
|
在终结点中允许此版本的每个副本的最大并发请求数。 默认值为 1。 除非Microsoft技术支持或 Azure 机器学习团队的成员指示,否则不要从默认值 1 更改此设置。 默认值: None
|
max_request_wait_time
|
在返回 503 错误之前,请求将停留在队列中(以毫秒为单位)的最大时间。 默认值为 500。 默认值: None
|
num_replicas
|
在终结点中为此版本分配的容器数。 如果未设置此参数,则默认启用自动缩放程序。 默认值: None
|
tags
|
要为此终结点提供键值标记的字典。 默认值: None
|
properties
|
要为此终结点提供键值属性的字典。 部署后无法更改这些属性,但可以添加新的键值对。 默认值: None
|
description
|
提供此终结点的说明。 默认值: None
|
models
|
要与更新的服务一起打包的 Model 对象列表。 默认值: None
|
inference_config
|
用于提供所需模型部署属性的 InferenceConfig 对象。 默认值: None
|
gpu_cores
|
在终结点中为此版本分配的 GPU 核心数。 默认值为 0。 默认值: None
|
period_seconds
|
执行运行情况探测的频率(秒)。 默认值为 10 秒。 最小值为 1。 默认值: None
|
initial_delay_seconds
|
启动生存情况探测之前容器启动后的秒数。 默认值为 310。 默认值: None
|
timeout_seconds
|
运行情况探测超时的秒数。默认值为 2 秒。 最小值为 1。 默认值: None
|
success_threshold
|
运行情况探测在失败后被视为成功的最小连续成功。 默认值为 1。 最小值为 1。 默认值: None
|
failure_threshold
|
当 Pod 启动而运行情况探测失败时,Kubernetes 将尝试 failureThreshold 次才会放弃。 默认值为 3。 最小值为 1。 默认值: None
|
traffic_percentile
|
版本在终结点中占用的流量量。 默认值: None
|
is_default
|
是否将此版本设为终结点中的默认版本。 默认为 False。 默认值: None
|
is_control_version_type
|
是否将此版本用作终结点中的控制版本。 默认为 False。 默认值: None
|
cpu_cores_limit
|
允许此 Web 服务使用的最大 CPU 核心数。 可以是小数。 默认值: None
|
memory_gb_limit
|
允许使用此 Web 服务的最大内存量(以 GB 为单位)。 可以是小数。 默认值: None
|
例外
类型 | 说明 |
---|---|
delete_version
删除终结点中的版本。
delete_version(version_name)
参数
名称 | 说明 |
---|---|
version_name
必需
|
要删除的终结点中版本的名称。 |
例外
类型 | 说明 |
---|---|
deploy_configuration
创建用于部署到 AKS 计算目标的配置对象。
static deploy_configuration(autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, auth_enabled=None, cpu_cores=None, memory_gb=None, enable_app_insights=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, primary_key=None, secondary_key=None, tags=None, properties=None, description=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, namespace=None, token_auth_enabled=None, version_name=None, traffic_percentile=None, compute_target_name=None, cpu_cores_limit=None, memory_gb_limit=None)
参数
名称 | 说明 |
---|---|
autoscale_enabled
|
是否在终结点中为此版本启用自动缩放。
默认值为 True(如果 默认值: None
|
autoscale_min_replicas
|
在终结点中自动缩放此版本时要使用的最小容器数。 默认值为 1。 默认值: None
|
autoscale_max_replicas
|
在终结点中自动缩放此版本时使用的最大容器数。 默认值为 10。 默认值: None
|
autoscale_refresh_seconds
|
自动缩放程序在终结点中尝试缩放此版本的频率。 默认值为 1。 默认值: None
|
autoscale_target_utilization
|
自动缩放程序应尝试在终结点中为此版本维护目标利用率(以 100% 为单位)。 默认值为 70。 默认值: None
|
collect_model_data
|
是否在终结点中为此版本启用模型数据收集。 默认为 False。 默认值: None
|
auth_enabled
|
是否在终结点中为此版本启用密钥身份验证。 默认为 True。 默认值: None
|
cpu_cores
|
在终结点中为此版本分配的 CPU 核心数。 可以是小数。 默认值为 0.1 默认值: None
|
memory_gb
|
在终结点中为此版本分配的内存量(以 GB 为单位)。 可以是小数。 默认值为 0.5 默认值: None
|
enable_app_insights
|
是否在终结点中为此版本启用 ApplicationInsights 日志记录。 默认为 False。 默认值: None
|
scoring_timeout_ms
|
在终结点中强制执行对此版本的评分调用的超时。 默认值为 60000 默认值: None
|
replica_max_concurrent_requests
|
在终结点中允许此版本的每个副本的最大并发请求数。 默认值为 1。 除非Microsoft技术支持或 Azure 机器学习团队的成员指示,否则不要从默认值 1 更改此设置。 默认值: None
|
max_request_wait_time
|
在返回 503 错误之前,请求将停留在队列中(以毫秒为单位)的最大时间。 默认值为 500。 默认值: None
|
num_replicas
|
在终结点中为此版本分配的容器数。 如果未设置此参数,则默认启用自动缩放程序。 默认值: None
|
primary_key
|
用于此终结点的主身份验证密钥。 默认值: None
|
secondary_key
|
用于此终结点的辅助身份验证密钥。 默认值: None
|
tags
|
要为此终结点提供键值标记的字典。 默认值: None
|
properties
|
要为此终结点提供键值属性的字典。 部署后无法更改这些属性,但可以添加新的键值对 默认值: None
|
description
|
提供此终结点的说明。 默认值: None
|
gpu_cores
|
在终结点中为此版本分配的 GPU 核心数。 默认值为 0。 默认值: None
|
period_seconds
|
执行运行情况探测的频率(秒)。 默认值为 10 秒。 最小值为 1。 默认值: None
|
initial_delay_seconds
|
启动生存情况探测之前容器启动后的秒数。 默认值为 310。 默认值: None
|
timeout_seconds
|
运行情况探测超时的秒数。默认值为 2 秒。 最小值为 1。 默认值: None
|
success_threshold
|
运行情况探测失败后,将其视为成功所需的最小连续成功次数。 默认值为 1。 最小值为 1。 默认值: None
|
failure_threshold
|
当 Pod 启动且运行情况探测失败时,Kubernetes 会在放弃之前尝试 默认值: None
|
namespace
|
要在其中部署此终结点的 Kubernetes 命名空间:最多 63 个小写字母数字 ('a'-'z', '0'-'9') 和连字符 ('-') 字符。 第一个字符和最后一个字符不能是连字符。 默认值: None
|
token_auth_enabled
|
是否为此终结点启用令牌身份验证。 如果启用此功能,则用户可以使用其 Azure Active Directory 凭据提取访问令牌来访问此终结点。 默认为 False。 默认值: None
|
version_name
|
终结点中版本的名称。 默认值: None
|
traffic_percentile
|
版本在终结点中占用的流量量。 默认值: None
|
compute_target_name
|
要部署到的计算目标的名称 默认值: None
|
cpu_cores_limit
|
允许此 Web 服务使用的最大 CPU 核心数。 可以是小数。 默认值: None
|
memory_gb_limit
|
允许使用此 Web 服务的最大内存量(以 GB 为单位)。 可以是小数。 默认值: None
|
返回
类型 | 说明 |
---|---|
例外
类型 | 说明 |
---|---|
serialize
update
使用提供的属性更新终结点。
保留为 None 的值将在此终结点中保持不变
update(auth_enabled=None, token_auth_enabled=None, enable_app_insights=None, description=None, tags=None, properties=None)
参数
名称 | 说明 |
---|---|
auth_enabled
|
是否在终结点中为此版本启用密钥身份验证。 默认为 True。 默认值: None
|
token_auth_enabled
|
是否为此终结点启用令牌身份验证。 如果启用此功能,则用户可以使用其 Azure Active Directory 凭据提取访问令牌来访问此终结点。 默认为 False。 默认值: None
|
enable_app_insights
|
是否在终结点中为此版本启用 Application Insights 日志记录。 默认为 False。 默认值: None
|
description
|
提供此终结点的说明。 默认值: None
|
tags
|
要为此终结点提供键值标记的字典。 默认值: None
|
properties
|
要为此终结点提供键值属性的字典。 部署后无法更改这些属性,但可以添加新的键值对。 默认值: None
|
例外
类型 | 说明 |
---|---|
update_version
使用提供的属性更新终结点中的现有版本。
保留为 None 的值将在此版本中保持不变。
update_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)
参数
名称 | 说明 |
---|---|
version_name
必需
|
终结点中版本的名称。 |
autoscale_enabled
|
是否在终结点中为此版本启用自动缩放。 如果num_replicas为 None,则默认值为 True。 默认值: None
|
autoscale_min_replicas
|
在终结点中自动缩放此版本时要使用的最小容器数。 默认值为 1。 默认值: None
|
autoscale_max_replicas
|
在终结点中自动缩放此版本时使用的最大容器数。 默认值为 10。 默认值: None
|
autoscale_refresh_seconds
|
自动缩放程序在终结点中尝试缩放此版本的频率。 默认值为 1 默认值: None
|
autoscale_target_utilization
|
自动缩放程序应尝试在终结点中为此版本维护目标利用率(以 100% 为单位)。 默认值为 70。 默认值: None
|
collect_model_data
|
是否在终结点中为此版本启用模型数据收集。 默认为 False。 默认值: None
|
cpu_cores
|
在终结点中为此版本分配的 CPU 核心数。 可以是小数。 默认值为 0.1 默认值: None
|
memory_gb
|
在终结点中为此版本分配的内存量(以 GB 为单位)。 可以是小数。 默认值为 0.5 默认值: None
|
scoring_timeout_ms
|
在终结点中强制实施对此版本的调用进行评分的超时。 默认值为 60000。 默认值: None
|
replica_max_concurrent_requests
|
在终结点中允许此版本的每个副本的最大并发请求数。 默认值为 1。 除非Microsoft技术支持或 Azure 机器学习团队的成员指示,否则不要从默认值 1 更改此设置。 默认值: None
|
max_request_wait_time
|
在返回 503 错误之前,请求将停留在队列中(以毫秒为单位)的最大时间。 默认值为 500。 默认值: None
|
num_replicas
|
在终结点中为此版本分配的容器数。 如果未设置此参数,则默认启用自动缩放程序。 默认值: None
|
tags
|
要为此终结点提供键值标记的字典。 默认值: None
|
properties
|
要为此终结点提供键值属性的字典。 部署后无法更改这些属性,但可以添加新的键值对。 默认值: None
|
description
|
提供此终结点的说明 默认值: None
|
models
|
要与更新的服务一起打包的 Model 对象列表 默认值: None
|
inference_config
|
用于提供所需模型部署属性的 InferenceConfig 对象。 默认值: None
|
gpu_cores
|
在终结点中为此版本分配的 GPU 核心数。 默认值为 0。 默认值: None
|
period_seconds
|
执行运行情况探测的频率(秒)。 默认值为 10 秒。 最小值为 1。 默认值: None
|
initial_delay_seconds
|
启动生存情况探测之前容器启动后的秒数。 默认值为 310。 默认值: None
|
timeout_seconds
|
运行情况探测超时的秒数。默认值为 2 秒。 最小值为 1。 默认值: None
|
success_threshold
|
运行情况探测在失败后被视为成功的最小连续成功。 默认值为 1。 最小值为 1。 默认值: None
|
failure_threshold
|
当 Pod 启动而运行情况探测失败时,Kubernetes 将尝试 failureThreshold 次才会放弃。 默认值为 3。 最小值为 1。 默认值: None
|
traffic_percentile
|
版本在终结点中占用的流量量。 默认值: None
|
is_default
|
是否将此版本设为终结点中的默认版本。 默认为 False。 默认值: None
|
is_control_version_type
|
是否将此版本用作终结点中的控制版本。 默认为 False。 默认值: None
|
cpu_cores_limit
|
允许此 Web 服务使用的最大 CPU 核心数。 可以是小数。 默认值: None
|
memory_gb_limit
|
允许使用此 Web 服务的最大内存量(以 GB 为单位)。 可以是小数。 默认值: None
|
例外
类型 | 说明 |
---|---|