Note
此信息适用于 Databricks CLI 版本 0.205 及更高版本。 The Databricks CLI is in Public Preview.
Databricks CLI use is subject to the Databricks License and Databricks Privacy Notice, including any Usage Data provisions.
The clusters
command group within the Databricks CLI allows you to create, start, edit, list, terminate, and delete clusters.
Databricks 群集是一组计算资源和配置,可在其中运行数据工程、数据科学和数据分析工作负载,例如生产 ETL 管道、流分析、即席分析和机器学习。 请参阅连接至综合和作业计算。
Important
Databricks 将终止群集的群集配置信息保留 30 天。 若要在终止 30 天以上的群集配置后保留通用群集配置,管理员可以将群集固定到群集列表。
databricks 群集更改所有者
更改群集的所有者。 必须是管理员,群集必须终止才能执行此作。 可将服务主体应用程序 ID 作为参数提供给owner_username。
databricks clusters change-owner CLUSTER_ID OWNER_USERNAME [flags]
Arguments
CLUSTER_ID
群集 ID。
OWNER_USERNAME
此 RPC 之后cluster_id的新所有者。
选项
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
databricks 群集创建
创建新群集。 如果需要,此命令将从云提供商获取新实例。 此命令是异步的;返回cluster_id可用于轮询群集状态。 此命令返回时,群集将处于 PENDING 状态。 群集进入“正在运行”状态后将可用。 由于云提供商限制(帐户限制、现价等)或暂时性网络问题,Databricks 可能无法获取某些请求的节点。
如果 Databricks 获取请求的按需节点的至少 85%,群集创建将成功。 否则,群集将终止并显示信息性错误消息。
Databricks 建议填写 创建计算 UI ,然后从 UI 复制生成的 JSON 定义,而不是从头开始创作群集的 JSON 定义。
databricks clusters create SPARK_VERSION [flags]
Arguments
SPARK_VERSION
群集的 Spark 版本,例如 13.3.x-scala2.12。 可以使用 列表可用的 Spark 版本 API 检索可用的 Spark 版本 列表。
选项
--apply-policy-default-values
设置为 true 时,策略中的固定值和默认值将用于省略的字段。
--autotermination-minutes int
在群集处于非活动状态(以分钟为单位)后自动终止群集。
--cluster-name string
用户请求的群集名称。
--data-security-mode DataSecurityMode
数据安全模式决定从群集访问数据时要使用的数据治理模型。 支持的值:DATA_SECURITY_MODE_AUTO
、、、DATA_SECURITY_MODE_DEDICATED
、DATA_SECURITY_MODE_STANDARD
、LEGACY_SINGLE_USER
LEGACY_PASSTHROUGH
LEGACY_TABLE_ACL
LEGACY_SINGLE_USER_STANDARD
、NONE
、、 SINGLE_USER
USER_ISOLATION
--driver-instance-pool-id string
群集所属的驱动程序实例池的可选 ID。
--driver-node-type-id string
Spark 驱动程序的节点类型。
--enable-elastic-disk
自动缩放本地存储:启用后,当 Spark 辅助角色在磁盘空间不足时,此群集将动态获取额外的磁盘空间。
--enable-local-disk-encryption
是否在群集 VM 的本地磁盘上启用 LUKS。
--instance-pool-id string
群集所属的实例池的可选 ID。
--is-single-node
仅当类型 = CLASSIC_PREVIEW
时,才能使用此字段。
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
--kind Kind
此计算规范描述的计算类型。 支持的值: CLASSIC_PREVIEW
--no-wait
不要等待到达“正在运行”状态
--node-type-id string
此字段通过单个值对提供给此群集中的每个 Spark 节点的资源进行编码。
--num-workers int
此群集应该拥有的工作节点的数目。
--policy-id string
用于创建群集(如果适用)的群集策略的 ID。
--runtime-engine RuntimeEngine
确定群集的运行时引擎(标准或 Photon)。 支持的值:NULL
、PHOTON
、STANDARD
--single-user-name string
如果data_security_mode为 SINGLE_USER
,则为单个用户名。
--timeout duration
达到运行状态的最大时间(默认为 20m0s)
--use-ml-runtime
仅当类型 = CLASSIC_PREVIEW
时,才能使用此字段。
databricks 群集删除
终止具有指定 ID 的群集。 以异步方式删除群集。 终止完成后,群集将处于 TERMINATED
状态。 如果群集已处于 TERMINATING
或 TERMINATED
状态,则不会发生任何作。
databricks clusters delete CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要终止的群集。
选项
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
--no-wait
不要等待到达 TERMINATED
状态
--timeout duration
达到 TERMINATED
状态的最大时间(默认为 20m0s)
databricks 群集编辑
更新群集的配置以匹配提供的属性和大小。 如果群集处于 RUNNING 或 TERMINATED 状态,则可以更新群集。
如果在运行状态下更新群集,则会重启群集,以便新属性生效。
如果在 TERMINATED 状态下更新群集,它将保持 TERMINATED。 下次使用群集/启动 API 时,新属性将生效。 任何尝试更新处于任何其他状态的群集都将被拒绝,并出现INVALID_STATE错误代码。
无法编辑 Databricks 作业服务创建的群集。
databricks clusters edit CLUSTER_ID SPARK_VERSION [flags]
Arguments
CLUSTER_ID
群集的 ID
SPARK_VERSION
群集的 Spark 版本,例如 13.3.x-scala2.12。 可以使用 列表可用的 Spark 版本 API 检索可用的 Spark 版本 列表。
选项
--apply-policy-default-values
对省略的字段使用策略中的固定值和默认值。
--autotermination-minutes int
在群集处于非活动状态(以分钟为单位)后自动终止群集。
--cluster-name string
用户请求的群集名称。
--data-security-mode DataSecurityMode
数据安全模式决定从群集访问数据时要使用的数据治理模型。 支持的值:DATA_SECURITY_MODE_AUTO
、、、、 LEGACY_SINGLE_USER
SINGLE_USER
DATA_SECURITY_MODE_DEDICATED``, DATA_SECURITY_MODE_STANDARD
LEGACY_PASSTHROUGH
LEGACY_SINGLE_USER_STANDARD
LEGACY_TABLE_ACL
NONE
USER_ISOLATION
--driver-instance-pool-id string
群集所属的驱动程序实例池的可选 ID。
--driver-node-type-id string
Spark 驱动程序的节点类型。
--enable-elastic-disk
自动缩放本地存储:启用后,当 Spark 辅助角色在磁盘空间不足时,此群集将动态获取额外的磁盘空间。
--enable-local-disk-encryption
是否在群集 VM 的本地磁盘上启用 LUKS。
--instance-pool-id string
群集所属的实例池的可选 ID。
--is-single-node
仅当类型 = CLASSIC_PREVIEW
时,才能使用此字段。
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
--kind Kind
此计算规范描述的计算类型。 支持的值: CLASSIC_PREVIEW
--no-wait
不要等待到达“正在运行”状态
--node-type-id string
此字段通过单个值对提供给此群集中的每个 Spark 节点的资源进行编码。
--num-workers int
此群集应该拥有的工作节点的数目。
--policy-id string
用于创建群集(如果适用)的群集策略的 ID。
--runtime-engine RuntimeEngine
确定群集的运行时引擎(标准或 Photon)。 支持的值:NULL
、PHOTON
、STANDARD
--single-user-name string
如果data_security_mode SINGLE_USER,则为单个用户名。
--timeout duration
达到运行状态的最大时间(默认为 20m0s)
--use-ml-runtime
仅当类型 = CLASSIC_PREVIEW
时,才能使用此字段。
databricks 群集事件
列出有关群集活动的事件。 此 API 分页。 如果要读取更多事件,响应将包含请求下一页事件所需的所有参数。
databricks clusters events CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要检索其事件的群集的 ID。
选项
--end-time int
以纪元为单位的结束时间。
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
--limit int
已弃用:改用与page_size结合使用page_token。
--offset int
已弃用:改用与page_size结合使用page_token。
--order GetEventsOrder
列出事件的顺序。 支持的值: ASC
、 DESC
--page-size int
事件页中要包含的最大事件数。
--page-token string
使用从上一个请求返回的next_page_token或prev_page_token分别列出下一页或上一页的事件。
--start-time int
开始时间(以 epoch 毫秒为单位)。
databricks 群集获取
获取给定群集标识符的信息。 群集在运行时可以描述,或者在终止群集后最多 60 天。
databricks clusters get CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要检索信息的群集。
选项
databricks 群集列表
列出有关所有固定和活动群集的信息,以及在过去 30 天内终止的所有群集。 不包括在此时间段之前终止的群集。
databricks clusters list [flags]
Arguments
None
选项
--cluster-sources []string
按源筛选群集
--cluster-states []string
按状态筛选群集
--is-pinned
按固定状态筛选群集
--page-size int
使用此字段可以指定要由服务器返回的最大结果数。
--page-token string
使用从上一个请求返回的next_page_token或prev_page_token分别列出群集的下一页或上一页。
--policy-id string
按策略 ID 筛选群集
databricks 群集 list-node-types
列出支持的 Spark 节点类型。 这些节点类型可用于启动群集。
databricks clusters list-node-types [flags]
Arguments
None
选项
databricks 群集列表区域
列出可在其中创建群集的可用性区域(例如 us-west-2a)。 这些区域可用于启动群集。
databricks clusters list-zones [flags]
Arguments
None
选项
databricks 群集永久删除
永久删除群集。 此群集已终止,并异步删除资源。
此外,用户将不再在群集列表中看到永久删除的群集,API 用户不能再对永久删除的群集执行任何作。
databricks clusters permanent-delete CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要删除的群集。
选项
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
databricks 群集引脚
固定群集以确保 ListClusters API 始终返回群集。 固定已固定的群集将不起作用。 此 API 只能由工作区管理员调用。
databricks clusters pin CLUSTER_ID [flags]
Arguments
CLUSTER_ID
群集 ID。
选项
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
databricks 群集调整大小
重设群集大小以具有所需数量的辅助角色。 除非群集处于 RUNNING 状态,否则此作将失败。
databricks clusters resize CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要调整大小的群集。
选项
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
--no-wait
不要等待到达“正在运行”状态
--num-workers int
此群集应该拥有的工作节点的数目。
--timeout duration
达到运行状态的最大时间(默认为 20m0s)
databricks 群集重启
重启具有指定 ID 的群集。 如果群集当前未处于 RUNNING 状态,则不会发生任何作。
databricks clusters restart CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要启动的群集。
选项
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
--no-wait
不要等待到达“正在运行”状态
--restart-user string
重启群集的用户。
--timeout duration
达到运行状态的最大时间(默认为 20m0s)
databricks 群集 spark-versions
列出可用的 Spark 版本。 这些版本可用于启动群集。
databricks clusters spark-versions [flags]
Arguments
None
选项
databricks 群集启动
使用指定的 ID 启动已终止的群集。 这类似于 createCluster,但以下情况除外: - 保留以前的群集 ID 和属性。 - 群集以最后一个指定的群集大小开头。 - 如果上一个群集是自动缩放群集,则当前群集以最小节点数开头。 - 如果群集当前未处于 TERMINATED 状态,则不会发生任何作。 - 无法启动启动用于运行作业的群集。
databricks clusters start CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要启动的群集。
选项
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
--no-wait
不要等待到达“正在运行”状态
--timeout duration
达到运行状态的最大时间(默认为 20m0s)
databricks 群集取消固定
取消固定群集以允许最终从 ListClusters API 中删除群集。 取消固定未固定的群集将不起作用。 此 API 只能由工作区管理员调用。
databricks clusters unpin CLUSTER_ID [flags]
Arguments
CLUSTER_ID
群集 ID。
选项
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
databricks 群集更新
更新群集的配置,以匹配部分属性和大小集。 表示使用请求正文中的update_mask字段更新哪些字段。 如果群集处于 RUNNING 或 TERMINATED 状态,则可以更新群集。 如果在运行状态下更新群集,则会重启群集,以便新属性生效。 如果在 TERMINATED 状态下更新群集,它将保持 TERMINATED。 在下次使用群集启动 API 启动群集时,更新的属性将生效。 尝试更新处于任何其他状态的群集将被拒绝,并出现INVALID_STATE错误代码。 Databricks 作业服务创建的群集无法更新。
databricks clusters update CLUSTER_ID UPDATE_MASK [flags]
Arguments
CLUSTER_ID
群集的 ID。
UPDATE_MASK
用于指定要更新的群集属性和大小字段。 有关详细信息,请参阅 https://google.aip.dev/161。 字段掩码必须是单个字符串,多个字段用逗号分隔(无空格)。 字段路径相对于资源对象,使用点(.)导航子字段(例如)。 author.given_name
不允许对序列或映射字段中的元素进行规范,因为只能指定整个集合字段。 字段名称必须与资源字段名称完全匹配。 表示完全替换的 _
字段掩码。 建议始终显式列出要更新的字段,避免使用 _
通配符,因为如果 API 将来发生更改,可能会导致意外结果。
选项
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
--no-wait
不要等待到达“正在运行”状态
--timeout duration
达到运行状态的最大时间(默认为 20m0s)
databricks 群集获取权限级别
获取群集权限级别。
databricks clusters get-permission-levels CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要为其获取或管理权限的群集。
选项
databricks 群集获取权限
获取群集权限。 群集可以从其根对象继承权限。
databricks clusters get-permissions CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要为其获取或管理权限的群集。
选项
databricks 群集集权限
设置群集权限,替换现有权限(如果存在)。 如果未指定任何权限,则删除所有直接权限。 对象可以从其根对象继承权限。
databricks clusters set-permissions CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要为其获取或管理权限的群集。
选项
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
databricks 群集更新权限
更新群集上的权限。 群集可以从其根对象继承权限。
databricks clusters update-permissions CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要为其获取或管理权限的群集。
选项
--json JSON
内联 JSON 字符串或 @path 包含请求正文的 JSON 文件的 JSON 文件
Global flags
--debug
是否启用调试日志记录。
-h
或 --help
显示 Databricks CLI、相关命令组或相关命令的帮助。
--log-file
字符串
一个字符串,表示要将输出日志写入到的文件。 如果未指定此标志,则默认会将输出日志写入到 stderr。
--log-format
格式
日志格式类型或 text
json
。 默认值是 text
。
--log-level
字符串
一个表示日志格式级别的字符串。 如果未指定,则禁用日志格式级别。
-o, --output
类型
命令输出类型或 text
json
。 默认值是 text
。
-p, --profile
字符串
用于运行命令的文件中配置文件 ~/.databrickscfg
的名称。 如果未指定此标志,则如果存在,则使用命名 DEFAULT
的配置文件。
--progress-format
格式
显示进度日志的格式: default
、 append
、 inplace
或 json
-t, --target
字符串
如果适用,要使用的捆绑包目标