重要
此功能在 Beta 版中。
本文介绍 Databricks 上的无服务器 GPU 计算,并提供建议的用例、有关如何设置 GPU 计算资源和功能限制的指导。
什么是无服务器 GPU 计算?
无服务器 GPU 计算是 无服务器计算产品的一部分。 无服务器 GPU 计算专用于自定义单节点和多节点 深度学习 工作负载。 可以使用无服务器 GPU 计算来使用偏好的框架训练和微调自定义模型,并获取最先进的效率、性能和质量。
无服务器 GPU 计算包括:
- 跨笔记本、Unity 目录和 MLflow 的集成体验: 可以使用 Notebook 以交互方式开发代码。
- 无服务器 GPU 计算支持 A10s。
在无服务器 GPU 计算中预安装的包不是 Databricks Runtime ML 的替代项。 虽然存在常见包,但并非所有 Databricks Runtime ML 依赖项和库都反映在无服务器 GPU 计算环境中。
推荐用例
Databricks 建议对任何需要自定义训练和 GPU 的模型训练用例使用无服务器 GPU 计算。
例如:
- 基于深度学习的预测工作负载
- 微调
- 计算机视觉
- 计算机音频
- 推荐系统
要求
- 以下 Azure 支持的区域之一中的工作区:
eastus
eastus2
centralus
northcentralus
westcentralus
westus
已安装的内容
笔记本的无服务器 GPU 计算使用环境版本,该版本提供稳定的客户端 API,以确保应用程序兼容性。 这样,Databricks 就可以独立升级服务器,从而提供性能改进、安全增强和 bug 修复,而无需对工作负载进行任何代码更改。
无服务器 GPU 计算除了使用以下包外,还使用 环境版本 3 :
CUDA 12.4
torch 2.6.0
torchvision 0.21.0
有关系统环境版本 3 中包含的包,请参阅 无服务器环境版本 3 。
注释
无服务器 GPU 计算不支持基础环境。 要在你的环境中设置无服务器 GPU 计算,请直接在“环境”侧面板中指定依赖项,或者通过 pip install
命令来安装它们。
将库添加到环境
可以将其他库安装到无服务器 GPU 计算环境。 请参阅 向笔记本添加依赖项。
配置无服务器 GPU 计算
可以选择在工作区中的笔记本环境中使用无服务器 GPU 计算。
打开笔记本后:
- 选择
打开 “环境 ”侧面板。
- 从“加速器”字段中选择 A10。
- 选择 3 作为 环境版本。
- 选择 “应用 ”,然后 确认 要将无服务器 GPU 计算应用到笔记本环境。 连接到资源后,笔记本会立即开始使用可用的计算。
注释
计算连接将在非活动状态持续60分钟后自动终止。
局限性
- 无服务器 GPU 计算仅支持 A10 计算。
- 不支持专用链接。 不支持专用链接后面的存储或 pip 存储库。
- 合规性安全配置文件工作区(如 HIPAA 或 PCI)不支持无服务器 GPU 计算。 目前不支持处理受管制的数据。
笔记本示例
使用 PyTorch 进行深度学习
以下笔记本提供了一个简单的示例,演示如何使用 PyTorch 和无服务器 GPU 计算运行深度学习训练。
使用 PyTorch 笔记本进行深度学习训练
微调 Qwen2-0.5B 模型
下面的笔记本提供有关如何使用以下命令有效地微调 Qwen2-0.5B 模型的示例:
- 用于监督微调的转换器强化学习 (TRL)
- 用于内存高效训练的Liger内核,结合了优化的Triton内核。
- 使用 LoRA(低级别自适应)进行参数高效的微调,并利用 PyTorch 和无服务器 GPU 计算来训练模型。
微调 Qwen2-0.5B 模型笔记本
微调嵌入模型
以下笔记本提供了如何微调嵌入模型的示例。 此示例使用对比学习来微调嵌入模型gte-large-en-v1.5
,该模型在单个 A10G 上运行。
微调嵌入模型笔记本
使用 Unsloth 微调 Llama-3.2-3B
此笔记本演示如何使用 Unsloth 库微调 Llama-3.2-3B。
使用 Unsloth 笔记本微调 Llama 模型
对象检测自定义微调
此笔记本演示如何在 A10 GPU 上使用 Hugging Face 示例训练对象检测模型。
对象检测自定义微调笔记本
XGBoost 模型训练
此笔记本演示如何在单个 GPU 上训练 XGBoost 回归模型。
XGBoost 模型训练笔记本
双塔推荐模型
这些笔记本演示如何将建议数据转换为 MDS 格式,然后使用该数据创建双塔建议模型。
使用 TRL 进行分布式监督式微调
此笔记本演示如何使用 Databricks Serverless GPU 在单个节点 A10 GPU 上用 DeepSpeed ZeRO Stage 3 优化的 TRL 库运行监督微调 (SFT)。
分布式 TRL SFT 训练笔记本
使用 GluonTS 进行时序预测
此笔记本演示了一个端到端工作流,用于在无服务器 GPU 群集上使用 GluonTS 的 DeepAR 模型预测电力消耗数据的概率时序预测,包括数据引入、重新采样、模型训练、预测、可视化和评估。