练习 - 从内置模板创建 HPC 群集
可以直接从 Azure CycleCloud Web 应用程序的图形界面创建新群集。 CycleCloud 提供了许多预定义的计划程序特定模板,这简化了相应群集调度器的配置。
预配了托管 CycleCloud Web 应用程序的 Azure 虚拟机后,即可评估其用于将基于 Slurm 的 HPC 群集部署到 Azure。 首先需要确保 Azure 订阅满足群集的资源要求。 还需要考虑管理团队是否希望在项目预算中保留群集的成本。 因此,你计划在完成评估后设置 CycleCloud 预算警报并取消预配实验室环境。
在本练习中,你将使用 Azure CycleCloud 逐步将基于 Slurm 的 HPC 群集部署到 Azure。 该练习由以下任务组成:
- 任务 1:准备部署 HPC 群集
- 任务 2:使用 Azure CycleCloud 创建 HPC 群集
- 任务 3:使用 Azure CycleCloud 配置和启动 HPC 群集
- 任务 4:清理实验室环境
任务 1:准备部署 HPC 群集
在部署 HPC 群集之前,应首先确保有足够的网络和计算资源来适应其使用情况。
注释
若要完成本练习,无需满足配额要求来适应计算节点的预配,因为不会在创建的群集上运行任何作业。 但是,如果是这种情况,你可能会注意到本练习中的屏幕截图与 CycleCloud Web 界面之间不匹配,因为如果没有足够的可用核心数,CycleCloud 不会预先创建占位符计算节点。
在计算机上,切换到显示 Azure 门户的 Web 浏览器窗口。
在 Azure 门户中,使用门户界面顶部的搜索框搜索 cyclecloud-rg 资源组。
在 Azure 门户中的 cyclecloud-rg 页上,在资源列表中,选择 cyclecloud-rg-vnet 条目,表示在本模块上练习中预配的虚拟网络。
在 cyclecloud-rg-vnet 页上的左侧垂直菜单中,选择 “子网”。
在 cyclecloud-rg-vnet | 子网 窗格中,选择 + 子网。
在 “添加子网 ”窗格的“ 名称 ”文本框中,输入 contoso-slurm-lab-cluster-subnet,接受默认子网范围,然后选择“ 保存”。
注释
建议将托管 CycleCloud Azure VM 的子网与托管群集计算资源的子网分开。 对于较大的群集,应分配足够大小的 IP 地址范围。
在 Azure 门户中,使用搜索框搜索 订阅。
在“ 订阅 ”页上,选择在本模块中用于练习的 Azure 订阅。
在显示 Azure 订阅的页面上,在左侧的垂直菜单中,在 “设置” 部分,选择 “使用情况 + 配额”。
在 “使用情况 + 配额 ”窗格中,配置以下筛选设置(将其他人保留其默认值):
设置 价值 选择服务 选择 标准 Dv3 系列 vCPU、 标准 FSv2 系列 vCPU 和 区域 vCPU 总数 条目。 选择供应商 选择 Microsoft.Compute 条目。 选择一个位置 选择要在此练习中部署群集的 Azure 区域的名称。 查看输出并确定每个组中可用的 vCPU 数。
任务 2:使用 Azure CycleCloud 创建 HPC 群集
现在,已在 Azure VM 中安装了 CycleCloud Web 应用程序、Azure 订阅中提供的足够 vCPU 核心,以及能够容纳群集节点自动缩放的指定网络子网。 现在可以继续部署基于 Slurm 的群集。
在计算机上,在 Web 浏览器窗口中显示 Azure CycleCloud Web 应用程序的 “订阅 ”页,在左上角选择“ 返回群集 ”链接。
在“ 创建新群集 ”页上,查看可用选项,然后在“ 计划程序 ”部分选择 “Slurm”。
在“新建 Slurm 群集”页的“关于”选项卡上的“群集名称”文本框中,输入 contoso-slurm-lab-cluster。
在“新建 Slurm 群集”页的“必需设置”选项卡上的“群集名称”文本框中,配置以下设置(将其他人保留其默认值):
设置 价值 区域 选择要在此练习中部署群集的 Azure 区域的名称。 计划程序 VM 类型 选择“ 选择”,然后在 “选择计算机类型 ”弹出窗口中,在 SKU 搜索 文本框中,输入“D2ds_v5”。 在结果列表中,选中 D2ds_v5 条目旁边的复选框,然后选择“ 应用”。 设置 价值 最大高性能计算核心数 输入 100 最大 HTC 核心数 输入 100 每个规模集的最大 VM 数 输入 40 子网 ID 选择“cyclecloud-rg: cyclecloud-rg-vnet-contoso-slurm-lab-cluster-subnet” 注释
“每个规模集的最大 VM 数”设置用于限制可在群集上运行的消息传递接口作业的最大大小,因为规模集当前是 InfiniBand 构造边界。
在“新建 Slurm 群集”页的“网络连接存储”选项卡上,验证 NFS 类型是否已设置为 Builtin。 接受默认值大小(GB)为100,然后选择下一步。
在“新建 Slurm 群集”页的“高级设置”选项卡上,查看可用选项而不进行任何更改,然后选择“下一步”。
在“新建 Slurm 群集”页的 Cloud-init 选项卡上,查看可用选项而不进行任何更改,然后选择“保存”。
任务 3:使用 Azure CycleCloud 配置和启动 HPC 群集
为了准备使群集投入运行,请设置警报,当群集使用成本达到分配给 Azure 资源成本的预算时通知你。 还可以使用 CycleCloud Web 应用程序的图形界面启动群集来验证部署。
在计算机上,在显示 Azure CycleCloud Web 应用程序的图形界面的 Web 浏览器中,查看新部署的群集的属性。
在 contoso-slurm-lab-cluster 页上,选择“ 创建新警报 ”链接。
在 contoso-slurm-lab-cluster 弹出窗口的群集使用情况警报 中,指定以下设置,然后选择“ 保存” :
设置 价值 预算 $100.00 计费方式 Month 发送通知 已启用 收件人 cc-admin@contoso.com 返回 contoso-slurm-lab-cluster 页面,选择 “开始 ”链接,出现确认提示时,选择“ 确定”。
监视启动过程。
注释
此过程涉及预配提供群集头节点角色的 Azure VM,以及 Slurm 计划程序的安装和配置。 这可能需要大约五分钟。
任务 4:清理实验室环境
你已使用 Azure CycleCloud 应用程序完成了群集部署过程的测试。 若要避免与使用 Azure 资源相关的不必要的成本,请终止群集,并删除在本课程的练习中预配的所有资源。
在计算机上,在显示 Azure CycleCloud Web 应用程序的图形界面的 Web 浏览器中,在 contoso-slurm-lab-cluster 页上,选择 终止 链接,并在系统提示确认时选择“ 确定”。
监控终止过程。
注释
此过程涉及取消预配提供群集头节点角色的 Azure VM。 这可能需要大约五分钟。
注释
你应删除在本练习中部署的资源,如此任务所述。 如果不删除资源,可能会对订阅产生额外的费用。
注释
若要删除在此实验室中预配的所有其他资源,请删除 cyclecloud-rg 资源组。
在计算机上,切换到显示 Azure 门户的浏览器窗口。
在 Azure 门户中,导航到“cyclecloud-rg”边栏选项卡。 选择工具栏中的 “删除资源组 ”条目,然后在 “键入资源组名称 ”文本框中,输入 cyclecloud-rg,然后选择“ 删除”。
重复上一步,删除名称以 contoso-slurm-lab-cluster 开头的资源组,其中包含群集使用的磁盘资源。
祝贺! 你已成功完成本模块的第二个练习。 确保满足新群集部署所需的计算和网络资源的可用性。 然后,你使用 Azure CycleCloud 部署了群集,配置了其预算警报,并启动它来验证其功能。 最后,终止了群集并删除了在本模块中预配的所有资源,以避免任何不必要的成本。