你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文介绍 Azure NetApp 文件中的可靠性支持,包括通过 可用性区域 和 多区域部署实现区域内复原能力。
可靠性是你和Microsoft之间的共同责任。 可以使用本指南确定哪些可靠性选项满足特定业务目标和运行时间目标。
Azure NetApp 文件是一种本机企业级文件存储解决方案,可在 Azure 中无缝集成,通过 SMB 和 NFS 协议跨客户端实现文件共享。 Azure NetApp 文件专为高性能而设计,提供可缩放且安全的文件存储,以服务的形式进行管理。
若要使用 Azure NetApp 文件,必须配置一个 NetApp 帐户,该帐户包含又包含主机卷的容量池。 可以独立配置容量和吞吐量,并管理根据各种需求定制的数据保护选项。 可以在卷之间启用复制,即使卷位于不同的位置也是如此。
生产部署建议
若要了解如何部署 Azure NetApp 文件以支持解决方案的可靠性要求,以及可靠性如何影响体系结构的其他方面,请参阅 Azure Well-Architected Framework 中 Azure NetApp 文件的体系结构最佳做法。
暂时性故障
暂时性故障是指组件发生短暂的间歇性故障。 这些故障经常出现在云之类的分布式环境中,在运营过程中比较常见。 暂时性故障在短时间内自行纠正。 应用程序通常可以通过重试受影响的请求来处理暂时性故障,这一点很重要。
与任何云托管的 API、数据库和其他组件通信时,所有云托管的应用程序都应遵循 Azure 暂时性故障处理指南。 有关详细信息,请参阅 处理暂时性故障的建议。
除了可能影响任何基于云的解决方案的暂时性故障类型外,Azure NetApp 文件还可能会受到偶尔计划内维护的影响,例如平台更新、服务更新和软件升级。
从文件协议(例如 NFS 和 SMB)的角度来看,如果应用程序可以处理在这些事件期间可能短暂发生的 I/O 暂停,暂时性故障不会造成中断。 I/O 暂停通常只持续较短时间,从几秒到 30 秒不等。 某些应用程序可能需要优化才能处理 I/O 暂停。
NFS 协议特别可靠,客户端-服务器文件作通常会正常继续。 某些应用程序可能需要优化才能处理 I/O 暂停,最长为 30-45 秒。 确保了解应用程序的复原设置,以应对存储服务维护事件。
对于利用 SMB 协议的人工交互式应用程序,标准协议设置通常足够。 Azure NetApp 文件还支持 SMB 持续可用性,这可实现 SMB 透明故障转移。 SMB 透明故障转移消除了服务维护事件导致的中断。 它还提高了可靠性和用户体验。
SMB 持续可用性仅适用于 特定应用程序。
有关进一步建议,请参阅 Azure NetApp 文件应用程序复原常见问题解答。
可用性区域支持
可用性区域 是每个 Azure 区域内物理上独立的数据中心群组。 当某个区域发生故障时,服务可以切换到其他可用的区域。
Azure NetApp 文件支持卷的 区域性 部署。 只要 Azure NetApp 文件存在于该可用性区域中并且有足够的容量,Azure NetApp 文件的可用性区域放置功能就可以在所选的单个可用性区域中部署每个卷。 如果有延迟敏感的应用程序,可以将卷部署到与 Azure 计算资源和同一区域中的其他服务相同的可用性区域。
在下图中,(对等互连)VNet 区域内的所有虚拟机(VM)都可以访问所有 Azure NetApp 文件资源(蓝色箭头)。 访问同一局部区域中的 Azure NetApp 文件卷(绿色箭头)的 VM 共享可用性区域容错域。 请注意,平台级别的不同卷之间没有复制。
单区域部署不足以满足较高的可靠性要求。 若要在不同可用性区域中的卷之间异步复制数据,可以使用 跨区域复制。 必须独立于可用性区域卷放置配置跨区域复制。
如果可用性区域发生故障,则需负责检测故障并切换到其他区域中的备用卷。
区域支持
跨区域复制在所有已启用可用性区域的区域中都可用,并且存在 Azure NetApp 文件。
注意事项
Azure NetApp 文件中的可用性区域卷放置提供区域卷放置。 连接到同一可用性区域中的虚拟机时,将看到低延迟。 但是,它不提供虚拟机或其他资源的邻近放置,并且卷可能位于数据中心的其他物理部分。
只要这些订阅位于同一Microsoft Entra 租户中,就允许在不同 Azure 订阅之间进行复制。
有关 Azure NetApp 文件中可用性区域的其他注意事项,请参阅 有关使用跨区域复制 和管理 可用性区域卷放置的要求和注意事项。
成本
在 Azure NetApp 文件中启用可用性区域卷放置无需额外付费。 只需为在这些区域中部署的容量池和资源付费。
复制的卷托管在容量池上。 因此,跨可用性区域复制的成本通常由预配的容量池大小和层来决定。 数据复制无需额外付费。
配置可用性区域支持
需要单独配置卷放置和跨区域复制。
卷放置:
创建新卷或配置具有可用性区域支持的现有卷。 若要为 Azure NetApp 文件中的卷配置可用性区域,请参阅 管理 Azure NetApp 文件的可用性区域卷放置。
如果要使用可用性区域部署 Terraform 托管卷,则需要其他配置。 有关详细信息,请参阅 Terraform 托管卷的填充可用性区域。
如果使用基于角色的访问控制, 请确保配置正确的权限。
在可用性区域之间迁移卷: 将卷配置为放入可用性区域后,无法修改指定的可用性区域。 无法在可用性区域之间移动卷。
禁用卷的可用性区域支持。 将卷配置为放入可用性区域后,无法禁用可用性区域支持。
跨区域复制:
启用跨区域复制: 若要提高解决方案的复原能力, 请配置到另一卷的跨区域复制。
禁用跨区域复制: 可以通过中断复制配对来禁用跨区域复制。 若要了解详细信息,请参阅 使用 Azure NetApp 文件管理灾难恢复。
常规操作
本部分介绍将 Azure NetApp 文件卷配置为部署到多个可用性区域、启用跨区域复制以及所有可用性区域都正常运行时会发生什么情况。
区域之间的流量路由: 传入请求将路由到位于所选可用性区域中的特定卷。
区域之间的数据复制: Azure NetApp 文件跨区域复制意味着源卷的所有更改都以异步方式复制到目标卷。 可以决定复制的发生频率。 跨可用性区域复制支持 3 个复制计划:10 分钟、每小时和每天。
重要
使用跨可用性区域复制的大型卷不支持 10 分钟复制计划。
区域关闭体验
本部分介绍将 Azure NetApp 文件卷配置为部署到多个可用性区域、启用跨区域复制以及可用性区域中断时会发生什么情况。
检测和响应: 你负责检测可用性区域丢失并启动故障转移。
若要监视 Azure NetApp 文件卷的运行状况,可以使用 Azure Monitor 指标。 通过实时指标(如 IOPS、延迟和容量使用情况)检测到任何指示区域关闭方案的异常。 可以将警报和通知配置为发送到管理员,从而启用即时响应作,例如重新均衡文件共享或启动故障转移或其他灾难恢复协议。
故障转移是一个手动过程。 需要激活目标卷(例如,如果要故障转移到目标可用性区域时),需要中断复制对等互连,然后装载目标卷。 有关详细信息,请参阅因故障转移到目标卷。
活动请求: 在区域关闭事件期间,活动请求可能会遇到中断或延迟增加。
预期数据丢失: 在区域故障转移期间,可以预期的数据丢失量(也称为恢复点目标或 RPO),具体取决于配置的跨区域复制计划。
复制计划 典型 RPO 每 10 分钟 20 分钟 每小时 两小时 每日 少于 48 小时 预期的停机时间: 故障转移到另一个区域要求中断对等互连关系以激活目标卷,并在第二个站点中提供读取和写入数据访问权限。 触发对等互连中断后,预计这些内容将在一分钟内完成。
但是,在区域故障转移期间,可以期望的总停机时间(也称为恢复时间目标或 RTO),具体取决于多种因素,包括系统或进程检测区域丢失和启动故障转移进程所需的时间。 确定是自动执行响应还是是否需要手动步骤,这一点也很重要。 对于准备良好的配置,整个过程通常需要几分钟到长达一小时。
流量重新路由: 你负责重定向应用程序流量以连接到新活动的目标卷。 有关详细信息,请参阅因故障转移到目标卷。
故障回复
故障回复是一个手动过程,需要执行重新同步作、重新建立复制,以及重新装载源卷供客户端访问。 有关详细信息,请参阅 使用 Azure NetApp 文件管理灾难恢复。
对区域故障进行测试
可以使用卷的快照安全地测试跨区域复制配置。 若要了解测试跨区域复制配置的高级方法,请参阅 Azure NetApp 文件的测试灾难恢复。
多区域支持
默认情况下,Azure NetApp 文件是单区域服务。 如果区域变得不可用,则存储在该区域中的卷也不可用。 为了在发生区域性服务中断时提高复原能力,Azure NetApp 文件支持跨区域复制。 可以将数据从一个区域中的 Azure NetApp 文件卷(源)异步复制到由Microsoft预先选择的另一个区域中的另一个 Azure NetApp 文件卷(目标)。 借助此功能,可以在发生区域范围的中断或灾难时对关键应用程序进行故障转移。
注释
还可以将单个卷复制到另一个可用性区域 和 另一个区域。 若要了解详细信息,请参阅 了解 Azure NetApp 文件中的跨区域复制。
区域支持
可以复制卷的次要区域取决于主要区域。 有关详细信息,请参阅 支持的区域对。
注意事项
只要这些订阅位于同一Microsoft Entra 租户中,就允许在不同 Azure 订阅之间进行复制。
有关 Azure NetApp 文件中跨区域复制的其他注意事项,请参阅 有关使用跨区域复制的要求和注意事项。
成本
跨区域复制根据复制的数据装载收费。 有关更多详细信息和一些示例方案,请参阅 跨区域复制的成本模型。
配置多区域支持
启用跨区域复制: 若要提高解决方案的复原能力, 请配置跨区域复制。
禁用跨区域复制: 可以通过中断复制配对来禁用跨区域复制。 若要了解详细信息,请参阅 使用 Azure NetApp 文件管理灾难恢复。
常规操作
本部分介绍当 Azure NetApp 文件卷配置为使用跨区域复制时会发生什么情况,并且这两个区域都是可作的。
区域之间的流量路由: 传入请求将路由到位于主要区域中的特定卷。
区域之间的数据复制: Azure NetApp 文件跨区域复制意味着源卷的所有更改都以异步方式复制到目标卷。 可以决定复制的发生频率。 跨区域复制支持三种复制计划:10 分钟、每小时和每天。
重要
使用跨区域复制的大型 卷 不支持 10 分钟的复制计划。
监视复制运行状况: 可以监视对等互连关系的运行状况,并且可以配置警报,以在复制滞后时间超出预期阈值时通知你。 若要了解详细信息,请参阅 显示复制关系的运行状况和监视状态。
区域关闭体验
本部分介绍当 Azure NetApp 文件卷配置为使用跨区域复制时会发生什么情况,并且主要区域中断。
检测和响应: 你负责检测区域丢失并启动故障转移。
若要监视 Azure NetApp 文件卷的运行状况,可以使用 Azure Monitor 指标。 通过实时指标(如 IOPS、延迟和容量使用情况)检测到任何指示区域关闭方案的异常。 可以将警报和通知配置为发送到管理员,从而启用即时响应作,例如重新均衡文件共享或启动故障转移或其他灾难恢复协议。
故障转移是一个手动过程。 当需要激活目标卷(例如想要故障转移到目标区域时),需要中断复制对等互连,然后装载目标卷。 有关详细信息,请参阅因故障转移到目标卷。
活动请求: 在区域关闭事件期间,活动请求可能会遇到中断或延迟增加。
预期数据丢失: 在区域故障转移期间(也称为恢复点目标或 RPO)的数据丢失量取决于配置的跨区域复制计划。
复制计划 典型 RPO 每 10 分钟 小于 20 分钟 每小时 少于两小时 每日 少于 48 小时 预期的停机时间: 故障转移到另一个区域要求中断对等互连关系以激活目标卷,并在第二个站点中提供读取和写入数据访问权限。 触发对等互连中断后,预计这些内容将在一分钟内完成。
但是,在区域故障转移期间,可以期望的总停机时间(也称为恢复时间目标或 RTO),具体取决于多种因素,包括系统或进程检测区域丢失和启动故障转移进程所需的时间。 确定是自动执行响应还是是否需要手动步骤,这一点也很重要。 对于准备良好的配置,整个过程通常需要几分钟到长达一小时。
流量重新路由: 你负责重定向应用程序流量以连接到新活动的目标卷。 有关详细信息,请参阅因故障转移到目标卷。
故障回复
故障回复是一个手动过程,需要执行重新同步作、重新建立复制,以及重新装载源卷供客户端访问。 有关详细信息,请参阅 使用 Azure NetApp 文件管理灾难恢复。
测试区域故障
可以使用卷的快照安全地测试跨区域复制配置。 若要了解测试跨区域复制配置的高级方法,请参阅 Azure NetApp 文件的测试灾难恢复。
备份
Azure NetApp 文件备份 通过提供完全托管的备份解决方案来扩展 Azure NetApp 文件的数据保护功能,以实现长期恢复、存档和合规性。 该服务创建的备份存储在 Azure 存储中,与用于近期恢复或克隆的卷快照相互独立。 该服务创建的备份可还原到区域中的新 Azure NetApp 文件卷。 Azure NetApp 文件备份支持基于策略(计划)的备份和手动(按需)备份。
为了进一步提高安全性,Azure NetApp 文件 快照 可添加稳定性、可伸缩性和快速可恢复性,而不会影响性能。 它们为其他冗余解决方案(包括备份、跨区域复制和跨可用性区域复制)提供基础。
对于大多数解决方案,不应只依赖于备份。 请改用本指南中所述的其他功能来支持复原要求。 但是,备份可以防范其他方法没有的一些风险。 有关详细信息,请参阅 什么是冗余、复制和备份?。
服务级别协议
Azure NetApp 文件的服务级别协议(SLA)描述了服务的预期可用性,以及实现该可用性预期必须满足的条件。 有关详细信息,请参阅联机服务的服务级别协议 (SLA)。