Windows Server 和 Azure Local 中的故障转移群集

故障转移群集是一种强大的策略,可确保关键环境中的高可用性和不间断运行。 它涉及独立计算机的配置,称为节点,它们协同工作,以提高应用程序和服务的可用性和可伸缩性,现在称为群集角色。 这些节点通过物理布线和软件相互连接。

如果一个或多个节点发生故障,剩余节点会自动接管工作负荷(称为故障转移的进程)将中断降到最低。 此外,将持续监视群集角色的运行状况。 如果检测到任何问题,角色将重启或迁移到另一个节点,以保持无缝作。 这种主动方法可确保即使发生硬件或软件故障,服务仍保持一致可用。

网络是故障转移群集中的关键角色,它通过在群集节点和外部客户端之间实现可靠的通信和高效的数据交换。 群集通常使用专用私有网络进行内部功能,例如心跳信号和群集管理,而单独的公共网络处理客户端访问和应用程序数据。 此网络分离通过将关键群集流量与外部中断隔离,从而提高性能和安全性。 它还会增加容错能力,确保内部群集操作不中断,并且在故障转移事件期间,客户端连接保持高可用性。

群集的运行状况通过检测信号持续监视,以帮助检测任何问题。 如果出现问题,系统可以自动启动故障转移以维护服务连续性。 为了保护敏感数据并满足组织标准,故障转移群集包含可靠的安全措施,例如加密来保护传输中的数据和静态数据。 他们还使用精细访问控制来有效管理权限和访问权。

若要详细了解 Azure Local 中的故障转移群集,请参阅了解群集和池仲裁

主动和被动故障转移配置

可以在两个主要配置(主动-主动和主动-被动)中设置故障转移群集。 每种配置各有优缺点,"主动-主动"模式专注于性能和资源效率,而"主动-被动"模式在故障转移场景中强调简单性和可靠性。 选择取决于特定的组织需求和群集应用程序的关键性。

Configuration Operation
Active 在主动-主动故障转移群集中,所有节点都处于活动状态,并同时协同工作,以平衡整个群集中的工作负荷。 此配置在所有可用节点之间分配任务、处理能力或服务,从而有效利用资源。 下面是其工作原理:

  • Load balancing: Each node handles a portion of the total workload, enhancing performance and ensuring that no single node becomes a bottleneck. 这种相等分布可以提高响应能力和吞吐量,因为多个节点同时为请求提供服务。
  • Resource utilization: An active-active setup maximizes resource utilization since all nodes are operational and contributing to the cluster’s performance. 此设置非常适合最大化可用资源至关重要的环境。
  • Fault tolerance: If one node fails, the remaining nodes in the cluster can continue to handle the workload. 节点的丢失可能会暂时降低整体容量,但系统仍可正常运行,而不会造成服务中断。
  • Passive 在主动-被动故障转移群集中,某些节点被指定为主动节点,而其他节点处于备用状态,随时准备在主动节点发生故障时接管。 下面是其工作原理:

  • Standby nodes: The passive nodes are essentially in a "waiting" state, not handling any tasks or services during normal operations. 如果活动节点遇到故障,这些节点将承担责任。
  • Failover process: When a failure is detected, a standby node is activated to assume the responsibilities of the failed node. 这涉及到快速使被动节点联机,以确保服务的连续性。
  • Resource allocation: Active-passive configurations might not make full use of available hardware resources during normal operations since standby nodes remain idle. 但是,此设置可以更简单地进行管理,并且可以在某些条件下确保可预测的性能。
  • 简单性和可靠性: 主动-被动设置对于稳定性和可预测性比最大化运营效率更重要的应用程序有利。 与主动-主动配置相比,实现和维护通常更容易。
  • 故障转移群集功能

    故障转移群集提供一组全面的功能,旨在最大程度地提高运行时间、确保数据完整性并简化关键工作负荷的管理。 这些功能使组织能够保持服务连续性,有效地管理资源,并从硬件或软件故障中快速恢复。 故障转移群集提供的一些功能包括:

    • 群集节点和仲裁:

      群集节点协作维护称为仲裁的机制,这实质上是群集正常运行所需的群集成员的最少投票数。 此机制可以防止“脑裂”情况的发生,即集群的不同部分可能尝试独立操作,从而导致不一致性。 仲裁模型(如节点多数、节点和磁盘多数、节点和文件共享多数以及无多数(仅磁盘))确定如何分配和计数投票。 例如,节点多数将每个节点赋予一个投票,而节点和磁盘多数则包含来自磁盘或文件共享的额外投票。

    • Storage configuration:

      故障转移群集的一个显著功能是群集共享卷(CSV),它允许多个节点并发访问同一存储,从而实现磁盘的顺利管理和协调,而不会丢失性能。 CSV 是故障转移群集中存储配置不可或缺的一部分。 CSV 可促进高效的磁盘访问,使节点能够协作处理存储任务。

    • 主动监视和管理:

      故障转移群集采用检测信号来监视节点及其角色的运行状况。 这些信号有助于检测节点故障或服务中断等问题。 检测到此类问题时,系统可以自动启动故障转移过程,确保连续性并最大限度地减少停机时间。

    • 安全性和符合性:

      安全性是故障转移群集的一个重要方面,包括加密和访问控制等功能来保护数据和群集作。 群集通过确保安全数据处理和可靠的系统性能来帮助组织满足关键应用程序的合规性要求。 这使得它们适用于需要严格数据保护和法规遵守的环境。

    • Use cases:

      故障转移群集具有多个实际应用程序,包括灾难恢复、负载均衡和高性能计算。 它通过提供高可用性支持关键应用程序,使企业即使在不利条件下也能维护运营。 例如,在灾难恢复场景中,集群可以通过将操作转移到未受影响的节点来快速恢复服务。

      • 故障转移群集可确保在物理服务器或虚拟机上运行的关键应用程序和服务(群集角色)的高可用性或持续可用性。 如果发生故障,则可以在另一个节点上快速移动或重启这些角色,最大限度地减少停机时间,并保持一致的性能和冗余。

      • Microsoft SQL Server 和 Hyper-V 虚拟机等应用程序即使在硬件或软件故障期间也遇到最少的服务中断,从而受益于故障转移群集。

    故障转移群集资源

    此特选的资源表旨在帮助你有效地了解、规划、部署和管理故障转移群集。

    Understand Planning Deployment
    故障转移群集中的新增功能 规划故障转移群集硬件要求和存储选项 创建故障转移群集
    横向扩展应用程序数据文件服务器 使用群集共享卷 (CSV) 部署双节点文件服务器
    群集和池仲裁 使用带存储空间直通的来宾虚拟机群集 在 Active Directory 域服务中预安排群集计算机对象
    容错域感知 在 Active Directory 中配置群集帐户
    简化的 SMB 多通道和多 NIC 群集网络 在没有仲裁的情况下恢复故障转移群集
    VM 负载均衡 部署仲裁见证
    Cluster sets 群集操作系统滚动升级
    Cluster affinity 在同一硬件上升级故障转移群集
    部署已与 Active Directory 分离的群集
    Manage 工具和设置 Community resources
    Cluster-Aware Updating 故障转移群集 PowerShell Cmdlet 故障转移群集论坛
    Health Service 群集感知更新 PowerShell Cmdlet 故障转移群集博客
    Cluster-domain migration
    使用 Windows 错误报告进行疑难解答