欢迎来到云服务器

云计算服务

服务器集群的故障转移原理以及解决方案

服务器集群指的是许多服务器的聚合,以执行相同的服务,在客户端看来,好像只有一个服务器。集群可以使用多台计算机进行并行计算,实现高计算速度,也可以使用多台计算机进行备份,使任何一台机器仍然可以正常运行。一旦服务器上安装并运行了群集服务,服务器就可以加入群集。集群操作可以减少单点故障的数量,实现集群资源的高可用性。以下部分简要描述了集群创建和集群操作中的节点行为。

集群服务设计的目的是提高服务器的性能,同时可以及时转移障碍,提高服务器的可用性。因此,在集群服务器设计之初,必须充分考虑故障转移方案。当一个应用程序或服务安装在多个服务器上,这些服务器在出现故障时可以接管彼此的工作时,一个服务器接管故障服务器的工作的过程称为“故障转移”。如果一台服务器变得不可用,另一台或多台服务器会自动接管故障服务器的工作并继续处理任务。集群中的每台服务器确定集群中的另一台服务器作为其备用服务器,这可以在集群服务程序中预先设置。

 

一、故障转移原理:在设计服务器集群之前明确了以上考虑事项之后,我们就可以了解服务器集群故障转移的原理了。整个故障转移过程主要涉及以下几个方面。

1、同步状态:在集群服务系统中,在正式接管活动服务器的工作之前,备用服务器的状态应该与故障服务器的状态同步,然后才能启动事务。主要有三种不同的提问方法。

1)共享存储:在共享存储方法中,两台服务器都在共享存储设备(如存储区域网络或双主机磁盘阵列)上记录其状态。这样,因为不需要状态同步,所以可以立即进行故障转移。这种同步方法还需要较短的切换时间和高可用性。

2)热备用:在热备用方式下,活动服务器内部状态的更新会立即复制到备用服务器。因为备用服务器的状态是活动服务器状态的克隆,所以备用服务器可以立即成为活动服务器,并开始处理第五件事。显然,这种跨越模式需要更短的切换时间和更高的可用性。

3)事务日志:在事务日志方法中,活动服务器在日志中记录对其状态的所有更改。同步实用程序定期处理此日志,以更新备用服务器的状态,使其与活动服务器的状态保持一致。当活动服务器出现故障时,备用服务器必须使用此同步实用程序来处理自上次更新以来事务每日状态的任何增加。同步后,备用服务器成为活动服务器,并开始处理事务。这种同步方法需要很长的切换时间,服务器应用需要很长的暂停时间。

2、扩展故障转移群集服务器:故障转移集群中的可伸缩性通常是通过扩展集群中的单个服务器或向其添加更多功能来实现的,因此该集群系统的可伸缩性非常有限。

3、检测故障:在充分考虑上述因素后,必须设计故障检测方案。要使备用服务器处于活动状态,必须尝试确定活动服务器是否不再正常工作。通常,系统使用以下一般类型的心跳机制之一来实现这一点。

A.发送信号:对于发送信号,活动服务器以定义的时间间隔向备用服务器发送指定的信号。如果备用服务器在某个时间间隔内没有接收到信号,则确定活动服务器出现故障,并承担活动角色。例如,活动服务器每30秒向备用服务器发送一次状态消息。如果设置的备用服务器注意到它在90s (3个时间间隔)内没有收到任何状态消息,它将接管活动服务器的工作。

B.接收信号:为了接收信号,备用服务器向活动服务器发送请求。如果活动服务器没有响应,备用服务器将重复该请求特定次数。如果Spring活动服务Jeep仍然不响,那么备用服务器将接管活动服务器的工作。例如,备用服务器可能每分钟向活动服务器发送一条获取客户详细信息消息。如果备用服务器发送“获取客户详细信息”请求三次,但没有收到响应,则备用服务器将接管活动服务包的工作。

集群可以使用多级信号。例如,集群可以在服务器级别使用一个发送信号,在应用程序级别使用一组接收信号。在这种配置中,只要备用服务器启动并连接到网络,活动服务器就会向备用服务器发送心跳消息。这些心跳消息以频繁的时间间隔发送(例如每个Ss),并且备用服务器可以被编程为仅在没有接收到两个心跳消息时接管活动服务榕树的工作。也就是说,备用服务器将检测到故障,并在活动服务器出现故障后的10s内启动备用进程。

4、确定活动服务器:对于给定的一组应用程序,只有一个活动服务器是极其重要的。如果多个服务器都像活动服务器,通常会导致数据损坏和死锁。解决这个问题的一个常见方法是使用“活动令牌”概念的变体。从最简单的层面来说,令牌是一个标志,它将服务器标识为应用程序的活动服务器。对于每组应用程序,只有一个活动令牌,因此只有一台服务器可以拥有该令牌。当服务器启动时,它会验证其伙伴是否有活动令牌。如果是,服务器将作为备用服务器启动。如果它没有检测到活动令牌,它将获得活动令牌的所有权,并作为活动服务器启动。当备用服务器成为活动服务器时,故障转移过程会将活动令牌交给备用服务器。

在大多数情况下,当备用服务器成为活动服务器时,它对它所支持的应用程序或用户是透明的。如果事务处理过程中出现故障,您可能需要重试事务处理才能成功完成。这使得在编写程序代码时保持故障转移过程透明变得更加重要。

此外,大多数服务器使用IP地址进行通信。因此,为了使故障转移成功,基础架构必须能够支持JP地址从一台服务器到另一台服务器的传输。例如,您可以使用支持IP地址传输的网络交换机(将故障机器的IP地址传输到接管服务器)。如果系统的基础架构不支持此传输功能,则可能需要使用负载平衡群集而不是故障转移群集。

二、故障转移解决方案注意事项:群集服务器故障转移方案涉及许多重要方面。设计集群服务器基础设施时,至少应考虑以下因素。

1.添加硬件可能会增加解决方案的成本和复杂性。例如,需要为新硬件或更强大的硬件提供开发和测试费用,以便应用程序可以充分利用更强大的环填充。此外,管理更复杂的环境还需要增加维护和培训成本。2.用户希望这些应用程序可以使用,并在使用时做出响应。3.应用失败可能会造成严重的经济损失。4.不间断的连续运营越来越成为常见的业务需求。5.应用程序基础架构中的所有系统都需要维护。每个系统都必须能够适应硬件和软件升级,而不会导致应用程序停止运行。例如,需要发布补丁来修复在提供应用程序的服务器上运行的组件的安全性。如果只有这个服务栏,应用程序将停止运行。如果服务器是一系列服务器中的一个,只有服务器会停止运行,应用程序不会停止运行。租用便宜服务器请到梦飞科技官网咨询了解。

腾讯云代理

Copyright © 2003-2021 MFISP.COM. 国外vps服务器租用 梦飞云服务器租用 版权所有 粤ICP备11019662号