Heartbeat基础知识详细总结-站长资讯网

在日常的集群系统架构中，一般用到Heartbeat的主要就2种:
1）高可用(High Availability)HA集群, 使用Heartbeat实现，也称为”双机热备”, “双机互备”, “双机”；
2）负载均衡群集(Load Balance Cluster)，使用Linux Virtual Server(LVS)实现;

Heartbeat 的介绍
Heartbeat是Linux-HA项目中的一个组件，它实现了一个高可用集群系统。心跳服务和集群通信是高可用集群的两个关键组件，在 Heartbeat项目里，由heartbeat模块实现了这两个功能。Heartbeat是目前开源HA项目中十分成功的一个例子，它提供了所有 HA 软件所需要的基本功能，比如心跳检测和资源接管、监测群集中的系统服务、在群集中的节点间转移共享 IP 地址的所有者等，自1999年开始到现在，Heartbeat在行业内得到了广泛的应用。heartbeat最核心的功能包括两个部分，心跳监测和资源接管。心跳监测可以通过网络链路和串口进行，而且支持冗余链路，它们之间相互发送报文来告诉对方自己当前的状态，如果在指定的时间内未收到对方发送的报文，那么就认为对方失效，这时需启动资源接管模块来接管运行在对方主机上的资源或者服务。

Hearbeat和Keepalived区别
1) Keepalived使用的VRRP协议方式，虚拟路由冗余协议 (Virtual Router Redundancy Protocol，简称VRRP);
2) Heartbeat是基于主机或网络的服务的高可用方式;
3) Keepalived的目的是模拟路由器的双机;
4) Heartbeat的目的是用户Service的双机;
5) LVS的高可用建议用Keepavlived;
6) 业务的高可用用Heartbeat;

Keepalived 主要控制IP飘移，配置应用简单，而且分层，layer3，4，5，各自配置极为简单
Heartbeat 不但可以控制IP飘移，更擅长对资源服务的控制，配置，应用比较复杂;

HA集群中的相关术语

．节点（node）
运行heartbeat进程的一个独立主机，称为节点，节点是HA的核心组成部分，每个节点上运行着操作系统和heartbeat软件服务，在heartbeat集群中，节点有主次之分，分别称为主节点和备用/备份节点，每个节点拥有唯一的主机名，并且拥有属于自己的一组资源，例如，磁盘、文件系统、网络地址和应用服务等。主节点上一般运行着一个或多个应用服务。而备用节点一般处于监控状态。

．资源（resource）
资源是一个节点可以控制的实体，并且当节点发生故障时，这些资源能够被其它节点接管，heartbeat中，可以当做资源的实体有：
– 磁盘分区、文件系统
– IP地址
– 应用程序服务
– NFS文件系统

．事件（event）
集群中可能发生的事情，例如节点系统故障、网络连通故障、网卡故障、应用程序故障等。这些事件都会导致节点的资源发生转移，HA的测试也是基于这些事件来进行的。

．动作（action）
事件发生时HA的响应方式，动作是由shell脚步控制的，例如当某个节点发生故障后，备份节点将通过事先设定好的执行脚本进行服务关闭或启动, 进而接管故障节点的资源。

HeartBeat 的组成

Heartbeat提供了高可用集群最基本的功能，例如，节点间的内部通信方式、集群合作管理机制、监控工具和失效切换功能等等，目前的最新版本是Heartbeat2.x，下面讲述也是以Heartbeat2.x为主，主要介绍Heartbeat2.0的内部组成，主要分为以下几大部分：
．heartbeat：节点间通信检测模块
．ha-logd：集群事件日志服务
．CCM（Consensus Cluster Membership）：集群成员一致性管理模块
．LRM （Local Resource Manager）：本地资源管理模块
．Stonith Daemon：使出现问题的节点从集群环境中脱离
．CRM（Cluster resource management）：集群资源管理模块
．Cluster policy engine：集群策略引擎
．Cluster transition engine：集群转移引擎

下图显示的是Heartbeat2.0内部结构组成

Heartbeat基础知识详细总结

Heartbeat仅仅是个HA软件，它仅能完成心跳监控和资源接管，不会监视它控制的资源或应用程序，要监控资源和应用程序是否运行正常，必须使用第三方的插件，例如ipfail、Mon、Ldirector等。Heartbeat自身包含了几个插件，分别是ipfail、Stonith和Ldirectord，介绍如下：

ipfail插件的功能直接包含在Heartbeat里面，主要用于检测网络故障，并作出合理的反应，为了实现这个功能，ipfail使用ping节点或者ping节点组来检测网络连接是否出现故障，从而及时的做出转移措施。

Stonith插件可以在一个没有响应的节点恢复后，合理接管集群服务资源，防止数据冲突，当一个节点失效后，会从集群中删除，如果不使用Stonith插件，那么失效的节点可能会导致集群服务在多于一个节点运行，从而造成数据冲突甚至是系统崩溃。因此，使用Stonith插件可以保证共享存储环境中的数据完整性。

Ldirector插件是一个监控集群服务节点运行状态的插件。Ldirector如果监控到集群节点中某个服务出现故障，就屏蔽此节点的对外连接功能，同时将后续请求转移到正常的节点提供服务，这个插件经常用在LVS负载均衡集群中，关于Ldirector插件的使用，将在后面详细讲述。

同样，对于操作系统自身出现的问题，Heartbeat也无法监控，如果主节点操作系统挂起，一方面可能导致服务中断，另一方面由于主节点资源无法释放，而备份节点却接管了主节点的资源，此时就发生了两个节点同时争用一个资源的状况。针对这个问题，就需要在linux内核中启用一个叫watchdog的模块，watchdog是一个Linux内核模块，它通过定时向/dev/watchdog设备文件执行写操作，从而确定系统是否正常运行，如果watchdog认为内核挂起，就会重新启动系统，进而释放节点资源。

在linux中完成watchdog功能的软件叫softdog，softdog维护一个内部计时器，此计时器在一个进程写入/dev/watchdog设备文件时更新，如果softdog没有看到进程写入/dev/watchdog文件，就认为内核可能出了故障。watchdog超时周期默认是一分钟，可以通过将watchdog集成到Heartbeat中，从而通过Heartbeat来监控系统是否正常运行。

HeartBeat 的作用
通过HeartBeat，可以将资源（IP以及程序服务等资源）从一台已经故障的计算机快速转移到另一台正常运转的机器上继续提供服务，一般称之为高可用的服务。在实际的生产应用场景中，heartbeat的功能和另一个高可用的开源软件keepalived有很多的相同之处，在我们实际的生产业务中也是有区别的。

HeartBeat 的工作原理
heartbeat最核心的包括两个部分，心跳监测部分和资源接管部分，心跳监测可以通过网络链路和串口进行，而且支持冗余链路，它们之间相互发送报文来告诉对方自己当前的状态，如果在指定的时间内未收到对方发送的报文，那么就认为对方失效，这时需启动资源接管模块来接管运行在对方主机上的资源或者服务。

Heartbeat: (心跳检测）本身是整个集群的基础（cluster messaging layer），负责维护集群各节点的信息以及它们之前通信；只提供主从备份功能，并不能对各个节点进行监控，需要安装ldirectord。
Resource-agent: (资源代理）就是各种的资源的ocf脚本，这些脚本将被LRM调用从而实现各种资源启动、停止、监控等等。
Cluster-glue: 相当于一个中间层，可以将heartbeat和crm（pacemaker）联系起来，主要包含2个部分，LRM和STONITH；
Ldirectord: 负责realserver的健康检查，可以自动将realserver中宕机的机器移除，不再分配请求。

通过修改Heartbeat的软件的配置文件，可以制定那一台Heartbeat服务器作为主服务器，则另一台将自动成为热备服务器。然后在热备服务器上配置Heartbeat守护程序来监听来自主服务器的心跳消息。如果热备服务器在指定时间内为监听到来自主服务器的心跳，就会启动故障转义程序，并取得主服务器上的相关资源服务的所有权，接替主服务器继续不间断的提供服务，从而达到资源以及服务高可用的目的。

以上的描述heartbeat的主备模式，heartbeat还支持主主模式，即两台服务器互为主备，这是他们之间还会互相发送报文来告诉对方自己的当前的状态，如果在指定的时间内未收到对方发送的心跳报文，那么，一方就会认为对方失效或者是已经宕机了，这时每个运行正常的主机就会启动自身的资源接管模块来接管运行在对方主机上的资源或者是服务，继续为用户提供服务。一般情况下，可以较好的实现一台主机故障后，企业业务能够不间断的持续的提供服务（注意：所谓的业务不间断）。在故障转移期间也是需要切换时间的，heartbeat的切换时间是5-20秒。(服务器宕机的切换比人工切换要快).

另外，和keepalived高可用软件一样，heartbeat高可用是操作系统级别的，不是服务（软件）级别的，可以通过简单的脚本控制，实现服务级别的高可用!

故障切换的常见条件：
1）主机服务器物理宕机（硬件损坏，操作系统故障）
2）Heartbeat服务本身故障
3）两台主备服务器之间的连接线路故障
应用服务故障则不会产生切换，可以通过服务宕机把heartbeat服务停掉。

一	二	三	四	五	六	日
« 3月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Heartbeat基础知识详细总结

相关推荐

热门标签

近期文章