MC cluster故障反应机制

技术2022-05-13 33

Cluster的故障反应机制：（源自一培训文档）术语 *心跳（heart-beat）：节点间互相传递心跳信号的网络，如果中断则表明某一节点出现故障*锁盘(lock disk)：如果群集中只有两个节点（绝大多数群集使用的场合）组成时，需要一块锁盘作为仲裁设备。当心跳中断时，两个节点会去争用锁盘，得到锁盘的一方会重组群集，而另一方则会发生TOC并重启。*TOC（Transfer Of Control）快速控制权移交：为保证没有得到锁盘的节点能够尽快释放占用的资源，该节点将自动执行TOC，保存当前的内存和CPU影像后重新启动。故障反应机制－节点故障（整个节点异常crash或者...）当主节点发生故障：备节点守护进程cmcld检测到心跳超时，开始争用锁盘（如果主节点hang或者crash，此时一般都是备机拿到锁盘）主节点发生TOC，由备节点重组集群备节点上启动运行包，恢复应用访问当备节点发生故障主节点守护进程cmcld检测到心跳超时，开始争用锁盘（同理，此时一般是主节点拿到锁盘）备节点发生TOC，由主节点重组集群该过程对应用运行没有任何影响（没有节点应用切换）故障反应机制－网络故障主用网络发生故障（主用网卡连接的网络）守护进程cmcld检测到主用网卡不通后，会将固定IP和浮动IP加载到备用网卡上（standby网卡提供网卡冗余）主用网卡恢复后，IP地址会自动回到原主用网卡上主节点网络发生故障（主机点的主用和备用网卡都有问题）主用网卡不通，将固定IP和浮动IP加载到备用网卡上备用网卡也不通，会将运行包切换到备节点上故障反应机制－软件故障服务程序/监控脚本

专利

最新回复(0)