本节介绍MySQL组复制的背景信息。
创建容错系统的最常见方法是使组件冗余,换句话说,可以删除组件,而系统应该继续按预期运行。这就产生了一系列挑战,将这类系统的复杂性提升到一个完全不同的水平。具体来说,复制数据库必须处理这样一个事实,即它们需要维护和管理多个服务器,而不是一个服务器。此外,当服务器一起合作创建组时,还必须处理其他一些经典的分布式系统问题,例如网络分区或分割大脑场景。
因此,最终的挑战是将数据库和数据复制的逻辑与以一致和简单的方式协调多个服务器的逻辑融合在一起。换句话说,就是让多个服务器就系统的状态以及系统所经历的每一次更改的数据达成一致。这可以概括为让服务器在每个数据库状态转换上达成一致,以便它们都作为单个数据库进行,或者它们最终收敛到相同的状态。这意味着它们需要作为(分布式)状态机运行。
MySQL Group Replication提供分布式状态机复制,并在服务器之间提供强大的协调。当服务器属于同一组时,它们会自动进行协调。该小组可以在具有自动初选的单一初选模式下运行,在这种模式下,一次只有一台服务器接受更新。或者,对于更高级的用户,组可以部署在多主模式下,其中所有服务器都可以接受更新,即使更新是同时发布的。这种强大的功能是以应用程序必须绕过此类部署所施加的限制为代价的。
有一个内置的组成员服务,可以保持组视图的一致性,并在任何给定时间点对所有服务器可用。服务器可以离开或加入组,视图也会相应更新。有时服务器会意外地离开组,在这种情况下,故障检测机制会检测到这种情况,并通知组视图已更改。这都是自动的。
要提交事务,组中的大多数人必须就全局事务序列中给定事务的顺序达成一致。决定提交或中止事务由每个服务器单独完成,但所有服务器都做出相同的决定。如果存在网络分区,导致成员无法达成协议的分裂,则系统在此问题解决之前不会继续运行。因此,也有一个内置的,自动的,裂脑保护机制。
所有这些都由所提供的群通信系统(GCS)协议提供支持。它们提供了故障检测机制、组成员服务以及安全且完全有序的消息传递。所有这些属性对于创建一个确保数据在服务器组之间一致复制的系统都是关键。这项技术的核心是Paxos算法的实现。它充当组通信引擎。