2023-05-20

Kafka: Cross-Cluster Data Mirroring

我们把 Kafka 集群间的数据复制叫做镜像（mirroring）。Kafka 内置的跨集群复制工具是 MirrorMaker。

1. 跨集群镜像的使用场景

区域集群与中心集群

一个公司会有多个数据中心，分布在不同的地域，每个数据中心都有自己的 Kafka 集群。有些应用程序只需要与本地 Kafka 集群通信，有些需要访问多个数据中心的数据，需要把其他数据中心的集群数据镜像到一个中心集群上。
冗余（DR）

作为 Kafka 主集群备份，当主集群不可用时，将客户端流量路由到备份集群。

Kafka 服务端与客户端是按照单个数据中心进行设计，调优的，不建议跨多个数据中心部署 Kafka 集群。多数情况下，需要尽量避免向远程数据中心生成消息，如果必须这么做，需要接受高延迟的问题，并且客户端需要进行重试，增大缓冲区等来应对网络分区的风险。

对于跨数据中心通信的需求，建议在每个数据中心部署一个 Kafka 集群，并在集群间复制数据，而不是让应用程序通过广域网访问。

对于跨数据中心通信，有一些架构设计原则：

这种架构适合一个中心 Kafka 集群对应多个本地集群的情况。

如果只有一个本地集群，那么系统就剩两个集群：Leader 集群与 Follower 集群。

Hub & Spoke 架构的优势：

缺点：

采用这种架构时，每个数据中心的数据都需要被镜像到中央数据中心上。

当两个或者多个数据中心需要共享数据且每个数据中心都可以生产和读取数据时，可以采用双活（active-active）架构。

这种架构的优势：

缺点：

有时候，使用多个集群只是为了灾备。

主备架构的优势：

缺点：

Kafka 提供了一个简单的工具，用于在两个数据中心间镜像数据，这个工具是 MirrorMaker。

镜像流程：