Canal搭建与使用

Canal 简介

Canal [kə’næl]，译意为水道/管道/沟渠，是阿里巴巴开源的一个 MySQL 数据库增量订阅和消费中间件，将自己伪装成 MySQL 的从库，获取 MySQL 的 binlog（二进制日志）数据，从而实现对数据库变更的实时监听。

官方地址：https://github.com/alibaba/canal 。

实现思路
- Canal 通过解析数据库的 binlog 日志捕获数据变更。
- 将变更数据实时同步到下游服务，如更新 Elasticsearch 索引。
优点
1. 零侵入：
  - 不需要修改业务服务逻辑，无需在代码中额外发送消息。
  - 直接从 binlog 获取数据变更，减少对业务代码的侵入性。
2. 一致性强：
  - Canal 直接从数据库日志解析数据变更，与数据库主数据完全一致。
3. 低耦合：
  - 不依赖业务服务的实现，与数据库交互即可实现同步。
4. 实时性高：
  - 通过解析 binlog，变更数据可以实时同步到搜索服务。
缺点
1. 运维成本高：
  - Canal 需要独立部署，并且对高并发的 binlog 解析有较高的硬件要求。
  - Canal 本身也需要高可用方案（如集群模式）。
2. 功能有限：
  - Canal 只能捕获数据库变更（新增、修改、删除），难以处理复杂的业务逻辑（如某些需要额外字段加工的消息）。
  - 如果业务中对数据的更新不是直接写入数据库，而是通过缓存（如 Redis），Canal 无法捕获。
3. 数据处理复杂性：
  - Canal 只能获取到原始数据变更，需要额外开发逻辑将 binlog 数据转换为 Elasticsearch 所需的格式。
  - 多表关联、字段映射等逻辑可能增加实现复杂性。
4. 数据库依赖：
  - Canal 强依赖数据库的 binlog 格式（如 MySQL Binlog），对某些数据库（如 NoSQL 或非 MySQL 系统）支持有限。

Canal 通过 Docker 安装

下载镜像

docker pull elasticsearch:7.3.0

执行 docker images 查看镜像是否挂载成功：

准备挂载文件夹

接着，在 F:\Docker 文件夹下创建 /elasticsearch 文件夹，用于等会跑 es 容器时，将容器内部需要持久化的相关文件夹挂载出来：

运行 Docker 容器

命令行运行如下命令，先跑一个 Elasticsearch 7.3.0 版本的 Docker 容器：

1	`docker run -d --name es7 -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" -e ES_JAVA_OPTS="-Xms1024m -Xmx1024m" elasticsearch:7.3.0`

命令各项参数的含义：

docker run ：启动一个新的容器。
-d ：表示以后台运行（detached mode）。
--name es7 ：给这个容器指定一个名字为 es7，方便后续管理和识别。
-p 9200:9200 -p 9300:9300：端口映射，将容器内的端口暴露到主机上：
- 9200:9200：将容器内的 9200 端口（Elasticsearch 的 REST API 接口）映射到主机的 9200 端口，供外部使用。
- 9300:9300：将容器内的 9300 端口（Elasticsearch 的内部通信端口，用于节点间通信）映射到主机的 9300 端口。
-e "discovery.type=single-node"：通过环境变量设置 Elasticsearch 以单节点模式运行：
- 作用：避免集群模式下的主节点选举。
- 场景：适用于开发、测试环境，不需要集群功能。
-e ES_JAVA_OPTS="-Xms1024m -Xmx1024m"：设置 JVM 内存参数：
- -Xms1024m：设置 JVM 的初始堆内存为 1024MB。
- -Xmx1024m：设置 JVM 的最大堆内存为 1024MB。
- 作用：确保 Elasticsearch 启动时使用 1GB 固定堆内存（建议与物理内存配置匹配，以提高性能）。
elasticsearch:7.3.0：指定使用的 Docker 镜像为 elasticsearch:7.3.0。

运行 docker ps 命令，确认 Elasticsearch 7.x 容器是否运行成功：

复制需要挂载的文件夹

执行如下命令，将 es 容器内部的相关文件夹，复制到宿主机的 F:\Docker\elasticsearch 文件夹下：

1
2
3

docker cp es7:/usr/share/elasticsearch/config F:\Docker\elasticsearch
docker cp es7:/usr/share/elasticsearch/data F:\Docker\elasticsearch
docker cp es7:/usr/share/elasticsearch/plugins F:\Docker\elasticsearch

解释一下这几个文件夹的作用：

/config : Elasticsearch 的默认配置文件，便于后续修改配置，如 elasticsearch.yml、jvm.options 等；
/data : Elasticsearch 的索引、文档等数据;
/plugins : Elasticsearch 相关插件；

修改配置

编辑刚刚复制出来的 /config 中的 elasticsearch.yml 配置文件，修改如下：

cluster.name: "xxx"
network.host: 0.0.0.0
# 跨域相关
http.cors.allow-origin: "*"
http.cors.enabled: true
http.cors.allow-headers: Authorization,X-Requested-With,Content-Length,Content-Type

修改了集群名称 cluster.name 为 xxx;
添加了跨域相关配置；

重新启动容器

执行如下命令，将正在运行中的 es 容器强制删除掉：

1	`docker rm -f es7`

重新跑一个新的 es 容器，注意，这次命令中需要添加挂载文件夹参数，用于将数据、配置、插件都挂载出来，防止容器停止/删除后，相关数据丢失的问题：

docker run -d --name es7 -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" -e ES_JAVA_OPTS="-Xms1024m -Xmx1024m" -v F:\Docker\elasticsearch\config:/usr/share/elasticsearch/config -v F:\Docker\elasticsearch\data:/usr/share/elasticsearch/data -v F:\Docker\elasticsearch\plugins:/usr/share/elasticsearch/plugins -v F:\Docker\elasticsearch\logs:/usr/share/elasticsearch/logs elasticsearch:7.3.0