阅读视图

发现新文章，点击刷新页面。

Flink ClickHouse Sink：生产级高可用写入方案｜得物技术

掘金专栏-得物技术

得物技术

2026年2月10日 11:11

一、背景与痛点

业务场景

在实时大数据处理场景中，Flink + ClickHouse 的组合被广泛应用于：

日志处理： 海量应用日志实时写入分析库。
监控分析： 业务指标、APM 数据的实时聚合。

这些场景的共同特点：

数据量大：百万级 TPS，峰值可达千万级。
写入延迟敏感： 需要秒级可见。
数据准确性要求高：不允许数据丢失。
多表写入： 不同数据根据分表策略写入不同的表。

开源 Flink ClickHouse Sink 的痛点

Flink 官方提供的 ClickHouse Sink（flink-connector-jdbc）在生产环境中存在以下严重问题：

痛点一：缺乏基于数据量的攒批机制

问题表现：

// Flink 官方 JDBC Sink 的实现
public class JdbcSink<T> extends RichSinkFunction<T> {
    private final int batchSize;  // 固定批次大小
    @Override
    public void invoke(T value, Context context) {
        bufferedValues.add(value);
        if (bufferedValues.size() >= batchSize) {
            // 只能基于记录数攒批，无法基于数据量
            flush();
        }
    }

带来的问题：

内存占用不可控： 100 条 1KB 的日志和 100 条 10MB 的日志占用内存差距 100 倍。
OOM 风险高： 大日志记录（如堆栈转储）会迅速撑爆内存。
写入性能差： 无法根据记录大小动态调整批次，导致小记录批次过大浪费网络开销。

痛点二：无法支持动态表结构

问题表现：

// Flink 官方 Sink 只能写入固定表
public class JdbcSink {
    private final String sql;  // 固定的 INSERT SQL
    public JdbcSink(String jdbcUrl, String sql, ...) {
        this.sql = sql;  // 硬编码的表结构
    }
}

带来的问题：

多应用无法隔离： 所有应用的数据写入同一张表，通过特定分表策略区分。
扩展性差： 新增应用需要手动建表，无法动态路由。
性能瓶颈： 单表数据量过大（百亿级），查询和写入性能急剧下降。

痛点三：分布式表写入性能问题

问题表现：

// 大多数生产实现直接写入分布式表
INSERT INTO distributed_table_all VALUES (...)

ClickHouse 分布式表的工作原理：

带来的问题：

网络开销大： 数据需要经过分布式表层转发，延迟增加。
写入性能差： 分布式表增加了路由和转发逻辑，吞吐量降低。
热点问题： 所有数据先到分布式表节点，再转发，造成单点瓶颈。

生产级方案的核心改进

针对以上痛点，本方案提供了以下核心改进：

改进一：基于数据量的攒批机制

public class ClickHouseSinkCounter {
    private Long metaSize;  // 累计数据量（字节）
    public void add(LogModel value) {
        this.values.add(value);
        this.metaSize += value.getMetaSize();  // 累加数据量
    }
}
// 触发条件
private boolean flushCondition(String application) {
    return checkMetaSize(application)  // metaSize >= 10000 字节
        || checkTime(application);     // 或超时 30 秒
}

优势：

内存可控： 根据数据量而非记录数攒批。
精确控制： 1KB 的记录攒 10000 条 = 10MB，1MB 的记录攒 10 条 = 10MB。
避免OOM： 大日志记录不会撑爆内存。

改进二：动态表结构与分片策略

public abstract class ClickHouseShardStrategy<T> {
    public abstract String getTableName(T data);
}
//日志侧实现为应用级分表
public class LogClickHouseShardStrategy extends ClickHouseShardStrategy<String> {
    @Override
    public String getTableName(String application) {
        // 动态路由：order-service → tb_logs_order_service
        return String.format("tb_logs_%s", application);
    }
}

优势：

应用隔离： 日志侧内置应用级分表，每个应用独立分表。
动态路由： 根据 application 自动路由到目标表。
扩展性强： 新增应用无需手动建表（配合 ClickHouse 自动建表）。

改进三：本地表写入 + 动态节点发现

public class ClickHouseLocalWriter extends ClickHouseWriter {
    // 直接写本地表，避免分布式表转发
    private final ConcurrentMap<String, HikariDataSource> dataSourceMap;
    @Override
    public HikariDataSource getNextDataSource(Set<String> exceptionHosts) {
        // 1. 动态获取集群节点列表
        List<String> healthyHosts = getHealthyHosts(exceptionHosts);
        // 2. 随机选择健康节点
        return dataSourceMap.get(healthyHosts.get(random.nextInt(size)));
    }
}

优势：

性能提升： 直接写本地表，避免网络转发。
高可用： 动态节点发现 + 故障节点剔除。
负载均衡： 随机选择 + Shuffle 初始化。

技术方案概览

基于以上改进，本方案提供了以下核心能力：

本地表/分布式表写入： 性能优化与高可用平衡。
分片策略： 按应用维度路由与隔离。
攒批与内存控制： 双触发机制（数据量 + 超时）。
流量控制与限流： 有界队列 + 连接池。
健壮的重试机制： 递归重试 + 故障节点剔除。
Checkpoint 语义保证： At-Least-Once 数据一致性。

二、核心架构设计

架构图

核心组件

核心流程

三、本地表 vs 分布式表写入

ClickHouse 表结构说明

ClickHouse 推荐直接写本地表，原因：

写入性能： 避免分布式表的网络分发。
数据一致性： 直接写入目标节点，减少中间环节故障点，比分布式表写入更安全，利于工程化。
负载均衡： 客户端路由实现负载分散。

-- 本地表（实际存储数据）
CREATE TABLE tb_logs_local ON CLUSTER 'default' (
    application String,
    environment String,
    message String,
    log_time DateTime
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(log_time)
ORDER BY (application, log_time);
-- 分布式表（逻辑视图，不存储数据）
CREATE TABLE tb_logs_all ON CLUSTER 'default' AS tb_logs_local
ENGINE = Distributed('default', dw_log, tb_logs_local, cityHash64(application));

HikariCP 连接池配置

// HikariCP 连接池配置
public class ClickHouseDataSourceUtils {
    private static HikariConfig getHikariConfig(DataSourceImpl dataSource) {
        HikariConfig config = new HikariConfig();
        config.setConnectionTimeout(30000L);    // 连接超时 30s
        config.setMaximumPoolSize(20);          // 最大连接数 20
        config.setMinimumIdle(2);               // 最小空闲 2
        config.setDataSource(dataSource);
        return config;
    }
    private static Properties getClickHouseProperties(ClickHouseSinkCommonParams params) {
        Properties props = new Properties();
        props.setProperty("user", params.getUser());
        props.setProperty("password", params.getPassword());
        props.setProperty("database", params.getDatabase());
        props.setProperty("socket_timeout", "180000");      // Socket 超时 3 分钟
        props.setProperty("socket_keepalive", "true");      // 保持连接
        props.setProperty("http_connection_provider", "APACHE_HTTP_CLIENT");
        return props;
    }
}

配置说明：

maxPoolSize=20：每个 ClickHouse 节点最多 20 个连接。
minIdle=2：保持 2 个空闲连接，避免频繁创建。
socket_timeout=180s：Socket 超时 3 分钟，防止长时间查询阻塞。

ClickHouseLocalWriter：动态节点发现

public class ClickHouseLocalWriter extends ClickHouseWriter {
    // 本地节点缓存，按 IP 维护
    private final ConcurrentMap<String, HikariDataSource> dataSourceMap;
    // 动态获取集群本地表节点
    private final ClusterIpsUtils clusterIpsUtils;
    // IP 变更标志（CAS 锁，避免并发更新）
    private static final AtomicBoolean IP_CHANGING = new AtomicBoolean(false);
    @Override
    public HikariDataSource getNextDataSource(Set<String> exceptionHosts) {
        // 1️⃣ 检测集群节点变化（通过 CAS 避免并发更新）
        if (clusterIpsChanged() && IP_CHANGING.compareAndSet(false, true)) {
            try {
                ipChanged(); // 动态更新 dataSourceMap
            } finally {
                IP_CHANGING.set(false);
            }
        }
        // 2️⃣ 获取异常节点列表（从 Redis + APM 实时查询）
        Set<String> exceptIps = clusterIpsUtils.getExceptIps();
        exceptIps.addAll(exceptionHosts);
        // 3️⃣ 过滤健康节点，随机选择
        List<String> healthyHosts = dataSourceMap.keySet().stream()
            .filter(host -> !exceptIps.contains(host))
            .collect(Collectors.toList());
        if (CollectionUtils.isEmpty(healthyHosts)) {
            throw new RuntimeException("Can't get datasource from local cache");
        }
        return dataSourceMap.get(healthyHosts.get(random.nextInt(healthyHosts.size())));
    }
    private void ipChanged() {
        List<String> clusterIps = clusterIpsUtils.getClusterIps();
        // 新增节点：自动创建连接池
        clusterIps.forEach(ip ->
            dataSourceMap.computeIfAbsent(ip, v ->
                createHikariDataSource(ip, port)
            )
        );
        // 移除下线节点：关闭连接池
        dataSourceMap.forEach((ip, ds) -> {
            if (!clusterIps.contains(ip)) {
                dataSourceMap.remove(ip);
                ds.close();
            }
        });
    }
}

核心逻辑：

动态节点发现： 从 system.clusters 查询所有节点。
自动扩缩容： 节点上线自动加入，下线自动剔除。
故障节点剔除： 通过 APM 监控，自动剔除异常节点。
负载均衡： 随机选择健康节点，避免热点。

集群节点动态发现（ClusterIpsUtils）

public class ClusterIpsUtils {
    // 从 system.clusters 查询所有节点
    private static final String QUERY_CLUSTER_IPS =
        "select host_address from system.clusters where cluster = 'default'";
    // LoadingCache：定时刷新节点列表（1 小时）
    private final LoadingCache<String, List<String>> clusterIpsCache =
        CacheBuilder.newBuilder()
            .expireAfterAccess(10, TimeUnit.HOURS)
            .refreshAfterWrite(1, TimeUnit.HOURS)
            .build(CacheLoader.asyncReloading(new CacheLoader<>() {
                @Override
                public List<String> load(String dbName) {
                    return queryClusterIps();  // 定时刷新节点列表
                }
            }));
    // 异常节点缓存（1 分钟刷新）
    private final LoadingCache<String, FlinkExceptIpModel> exceptIpsCache =
        CacheBuilder.newBuilder()
            .refreshAfterWrite(1, TimeUnit.MINUTES)
            .build(CacheLoader.asyncReloading(new CacheLoader<>() {
                @Override
                public FlinkExceptIpModel load(String dbName) {
                    return queryExceptIp();  // 从 Redis + APM 查询异常节点
                }
            }));
}

异常节点监控策略：

磁盘使用率 >= 90%： 从 APM 查询 Prometheus 指标，自动加入黑名单。
HTTP 连接数 >= 50： 连接数过多说明节点压力大，自动加入黑名单。
人工配置： 通过 Redis 配置手动剔除节点

数据来源：

ClickHouse system.clusters 表： 获取所有集群节点。
APM Prometheus 接口： 监控节点健康状态。
Redis 缓存： 人工配置的异常节点。

负载均衡优化

public class ClickHouseWriter {
    public <T> ClickHouseWriter(...) {
        // Shuffle：随机打乱数据源顺序
        Collections.shuffle(clickHouseDataSources);
        this.clickHouseDataSources = clickHouseDataSources;
    }
    public HikariDataSource getNextDataSource(Set<String> exceptionHosts) {
        // 轮询 + 随机选择（已 shuffle，避免热点）
        int current = this.currentRandom.getAndIncrement();
        if (current >= clickHouseDataSources.size()) {
            this.currentRandom.set(0);
        }
        return clickHouseDataSources.get(currentRandom.get());
    }
}

优势：

初始化时 shuffle，避免所有 writer 同时从第一个节点开始。
轮询 + 随机选择，负载分散更均匀。
故障节点自动剔除。

四、支持分表策略

分片策略抽象

public abstract class ClickHouseShardStrategy<T> {
    private String tableName;      // 表名模板，如 "tb_log_%s"
    private Integer tableCount;    // 分表数量
    // 根据数据决定目标表名
    public abstract String getTableName(T data);
}

日志分片实现

public class LogClickHouseShardStrategy extends ClickHouseShardStrategy<String> {
    @Override
    public String getTableName(String application) {
        // 表名格式：tb_log_{application}
        // 例如：application = "order-service" -> table = "tb_log_order_service"
        return String.format(
            this.getTableName(),
            application.replace("-", "_").toLowerCase()
        );
    }
}

按表（应用）维度的缓冲区

日志侧维度降级为应用名称维度缓冲区，实则因为按照应用分表，

业务方可使用自身分表策略携带表名元数据，进行表维度缓冲。

public class ClickHouseShardSinkBuffer {
    // 按 application 分组的缓冲区（ConcurrentHashMap 保证并发安全）
    private final ConcurrentHashMap<String, ClickHouseSinkCounter> localValues;
    public void put(LogModel value) {
        String application = value.getApplication();
        // 1️⃣ 检查是否需要 flush
        if (flushCondition(application)) {
            addToQueue(application); // 触发写入
        }
        // 2️⃣ 添加到缓冲区（线程安全的 compute 操作）
        localValues.compute(application, (k, v) -> {
            if (v == null) v = new ClickHouseSinkCounter();
            v.add(value);
            return v;
        });
    }
    private void addToQueue(String application) {
        localValues.computeIfPresent(application, (k, v) -> {
            // 深拷贝并清空（避免并发修改异常）
            List<LogModel> deepCopy = v.copyValuesAndClear();
            // 构造请求 Blank：application + targetTable + values
            String targetTable = shardStrategy.getTableName(application);
            ClickHouseRequestBlank blank = new ClickHouseRequestBlank(deepCopy, application, targetTable);
            // 放入队列
            writer.put(blank);
            return v;
        });
    }
}

核心设计：

应用隔离： 每个表（应用）独立的 buffer，互不影响。
线程安全： 使用 ConcurrentHashMap.compute()保证并发安全。
深拷贝： List.copyOf() 创建不可变副本，避免并发修改。
批量清空： 一次性取出所有数据，清空计数器。

五、攒批与内存控制

双触发机制

public class ClickHouseShardSinkBuffer {
    private final int maxFlushBufferSize;  // 最大批次大小（如 10000）
    private final long timeoutMillis;      // 超时时间（如 30s）
    // 触发条件检查（满足任一即触发）
    private boolean flushCondition(String application) {
        return localValues.get(application) != null
            && (checkMetaSize(application) || checkTime(application));
    }
    // 条件1：达到批次大小
    private boolean checkMetaSize(String application) {
        return localValues.get(application).getMetaSize() >= maxFlushBufferSize;
    }
    // 条件2：超时
    private boolean checkTime(String application) {
        long current = System.currentTimeMillis();
        return current - localValues.get(application).getInsertTime() > timeoutMillis;
    }
}

批次大小计算

public class ClickHouseSinkCounter {
    private final List<LogModel> values;
    private Long metaSize; // 累计的 metaSize（字节）
    public void add(LogModel value) {
        this.values.add(value);
        this.metaSize += value.getMetaSize(); // 累加 metaSize
    }
    public List<LogModel> copyValuesAndClear() {
        List<LogModel> logModels = List.copyOf(this.values); // 深拷贝（不可变）
        this.values.clear();
        this.metaSize = 0L;
        this.insertTime = System.currentTimeMillis();
        return logModels;
    }
}

关键点：

使用 metaSize（字节数）而非记录数控制批次，内存控制更精确。
List.copyOf() 创建不可变副本，避免并发修改。
清空后重置 insertTime，保证超时触发准确性。

带随机抖动的超时

private final long timeoutMillis;
public ClickHouseShardSinkBuffer(..., int timeoutSec, ...) {
    // 基础超时 + 10% 随机抖动（避免惊群效应）
    this.timeoutMillis = TimeUnit.SECONDS.toMillis(timeoutSec)
                      + new SecureRandom().nextInt((int) (timeoutSec * 0.1 * 1000));
}

目的： 避免多个TM 同时触发 flush，造成写入流量峰值。

配置示例

ClickHouseShardSinkBuffer.Builder
    .aClickHouseSinkBuffer()
    .withTargetTable("single_table")  //单表时，可直接使用指定表名
    .withMaxFlushBufferSize(10000)  // 对应字节数
    .withTimeoutSec(30)              // 30 秒超时
    .withClickHouseShardStrategy(new LogClickHouseShardStrategy("table_prefix_%s", 8))  //分表策略时，使用
    // 分表策略可根据业务实际情况进行扩展
    .build(clickHouseWriter);

六、写入限流与流量控制

有界队列设计

public class ClickHouseWriter {
    // 有界阻塞队列
    private final BlockingQueue<ClickHouseRequestBlank> commonQueue;
    public ClickHouseWriter(ClickHouseSinkCommonParams sinkParams, ...) {
        // 队列最大容量配置（默认 10）
        this.commonQueue = new LinkedBlockingQueue<>(sinkParams.getQueueMaxCapacity());
    }
    public void put(ClickHouseRequestBlank params) {
        unProcessedCounter.incrementAndGet();
        // put() 方法在队列满时会阻塞，实现背压
        commonQueue.put(params);
    }
}

背压传导：

线程池并发控制

public class ClickHouseWriter {
    private final int numWriters; // 写入线程数
    private ExecutorService service;
    private void buildComponents() {
        ThreadFactory threadFactory = ThreadUtil.threadFactory("clickhouse-writer");
        service = Executors.newFixedThreadPool(numWriters, threadFactory);
        // 创建多个 WriterTask 并提交
        for (int i = 0; i < numWriters; i++) {
            WriterTask task = new WriterTask(i, commonQueue, sinkParams, futures, unProcessedCounter);
            service.submit(task);
        }
    }
}

WriterTask 消费逻辑

class WriterTask implements Runnable {
    @Override
    public void run() {
        isWorking = true;
        while (isWorking || !queue.isEmpty()) {
            // poll() 超时返回（100ms），避免无限等待
            ClickHouseRequestBlank blank = queue.poll(100, TimeUnit.MILLISECONDS);
            if (blank != null) {
                // 创建 Future 并设置超时（3 分钟）
                CompletableFuture<Boolean> future = new CompletableFuture<>();
                future.orTimeout(3, TimeUnit.MINUTES);
                futures.add(future);
                try {
                    send(blank, future, new HashSet<>());
                } finally {
                    // final 进行未知异常兜底，防止为捕获异常造成future状态不完成，永久阻塞
                    if (!future.isDone()) {
                        future.completeExceptionally(new RuntimeException("Unknown exception"));
                    }
                    queueCounter.decrementAndGet();
                }
            }
        }
    }
}

配置参数

七、重试机制与超时控制

Future 超时控制

public class ClickHouseWriter {
    private final int numWriters; // 写入线程数
    private ExecutorService service;
    private void buildComponents() {
        ThreadFactory threadFactory = ThreadUtil.threadFactory("clickhouse-writer");
        service = Executors.newFixedThreadPool(numWriters, threadFactory);
        // 创建多个 WriterTask 并提交
        for (int i = 0; i < numWriters; i++) {
            WriterTask task = new WriterTask(i, commonQueue, sinkParams, futures, unProcessedCounter);
            service.submit(task);
        }
    }
}

超时策略：

Future 超时： 3 分钟（orTimeout）。
Socket 超时： 3 分钟（socket_timeout=180000）。
连接超时： 30 秒（connectionTimeout=30000）。

重试逻辑

class WriterTask implements Runnable {
    @Override
    public void run() {
        isWorking = true;
        while (isWorking || !queue.isEmpty()) {
            // poll() 超时返回（100ms），避免无限等待
            ClickHouseRequestBlank blank = queue.poll(100, TimeUnit.MILLISECONDS);
            if (blank != null) {
                // 创建 Future 并设置超时（3 分钟）
                CompletableFuture<Boolean> future = new CompletableFuture<>();
                future.orTimeout(3, TimeUnit.MINUTES);
                futures.add(future);
                try {
                    send(blank, future, new HashSet<>());
                } finally {
                    // final 进行未知异常兜底，防止为捕获异常造成future状态不完成，永久阻塞
                    if (!future.isDone()) {
                        future.completeExceptionally(new RuntimeException("Unknown exception"));
                    }
                    queueCounter.decrementAndGet();
                }
            }
        }
    }
}

重试控制逻辑

private void handleUnsuccessfulResponse(..., Set<String> exceptHosts) {
    // 检查 Future 是否已完成（避免重复完成）
    if (future.isDone()) {
        return;
    }
    if (attemptCounter >= maxRetries) {
        // 达到最大重试次数，标记失败
        future.completeExceptionally(new RuntimeException("Max retries exceeded"));
    } else {
        // 递归重试
        requestBlank.incrementCounter();
        send(requestBlank, future, exceptHosts); // 递归调用，排除失败节点
    }
}

重试策略：

递归重试： 失败后递归调用，直到成功或达到最大次数。
异常节点隔离： 每次重试时排除失败的节点（exceptHosts）。
超时控制： Future 超时（3 分钟）防止永久阻塞。

为什么递归重试是更好的选择

递归重试（当前实现）

队列重试（假设方案）

保证一致性

  // ClickHouseWriter.java:139-158
  while (!futures.isEmpty() || unProcessedCounter.get() > 0) {
      CompletableFuture<Void> future = FutureUtil.allOf(futures);
      future.get(3, TimeUnit.MINUTES);  // 阻塞直到全部完成
  }

Checkpoint 时所有数据要么全部成功，要么全部失败。
重启后不会有部分数据重复的问题。

简单可靠

代码逻辑清晰。
对于队列重试且不重复，需要复杂的二阶段提交（这里暂不展开），大幅增加代码复杂度。

性能可接受

class WriterTask implements Runnable {
    @Override
    public void run() {
        while (isWorking || !queue.isEmpty()) {
            ClickHouseRequestBlank blank = queue.poll(100, TimeUnit.MILLISECONDS);
            if (blank != null) {
                // 创建 Future 并设置 3 分钟超时
                CompletableFuture<Boolean> future = new CompletableFuture<>();
                future.orTimeout(3, TimeUnit.MINUTES); // 防止永久阻塞
                futures.add(future);
                try {
                    send(blank, future, new HashSet<>());
                } finally {
                    if (!future.isDone()) {
                        future.completeExceptionally(new RuntimeException("Timeout"));
                    }
                    queueCounter.decrementAndGet();
                }
            }
        }
    }
}

虽然阻塞，但有超时保护。
ClickHouse 写入通常很快（秒级）。
网络故障时重试也合理。

避开故障节点

  // ClickHouseWriter.java:259-260
  HikariDataSource dataSource = getNextDataSource(exceptHosts);

递归时可以传递 exceptHosts。
自动避开失败的节点。
提高成功率。

异常节点剔除

// 特殊错误码列表（自动加入黑名单）
private final List<Integer> ignoreHostCodes = Arrays.asList(210, 1002);
public HikariDataSource getNextDataSource(Set<String> exceptionHosts) {
    if (CollectionUtils.isNotEmpty(exceptionHosts)) {
        // 过滤异常节点
        List<HikariDataSource> healthyHosts = clickHouseDataSources.stream()
            .filter(ds -> !exceptionHosts.contains(getHostFromUrl(ds)))
            .collect(Collectors.toList());
        if (CollectionUtils.isEmpty(healthyHosts)) {
            return null; // 所有节点都异常
        }
        return healthyHosts.get(random.nextInt(healthyHosts.size()));
    }
    // 正常轮询（已 shuffle，避免热点）
    return clickHouseDataSources.get(currentRandom.getAndIncrement() % size);
}

故障节点剔除策略：

错误码 210（网络异常）： 自动加入黑名单。
错误码 1002（连接池异常）： 自动加入黑名单。
APM 监控： 磁盘 >= 90%、HTTP 连接 >= 50 的节点。
手动配置： 通过 Redis 配置剔除。

恢复机制：

LoadingCache 定时刷新（1 分钟）。
节点恢复健康后自动从黑名单移除。

重试流程图

八、异常处理模式

两种 Sink 模式

public Sink buildSink(String targetTable, String targetCount, int maxBufferSize) {
    IClickHouseSinkBuffer buffer = ClickHouseShardSinkBuffer.Builder
        .aClickHouseSinkBuffer()
        .withTargetTable(targetTable)
        .withMaxFlushBufferSize(maxBufferSize)
        .withClickHouseShardStrategy(new LogClickHouseShardStrategy(targetTable, count))
        .build(clickHouseWriter);
    // 根据配置选择模式
    if (ignoringClickHouseSendingExceptionEnabled) {
        return new UnexceptionableSink(buffer);  // 忽略异常
    } else {
        return new ExceptionsThrowableSink(buffer); // 抛出异常
    }
}

UnexceptionableSink（忽略异常 - At-Most-Once）

public class UnexceptionableSink implements Sink<LogModel> {
    private final IClickHouseSinkBuffer<LogModel> buffer;
    @Override
    public void put(LogModel message) {
        buffer.put(message);  // 不检查 Future 状态
    }
    @Override
    public void flush() {
        buffer.flush();
    }
}

适用场景：

允许部分数据丢失。
不希望因写入异常导致任务失败。
对数据准确性要求不高（如日志统计）。

语义保证：At-Most-Once（最多一次）

ExceptionsThrowableSink（抛出异常 - At-Least-Once）

public class ExceptionsThrowableSink implements Sink<LogModel> {
    private final IClickHouseSinkBuffer<LogModel> buffer;
    @Override
    public void put(LogModel message) throws ExecutionException, InterruptedException {
        buffer.put(message);
        // 每次写入都检查 Future 状态
        buffer.assertFuturesNotFailedYet();
    }
    @Override
    public void flush() throws ExecutionException, InterruptedException {
        buffer.flush();
    }
}

Future 状态检查：

public void assertFuturesNotFailedYet() throws ExecutionException, InterruptedException {
    CompletableFuture<Void> future = FutureUtil.allOf(futures);
    // 非阻塞检查
    if (future.isCompletedExceptionally()) {
        logger.error("There is something wrong with the future. exist sink now");
        future.get(); // 抛出异常，导致 Flink 任务失败
    }
}

适用场景：

数据准确性要求高。
需要保证所有数据写入成功。
异常时希望 Flink 任务失败并重启。

语义保证：At-Least-Once（至少一次）

Future 清理策略与并发控制

定时检查器

public class ClickHouseSinkScheduledCheckerAndCleaner {
    private final ScheduledExecutorService scheduledExecutorService;
    private final List<CompletableFuture<Boolean>> futures;
    // ⚠️ volatile 保证多线程可见性（关键并发控制点）
    private volatile boolean isFlushing = false;
    public ClickHouseSinkScheduledCheckerAndCleaner(...) {
        // 单线程定时执行器
        scheduledExecutorService = Executors.newSingleThreadScheduledExecutor(factory);
        // 定时执行清理任务（每隔 checkTimeout 秒，默认 30 秒）
        scheduledExecutorService.scheduleWithFixedDelay(getTask(), ...);
    }
    private Runnable getTask() {
        return () -> {
            synchronized (this) {
                //  关键：检查是否正在 flush，避免并发冲突
                if (isFlushing) {
                    return; // Checkpoint 期间暂停清理
                }
                // 1️⃣ 清理已完成的 Future
                futures.removeIf(filter);
                // 2️⃣ 触发所有 Buffer 的 flush（检查是否需要写入）
                clickHouseSinkBuffers.forEach(IClickHouseSinkBuffer::tryAddToQueue);
            }
        };
    }
    // Checkpoint flush 前调用（暂停 cleaner）
    public synchronized void beforeFlush() {
        isFlushing = true;
    }
    // Checkpoint flush 后调用（恢复 cleaner）
    public synchronized void afterFlush() {
        isFlushing = false;
    }
}

核心设计：

volatile boolean isFlushing： 标志位，协调 cleaner 与 checkpoint 线程。
synchronized (this)： 保证原子性，避免并发冲突。
单线程执行器： 避免 cleaner 内部并发问题。

并发控制机制

问题场景：

时间轴冲突：
T1: Cleaner 线程正在执行 tryAddToQueue()
T2: Checkpoint 触发，调用 sink.flush()
T3: Cleaner 同时也在执行 tryAddToQueue()
    ├─ 可能导致：数据重复写入
    ├─ 可能导致：Buffer 清空顺序混乱
    └─ 可能导致：Future 状态不一致

解决方案：

// ClickHouseSinkManager.flush()
public void flush() {
    // 1️⃣ 暂停定时清理任务（设置标志）
    clickHouseSinkScheduledCheckerAndCleaner.beforeFlush(); // isFlushing = true
    try {
        // 2️⃣ 执行 flush（此时 cleaner 线程会跳过执行）
        clickHouseWriter.waitUntilAllFuturesDone(false, false);
    } finally {
        // 3️⃣ 恢复定时清理任务
        clickHouseSinkScheduledCheckerAndCleaner.afterFlush(); // isFlushing = false
    }
}

并发控制流程：

关键设计点：

volatile 保证可见性： isFlushing 使用 volatile，确保多线程间的可见性。
synchronized 保证原子性： getTask() 整个方法体使用 synchronized (this)。
标志位协调： 通过 isFlushing 标志实现两个线程间的协调。
finally 确保恢复： 即使 waitUntilAllFuturesDone() 异常，也会在 finally 中恢复 cleaner。

避免的并发问题：

数据重复写入： Cleaner 和 Checkpoint 同时 flush。
Buffer 状态不一致： 一边清空一边写入。
Future 清理冲突： 正在使用的 Future 被清理。

性能影响：

Checkpoint flush 期间，cleaner 暂停执行（通常 1-3 秒）。
Cleaner 跳过的周期会在下次正常执行时补偿。
对整体吞吐影响极小（cleaner 间隔通常 30 秒）。

九、Checkpoint 语义保证

为什么 Checkpoint 时必须 Flush？

不 Flush 的后果

不Flush导致数据永久丢失

正确做法

@Override
public void snapshotState(FunctionSnapshotContext context) throws Exception {
    logger.info("start doing snapshot. flush sink to ck");
    // 1. 先 flush buffer（将内存数据写入 ClickHouse）
    if (sink != null) {
        sink.flush();
    }
    // 2. 等待所有写入完成
    if (sinkManager != null && !sinkManager.isClosed()) {
        sinkManager.flush();
    }
    // 此时 Checkpoint 才能标记为成功
    logger.info("doing snapshot. flush sink to ck");
}

Flush 实现与并发协调

public class ClickHouseSinkManager {
    public void flush() {
        //  步骤1：暂停定时清理任务
        clickHouseSinkScheduledCheckerAndCleaner.beforeFlush(); // isFlushing = true
        try {
            //  步骤2：执行 buffer flush + 等待所有写入完成
            clickHouseWriter.waitUntilAllFuturesDone(false, false);
        } finally {
            //  步骤3：恢复定时清理任务（finally 确保执行）
            clickHouseSinkScheduledCheckerAndCleaner.afterFlush(); // isFlushing = false
        }
    }
}

并发协调详解：

// cleaner 线程执行流程
synchronized (this) {
    if (isFlushing) {
        return; // Checkpoint 期间跳过本次执行
    }
    // 正常执行：清理已完成的 Future + 触发 Buffer flush
    futures.removeIf(filter);
    buffers.forEach(Buffer::tryAddToQueue);
}

关键点：

volatile 可见性： isFlushing 使用 volatile 确保 cleaner 线程立即看到状态变化。
synchronized互斥： getTask()方法体使用 synchronized (this) 确保原子性。
标志位协调： 通过 beforeFlush() / afterFlush() 管理标志位。
finally 保证恢复： 即使 flush 异常，也会在 finally 中恢复 cleaner。

等待所有 Future 完成

public synchronized void waitUntilAllFuturesDone(boolean stopWriters, boolean clearFutures) {
    try {
        // 循环等待：直到所有 Future 完成 + 队列清空
        while (!futures.isEmpty() || unProcessedCounter.get() > 0) {
            CompletableFuture<Void> all = FutureUtil.allOf(futures);
            // 最多等待 3 分钟（与 Future 超时一致）
            all.get(3, TimeUnit.MINUTES);
            // 移除已完成的 Future（非异常）
            futures.removeIf(f -> f.isDone() && !f.isCompletedExceptionally());
            // 检查是否有异常 Future
            if (anyFutureFailed()) {
                break; // 有异常则退出
            }
        }
    } finally {
        if (stopWriters) stopWriters();
        if (clearFutures) futures.clear();
    }
}

关键逻辑：

循环等待直到所有 Future 完成 + 队列清空。
超时 3 分钟（与 Future 超时一致）。
移除已完成的非异常 Future。
有异常时退出循环。

三种 Flush 触发方式对比

Checkpoint 参数配置

// Checkpoint 配置建议
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 启用 Checkpoint（间隔 1 分钟）
env.enableCheckpointing(60000);
// Checkpoint 超时（必须大于 Future 超时 + 重试时间）
// 建议：CheckpointTimeout > FutureTimeout * MaxRetries
env.getCheckpointConfig().setCheckpointTimeout(600000); // 10 分钟
// 一致性模式
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);
// 最小间隔（避免过于频繁）
env.getCheckpointConfig().setMinPauseBetweenCheckpoints(30000); // 30 秒
// 最大并发 Checkpoint 数
env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);

语义保证

推荐配置：

生产环境： 使用 ExceptionsThrowableSink + Checkpoint。

允许部分丢失： 使用 UnexceptionableSink。

十、最佳实践与调优

生产配置

// ========== ClickHouse 连接参数 ==========
clickhouse.sink.target-table = tb_logs_local
clickhouse.sink.max-buffer-size = 104857600        // 批次大小
clickhouse.sink.table-count = 0                // 0 表示不分表
// ========== 写入性能参数 ==========
clickhouse.sink.num-writers = 10               // 写入线程数
clickhouse.sink.queue-max-capacity = 10        // 队列容量
clickhouse.sink.timeout-sec = 30               // flush 超时
clickhouse.sink.retries = 10                   // 最大重试次数
clickhouse.sink.check.timeout-sec = 30         // 定时检查间隔
// ========== 异常处理参数 ==========
clickhouse.sink.ignoring-clickhouse-sending-exception-enabled = false
clickhouse.sink.local-address-enabled = true   // 启用本地表写入
// ========== ClickHouse 集群配置 ==========
clickhouse.access.hosts = 192.168.1.1:8123,192.168.1.2:8123,192.168.1.3:8123
clickhouse.access.user = default
clickhouse.access.password = ***
clickhouse.access.database = dw_xx_xx
clickhouse.access.cluster = default
// ========== HikariCP 连接池配置 ==========
connectionTimeout = 30000                      // 连接超时 30s
maximumPoolSize = 20                           // 最大连接数 20
minimumIdle = 2                                // 最小空闲 2
socket_timeout = 180000                        // Socket 超时 3mi

性能调优

故障排查

十一、总结

本文深入分析了 Flink ClickHouse Sink 的实现方案，核心亮点包括：

技术亮点

连接池选型： 使用 HikariCP，性能优异，连接管理可靠。
Future 超时控制： orTimeout(3min) 防止永久阻塞。
显式资源管理： Connection 和 PreparedStatement 显式关闭，防止连接泄漏。
负载均衡优化： Shuffle 初始化 + 轮询选择，避免热点。
异常处理增强： future.isDone() 检查，避免重复完成。
本地表写入： 动态节点发现 + 故障剔除，写入性能提升。
分片策略： 按表（应用）维度路由，独立缓冲和隔离。
攒批优化： 双触发机制（大小 + 超时）+ 随机抖动。
流量控制： 有界队列 + 线程池，实现背压。
健壮重试： 递归重试 + 异常节点剔除 + 最大重试限制。

Checkpoint 语义

At-Least-Once： ExceptionsThrowableSink + Checkpoint。
At-Most-Once： UnexceptionableSink。
Exactly-Once： 需要配合 ClickHouse 事务（未实现）。

生产建议

必须： Checkpoint 时 flush，否则会丢数据。
推荐： 使用 HikariCP + 本地表写入。
推荐： 配置合理的超时（Future < Socket < Checkpoint）。
推荐： 监控队列大小、Future 失败率、重试次数。

该方案已在生产环境大规模验证，能够稳定支撑百万级 TPS 的日志写入场景。

往期回顾

1.服务拆分之旅：测试过程全揭秘｜得物技术

2.大模型网关：大模型时代的智能交通枢纽｜得物技术

3.从“人治”到“机治”：得物离线数仓发布流水线质量门禁实践

4.AI编程实践：从Claude Code实践到团队协作的优化思考｜得物技术

5.入选AAAI-PerFM｜得物社区推荐之基于大语言模型的新颖性推荐算法

文 /虚白

关注得物技术，每周更新技术干货

要是觉得文章对你有帮助的话，欢迎评论转发点赞～

未经得物技术许可严禁转载，否则依法追究法律责任。

服务拆分之旅：测试过程全揭秘｜得物技术

掘金专栏-得物技术

得物技术

2026年2月5日 14:47

一、引言

代码越写越多怎么办？在线等挺急的！ Bidding-interface服务代码库代码量已经达到100w行！！

Bidding-interface应用是出价域核心应用之一，主要面向B端商家。跟商家后台有关的出价功能都围绕其展开。是目前出价域代码量最多的服务。

随着出价业务最近几年来的快速发展，出价服务承接的流量虽然都是围绕卖家出价，但是已远远超过卖家出价功能范围。业务的快速迭代而频繁变更给出价核心链路高可用、高性能都带来了巨大的风险。

经总结有如下几个痛点：

核心出价链路未隔离：

出价链路各子业务模块间代码有不同程度的耦合，迭代开发可扩展性差，往往会侵入到出价主流程代码的改动。每个子模块缺乏独立的封装，而且存在大量重复的代码，每次业务规则调整，需要改动多处，容易出现漏改漏测的问题。
大单体&功能模块定义混乱：

历史原因上层业务层代码缺乏抽象，代码无法实现复用，需求开发代码量大，导致需求估时偏高，经常出现20+人日的大需求，需求开发中又写出大量重复代码，导致出价服务代码库快速膨胀，应用启动耗时过长，恶性循环。
B/C端链路未隔离：

B端卖家出价链路流量与C端价格业务场景链路流量没有完全隔离，由于历史原因，有些B端出价链路接口代码还存在于price应用中，偶尔B端需求开发会对C端应用做代码变更。存在一定的代码管控和应用权限管控成本。
发布效率影响：

代码量庞大，导致编译速度缓慢。代码过多，类的依赖关系更为复杂，持续迭代逐步加大编译成本，随着持续迭代，新的代码逻辑，引入更多jar 依赖，间接导致项目部署时长变长蓝绿发布和紧急问题处理时长显著增加；同时由于编译与部署时间长，直接影响开发人员在日常迭代中的效率（自测，debug，部署）。
业务抽象&分层不合理：

历史原因出价基础能力领域不明确，出价底层和业务层分层模糊，业务层代码和出价底层代码耦合严重，出价底层能力缺乏抽象，上层业务扩展需求频繁改动出价底层能力代码。给出价核心链路代码质量把控带来较高的成本，每次上线变更也带来一定的风险。

以上，对于Bidding服务的拆分和治理，已经箭在弦上不得不发。否则，持续的迭代会继续恶化服务的上述问题。

经过前期慎重的筹备，设计，排期，拆分，和测试。目前Bidding应用经过四期的拆分节奏，已经马上要接近尾声了。服务被拆分成三个全新的应用，目前在小流量灰度放量中。

本次拆分涉及：1000+Dubbo接口，300+个HTTP接口，200+ MQ消息，100+个TOC任务，10+个 DJob任务。

本人是出价域测试一枚，参与了一期-四期的拆分测试工作。

项目在全组研发+测试的ALL IN投入下，已接近尾声。值此之际输出一篇文章，从测试视角复盘下，Bidding服务的拆分与治理，也全过程揭秘下出价域内的拆分测试过程。

二、服务拆分的原则

首先，在细节性介绍Bidding拆分之前。先过大概过一下服务拆分原则：

单一职责原则 (SRP)： 每个服务应该只负责一项特定的业务功能，避免功能混杂。
高内聚、低耦合： 服务内部高度内聚，服务之间松耦合，尽量减少服务之间的依赖关系。
业务能力导向： 根据业务领域和功能边界进行服务拆分，确保每个服务都代表一个完整的业务能力。

拆分原则之下，还有不同的策略可以采纳：基于业务能力拆分、基于领域驱动设计 (DDD) 拆分、基于数据拆分等等。同时，拆分时应该注意：避免过度拆分、考虑服务之间的通信成本、设计合理的 API 接口。

服务拆分是微服务架构设计的关键步骤，需要根据具体的业务场景和团队情况进行综合考虑。合理的服务拆分可以提高系统的灵活性、可扩展性和可维护性，而不合理的服务拆分则会带来一系列问题。

三、Bidding服务拆分的设计

如引言介绍过。Bidding服务被拆分出三个新的应用，同时保留bidding应用本身。目前共拆分成四个应用：Bidding-foundtion，Bidding-interface，Bidding-operation和Bidding-biz。详情如下：

出价基础服务-Bidding-foundation：

出价基础服务，对出价基础能力抽象，出价领域能力封装，基础能力沉淀。

出价服务-Bidding-interfaces：

商家端出价，提供出价基础能力和出价工具，提供商家在各端出价链路能力，重点保障商家出价基础功能和出价体验。

出价运营服务-Bidding-operation：

出价运营，重点支撑运营对出价业务相关规则的维护以及平台其他域业务变更对出价域数据变更的业务处理：

出价管理相关配置：出价规则配置、指定卖家规则管理、出价应急隐藏/下线管理工具等；
业务大任务：包括控价生效/失效，商研鉴别能力变更，商家直发资质变更，品牌方出价资质变更等大任务执行。

业务扩展服务-Bidding-biz：

更多业务场景扩展，侧重业务场景的灵活扩展，可拆出的现有业务范围：国补采购单出价，空中成单业务，活动出价，直播出价，现订现采业务，预约抢购，新品上线预出价，入仓预出价。

应用拆分前后流量分布情况：

四、Bidding拆分的节奏和目标收益

服务拆分是项大工程，对目前的线上质量存在极大的挑战。合理的排期和拆分计划是重点，可预期的收益目标是灵魂。

经过前期充分调研和规划。Bidding拆分被分成了四期，每期推进一个新应用。并按如下六大步进行：

Bidding拆分目标

解决Bidding大单体问题： 对Bidding应用进行合理规划，完成代码和应用拆分，解决一直以来Bidding大单体提供的服务多而混乱，维护成本高，应用编译部署慢，发布效率低等等问题。
核心链路隔离&提升稳定性： 明确出价基础能力，对出价基础能力下沉，出价基础能力代码拆分出独立的代码库，并且部署在独立的新应用中，实现出价核心链路隔离，提升出价核心链路稳定性。
提升迭代需求开发效率： 完成业务层代码抽象，业务层做组件化配置化，实现业务层抽象复用，降低版本迭代需求开发成本。
实现出价业务应用合理规划： 各服务定位、职能明确，分层抽象合理，更好服务于企/个商家、不同业务线运营等不同角色业务推进。

预期的拆分收益

出价服务应用结构优化：

完成对Bidding大单体应用合理规划拆分，向下沉淀出出价基础服务应用层，降低出价基础能力维护成功；向上抽离出业务扩展应用层，能够实现上层业务的灵活扩展；同时把面向平台运营和面向卖家出价的能力独立维护；在代码库和应用层面隔离，有效减少版本迭代业务需求开发变更对应用的影响面，降低应用和代码库的维护成本。

完成业务层整体设计，业务层抽象复用，业务层做组件化配置化，提升版本迭代需求开发效率，降低版本迭代需求开发成本：

按业务类型对业务代码进行分类，统一设计方案，提高代码复用性，支持业务场景变化时快速扩展，以引导降价为例，当有类似降价换流量/降价换销量新的降价场景需求时，可以快速上线，类似情况每个需求可以减少10-20人日开发工作量。

代码质量提升：

通过拆分出价基础服务和对出价流程代码做重构，将出价基础底层能力代码与上层业务层代码解耦，降低代码复杂度，降低代码冲突和维护难度，从而提高整体代码质量和可维护性。

开发效率提升：
1. 缩短应用部署时间： 治理后的出价服务将加快编译和部署速度，缩短Bidding-interfaces应用发布(编译+部署)时间由12分钟降低到6分钟，从而显著提升开发人员的工作效率，减少自测、调试和部署所需的时间。以Bidding服务T1环境目前一个月编译部署至少1500次计算，每个月可以节约150h应用发布时间。
2. 提升问题定位效率： 出价基础服务层与上层业务逻辑层代码库&应用分开后，排查定位开发过程中遇到的问题和线上问题时可以有效缩小代码范围，快速定位问题代码位置。

五、测试计划设计

服务拆分的前期，研发团队投入了大量的心血。现在代码终于提测了，进入我们的测试环节：

为了能收获更好的质量效果，同时也为了不同研发、测试同学的分工。我们需要细化到最细粒度，即接口维度整理出一份详细的文档。基于此文档的基础，我们确定工作量和人员排期：

如本迭代，我们投入4位研发同学，2位测试同学。完成该200个Dubbo接口和100个HTTP接口，以及20个Topic迁移。对应的提测接口，标记上负责的研发、测试、测试进度、接口详细信息等内容。

基于该文档的基础上，我们的工作清晰而明确。一个大型的服务拆分，也变成了一步一步的里程碑任务。

接下来给大家看一下，关于Bidding拆分。我们团队整体的测试计划，我们一共设计了五道流程。

第一关：自测接口对比：

每批次拆分接口提测前，研发同学必须完成接口自测。基于新旧接口返回结果对比验证。验证通过后标记在文档中，再进入测试流程。

对于拆分项目，自测卡的相对更加严格。由于仅做接口迁移，逻辑无变更，自测也更加容易开展。由研发同学做好接口自测，可以避免提测后新接口不通的低级问题。提高项目进度。

在这个环节中。偶尔遇见自测不充分、新接口参数传丢、新Topic未配置等问题。（三期、四期测试中，我们加强了对研发自测的要求）。
第二关：测试功能回归

这一步骤基本属于测试的人工验证，同时重点需关注写接口数据验证。

回归时要测的细致。每个接口，测试同学进行合理评估。尽量针对接口主流程，进行细致功能回归。由于迁移的接口数量多，历史逻辑重。一方面在接口测试任务分配时，要尽量选择对该业务熟悉的同学。另一方面，承接的同学也有做好历史逻辑梳理。尽量不要产生漏测造成的问题。

该步骤测出的问题五花八门。另外由于Bidding拆分成多个新服务。两个新服务经常彼此间调用会出现问题。比如二期Bidding-foundation迁移完成后，Bidding-operation的接口在迁移时，依赖接口需要从Bidding替换成foundation的接口。

灰度打开情况下，调用新接口报错仍然走老逻辑。（测试时，需要关注trace中是否走了新应用）。
第三关：自动化用例

出价域内沉淀了比较完善的接口自动化用例。在人工测试时，测试同学可以借助自动化能力，完成对迁移接口的回归功能验证。

同时在发布前天，组内会特地多跑一轮全量自动化。一次是迁移接口开关全部打开，一次是迁移接口开关全部关闭即正常的自动化回归。然后全员进行排错。

全量的自动化用例执行，对迁移接口问题拦截，有比较好的效果。因为会有一些功能点，人工测试时关联功能未考虑到，但在接口自动化覆盖下无所遁形。
第四关：流量回放

在拆分接口开关打开的情况下，在预发环境进行流量回放。

线上录制流量的数据往往更加复杂，经常会测出一些意料之外的问题。

迭代过程中，我们组内仍然会在沿用两次回放。迁移接口开关打开后回放一次，开关关闭后回放一次。（跟发布配置保持一致）。
第五关：灰度过程中，关闭接口开关，功能回滚

为保证线上生产质量，在迁移接口小流量灰度过程中。我们持续监测线上问题告警群。

以上，就是出价域测试团队，针对服务拆分的测试流程。同时遵循可回滚的发布标准，拆分接口做了非常完善的灰度功能。下一段落进行介绍。