普通视图

发现新文章,点击刷新页面。
今天 — 2026年1月15日首页

百度流式计算开发平台的降本增效之路

作者 百度Geek说
2026年1月15日 15:33

导读

在这个高速发展的信息时代,数据洪流已经成为了企业在数字化转型过程中遇到的核心挑战,而流式计算正是应对无界数据流的利器。然而,随着流式技术的普及与发展,其固有的复杂性也日益凸显:

  • 开发门槛高:需要开发者深入掌握事件时间处理、窗口机制、状态管理等复杂概念;

  • 运维成本高:实时系统的容错保障、监控告警与性能调优,往往比离线系统耗费更多人力;

  • 扩展性差:传统流式架构僵化,难以灵活、高效地响应业务的快速迭代与规模增长。

面对这些挑战,业界共识逐渐清晰:流式计算的未来,不应只属于少数专家,而应成为每个团队都能高效使用的通用能力。为此,一种新的破局思路正在兴起——将流式计算与云原生理念深度融合,构建以 Kubernetes 为底座、以开发者体验为中心的 PaaS 化流式开发平台

这样的平台,不仅将底层基础设施的复杂性封装于服务之中,更通过配置化、模板化、自动化的手段,把专家经验转化为平台默认能力,真正实现“让实时计算像搭积木一样简单”。这正是本文所要探讨的核心命题:如何基于云原生技术,打造一个高效、可靠、易用的新一代流式计算 PaaS 平台

01 背景

1.1 流式计算简介

流式计算(Stream Compute)是一种对无界数据流进行实时处理的计算模式。相比于传统的批处理先存储后计算的模型,流式计算会在数据生成时便持续不段的导入、处理和分析,并近乎实时地产出连续的结果。

如果将数据源看做一条奔流不息的“数据河流”:

批处理:修筑水坝,先将河水拦截并蓄水至一定水位线(存储),然后再开闸放水进行计算。这种方式延迟高,但是吞吐量大,适合对时效性不高的海量数据进行离线分析;

  • 流式计算:在河床上安装一套实时监测和过滤系统,对流淌过的每一滴水进行即时分析处理。这种方式延迟极低,使业务能够对瞬息万变的业务场景做出及时反应。

因此,流式计算的核心价值就是时效性,将数据分析这个原本应该出现在“事后复盘”的环节提前到“事中干预”甚至“事前预测”。这在例如实时监控、实时风控、实时推荐等关键业务场景中起到了重要的作用。

1.2 传统流式计算核心挑战

尽管流式计算凭借其时效性高的优点,在企业的业务发展中越来越占据了核心地位,但是由于其复杂性,成了制约企业发展的一个障碍,主要分为开发门槛高、运维成本高、扩展性差三个方面。

1.2.1 开发门槛高

当前市面上主流的流式计算框架(如Flink、Spark Streaming等)以及百度自研的流式计算框架TM,虽然功能强大,但是学习路径异常陡峭。开发者不仅需要了解分布式系统的基本原理,还需要了解:

事件时间与处理时间的处理:如何正确处理乱序事件、延迟数据到达时应该怎么处理等等,这些问题是实现精确业务逻辑的前提,同时也是最容易出错的部分;

  • 复杂的窗口机制:窗口一般分为滚动窗口、滑动窗口和会话窗口,不同窗口的适用场景与配置差异有很大区别,如果选择不当也将影响业务效果;

  • 状态管理机制:有状态计算是流处理的核心问题,而状态的容错、恢复与一致性保障(如Exactly-Once)机制复杂,对开发者的要求也更高。

1.2.2 运维成本高

与离线的批处理不同,流式系统的运维是持续且动态的,这也导致了高昂的运维成本,主要体现在:

容错:在节点故障、网络抖动的情况下,如何保证不重不丢,这就需要复杂的检查点(Checkpoint)机制和保存点(Savepoint)机制;

  • 实时监控与告警:流式系统本身的秒级时效也要求运维团队能够秒级发现并响应问题 ,为了达到这个目标,需要针对于任务延迟、反压(Backpressure)、资源使用率等关键指标配置复杂的监控和告警体系;

  • 持续的性能调优:流式系统的特点是在运行起来之前,没人知道应该怎么样配置资源参数,因为一点点数据量的波动或者业务逻辑变更都可能引发性能瓶颈,造成延迟或者反压等问题。这就需要运维人员持续地针对于系统进行调参,包括并行度、内存资源参数等等。

1.2.3 扩展性差

早期的各类流式计算框架设计上相对僵化,而难以灵活应对当前快速发展的业务需求,其扩展性主要是受制于以下三个方面:

  • 架构耦合度高:计算逻辑与底层资源、存储强耦合,这就导致了升级或迁移时成本较高;

  • 弹性伸缩能力弱:部分流式场景可能会面临突如其来的热点问题,如双十一电商大促,面对可能到来的流量高峰,只能提前估算并扩容,同样地当流量低谷到来时,也将造成资源浪费。在高速迭代的场景下,这样不够灵活的模式越来越捉襟见肘;

  • 业务迭代不敏捷:实际企业业务场景中实时指标或者计算口径的迭代是家常便饭,而现有框架下一个迭代的上线需要复杂的开发、测试、上线流程,无法满足业务快速发展的要求。

1.3 破局之道——构建云原生流式计算PaaS平台

面对开发复杂、运维繁重、扩展受限等痛点,单纯依赖底层框架已难以为继,我们需要一场开发与运维范式的根本性变革。而云原生与PaaS(平台即服务)理念的深度融合,正式引领这场变革的破局点:将流式计算能力封装起来作为云原生PaaS服务,通过平台化手段实现能力下沉、体验上移。

具体而言,平台以Kubernetes为底座,融合配置化开发模型与智能化运行引擎,达成三大转变:

从“写代码”到“配任务”:通过标准化的表单化配置,抽象事件时间、窗口、状态等复杂概念,用户只需声明数据源、处理逻辑与输出目标,即可生成可运行的流式作业,大幅降低开发门槛;

  • 从“人肉运维”到“自动治理”:依托 Kubernetes 的弹性调度、健康探针与 Operator 模式,平台自动完成任务部署、扩缩容、故障恢复与指标采集,将运维复杂度内化于平台;

  • 从“烟囱式架构”到“服务化复用”:通过统一的元数据管理、连接器库与模板市场,实现计算逻辑、数据源、监控策略的跨团队复用,支撑业务敏捷迭代与规模化扩展。

这一 PaaS 化转型,不仅继承了云原生技术在资源效率、可观测性与自动化方面的优势,更将流式计算从“专家专属工具”转变为“全员可用服务”,为企业实时数据能力建设提供了可持续、可复制的基础设施。

02 平台架构总览:云原生PaaS的设计内核

云原生技术(容器化、编排调度、微服务、可观测性)流式计算与PaaS结合提供了 “物理基础”,让平台化能力有了落地的土壤。其核心价值在于实现了流式系统的 “标准化、弹性化、可感知”:

标准化部署:通过 Docker 容器化封装流式任务及其依赖环境,消除 “开发环境与生产环境不一致” 的痛点,同时让任务的部署、迁移、复制变得高效统一 —— 这是智能化调度和弹性扩缩容的前提,确保系统能对任务进行精准操作;

  • 弹性编排调度:基于 Kubernetes(K8s)的编排能力,实现流式任务的自动化部署、调度与生命周期管理。K8s 的 Pod 调度、StatefulSet 状态管理等特性,为流式任务的水平扩缩、故障转移提供了底层支撑,让资源调整变得灵活可控;

  • 全链路可观测:云原生可观测性技术(Prometheus、Grafana、Jaeger 等)构建了 Metrics(指标)、Logs(日志)、Traces(链路追踪)三维监控体系,让流式系统的运行状态 “可视化、可量化、可追溯”。

318f84e872d01dbcfc9851482eacd04c.png 依托云原生的技术,我们构建了四层架构的流式计算基础设施架构,是PaaS落地的技术底座:

  • 硬件资源层:以多地域、多机房的服务器集群为物理支撑,通过分布式部署实现资源规模化与容灾能力,为上层提供算力基础;

  • Kubernetes 编排层:由 K8s Master(集成 API Server、调度器等核心组件)和多节点 K8s Node 组成,承担资源调度、任务编排、弹性扩缩的核心能力,实现流式任务的自动化部署、生命周期管理与资源动态分配;

  • 容器化流式引擎层:以容器化 Pod 形式运行基于厂内自研流式框架TM的算子,通过容器标准化封装消除环境差异,支持水平扩缩容,让计算能力可根据业务流量弹性适配;

  • 可观测性层:通过 Grafana Dashboard 等工具构建全链路监控体系,覆盖指标、日志、链路追踪,为用户实时感知系统状态,及时决策提供了数据支撑。

四层架构的协同,最终实现了**“标准化部署、弹性资源调度、全链路可观测”**的云原生能力,为流式计算的 PaaS 化封装提供了坚实技术底座 —— 将底层复杂的资源管理、引擎调度、监控采集能力下沉,向上层用户暴露 “简单、易用、高效” 的配置化开发接口,完美承接 “降低门槛、简化运维、提升弹性” 的核心目标,让流式计算能力真正以 “服务” 形式交付。

2.1 基石:Kubernetes编排层——资源的智能大脑

Kubernetes 不仅是容器编排引擎,更是整个流式平台的“智能调度中枢”,它是整个平台弹性与自动化的基石。

我们基于K8s实现了流式任务的声明式管理与智能调度。用户提交的任务需求(如所需CPU、内存)被抽象为K8s的定制化资源,而平台的流式任务算子则作为集群内的“自动化运维机器人”,持续监听这些资源状态,并驱动底层执行。其核心价值体现在:

声明式部署与自愈:平台将用户配置的流式任务,自动转换为由Deployment(无状态任务)或StatefulSet(有状态任务,保障Pod名称与存储的稳定)管理的Pod组。当某个Pod因节点故障意外退出时,K8s的控制器会立即在健康节点上重建,通常在秒级内完成故障恢复,实现了从“人工响应”到“自动愈合”的质变。

  • 高效运维与弹性基础:Kubernetes的声明式API与资源模型,为流式任务的高效运维与可控弹性提供了完美基础。平台基于此定义了清晰的资源规格与副本数配置。当业务需要扩缩容时,运维人员只需通过平台更新一个配置值,K8s调度器便会自动、可靠地完成整个实例的扩容或优雅终止流程。这种模式将传统的、易出错的手工部署,转变为一种可审计、可回滚、分钟级内完成的标准化操作,为应对计划内的流量洪峰(如大促)提供了敏捷且可靠的弹性能力。

  • 资源隔离与高效利用:通过K8s的NamespaceResource Quota,平台可以为不同部门或业务线创建逻辑上隔离的资源池,避免相互干扰。同时,K8s调度器能基于节点的实际资源利用率,进行智能装箱(Bin Packing),显著提升集群整体的资源使用效率,降低成本。

综上所述,Kubernetes 在此不仅是“运行环境”,更是实现了 资源调度、弹性控制、高可用保障 三位一体的智能大脑。

2.2 载体:容器化流式引擎层——应用的标准化封装

流式计算的复杂性则很大程度上源于环境依赖于运行时差异,而容器化技术是连接用户逻辑与底层资源的“载体”,是彻底解决这一问题的有效方法:

  • 统一镜像规范:所有流式作业基于标准化基础镜像构建,预装基础环境配置、监控 Agent 和日志采集器,确保“开发、测试、生产”三环境完全一致;

  • 轻量级 Sidecar 模式:每个 Pod 包含主容器(运行流式算子)与 Sidecar 容器(负责日志上报、指标暴露、配置热更新),解耦业务逻辑与平台能力;

  • 资源隔离与限制:通过 K8s 的resources.requests/limits精确控制 CPU、内存分配,避免单个任务资源争抢影响集群稳定性。

容器在此不仅是“打包工具”,更是 标准化交付、安全隔离、敏捷迭代 的核心载体

2.3 视野:可观测性层——系统的透明驾驶舱

对于一个持续运行的实时系统,可观测性如同飞机的驾驶舱仪表盘,是保障其稳定、高效运行的“眼睛”和“直觉”。我们构建了三位一体的可观测性体系:

Metrics(指标)- 系统的脉搏:平台深度集成Prometheus,自动采集每个流式任务Pod的核心性能指标,如**数据吞吐率(records/s)、处理延迟(process_latency)、背压状态(is_backpressured)**以及CPU/内存使用率。通过预置的Grafana仪表盘,运维人员可以一眼掌握全局健康状态,将监控从“黑盒”变为“白盒”。

  • Logs(日志)- 诊断的溯源:所有容器的标准输出与错误日志,通过DaemonSet方式被统一收集、索引(如存入Elasticsearch)。当指标出现异常时,运维人员可以快速关联到对应时间点的详细应用日志,精准定位错误根源,将排障时间从小时级缩短至分钟级。

  • Traces(分布式链路追踪)- 性能的脉络:对于复杂的数据处理流水线,我们通过集成链路追踪,还原一条数据在流式任务DAG中流经各个算子的完整路径和耗时。这使得定位性能瓶颈(例如,是哪部分操作拖慢了整体速度)变得直观而高效。

可观测性在此不仅是“监控工具”,更是 智能决策的数据源泉,为弹性扩缩、用户及时调优提供实时反馈。

16a9b18a198140c82cdc8df55fa361f1.png△ Grafana监控仪表盘

2.4 协同:架构驱动的核心价值闭环

上述三层并非孤立存在,而是通过 “声明 → 执行 → 感知 → 优化” 的闭环紧密协同:

用户通过配置声明业务意图(如“每分钟统计活跃用户”);

  • Kubernetes 编排层将其转化为可调度的 Pod 拓扑,并由容器化引擎执行;

  • 可观测性层持续采集运行数据,形成系统“数字孪生”;

  • 平台基于反馈自动触发弹性扩缩、参数调优或故障恢复,最终兑现 SLA 承诺。

这一闭环,使得平台既能 向下充分利用云原生基础设施的能力,又能 向上为用户提供简单、可靠、高效的流式服务体验。开发门槛、运维成本、扩展性三大痛点,由此在架构层面被系统性化解。

03 配置化开发——从“编码”到“装配”

传统开发模式下,工程师们需要用代码手动地去处理流式计算任务的每一个细节,这是需要复杂和强依赖经验的。而配置化的出现,恰如第一次工业革命的珍妮纺纱机,使工程师们从冗杂的重复工作中释放出来,将“手工作坊”升级生成“现代化生产线”,使流式计算开发变得普惠和平民化。

3.1 从代码到配置:开发模式的范式转移

这场革命最初的表现是开发模式的根本性转变:从命令式(Imperative)转变为声明式(Declarative)的范式转移。

  • 命令式(写代码):开发者需要告诉流式系统**“怎么做”(How),这带来了极大的灵活性,但是同时也伴随着极高的复杂度和学习成本;

  • 声明式(写配置):开发者需要声明**“做什么”(What),而“怎么做”则交由底层引擎去完成。

0f6aeca92db1c38bde53e61c99a19507.png

3.2 隐藏的复杂性:从“专家调优”到“配置默认”

常见的流式系统主要由数据源层、核心计算层、时间容错层、结果输出层这四部分:

数据源层和结果输出层,即数据采集和输出的过程,不在我们此次重点讨论的范围内;

3.2.1 核心计算层

对于核心计算层来说,这里负责了流式作业的主要业务逻辑计算,其中

Import算子——数据接入的“第一入口”

  • 算子特点:作为流式数据进入核心计算层的“门户”,核心职责是实现多种类型数据源的接入和初步格式解析,为后续计算环节提供标准化的数据输入,是保障数据接入稳定性和兼容性的关键。

  • 传统开发模式:需要工程师根据不同的输入数据类型,手动配置响应的链接参数,以进行不同的适配;同时还需要自定义数据解析逻辑,处理不同格式数据的字段映射和类型转换;此外,还需要手动处理连接异常、数据读取重试等问题,避免数据丢失或重复处理。

  • 配置化调优:无需手动编写接入与解析代码,支持多种主流数据格式,如CSV、Parquet、PB等;对于PB格式来说,在预置的标准数据格式模板的基础上,支持上传自定义proto后,通过反射将proto内各个字段映射成便于用户处理的Schema;同时系统内部集成连接容错、自动重试、断点续读机制,保证数据接入的稳定性。

Map/Filter算子——数据预处理的第一个环节

  • 算子特点:最基础、高频的算子,Map 负责对单条数据做结构化转换(如字段格式清洗、维度扩充、单位换算),Filter 则按业务规则筛选数据(如过滤空值、无效订单、非目标场景数据),是所有业务逻辑落地的前置环节;

  • 传统开发模式:开发流式作业时需要工程师手动编写定义转换/筛选逻辑, Map需要逐字段处理数据类型转化,而Filter要精确写明判断条件。除了要保证逻辑精准外,还需要兼顾性能,如复杂字段多层嵌套可能会导致单条数据处理耗时过长,进而引发整条流数据延迟;

  • 配置化调优:无需编写一行代码,通过可视化界面配置流式作业,系统会现针对于用户的数据源进行预处理,将多种多样的格式处理成便于用户直接用Sql语句直接处理的格式,Map 操作支持拖拽算子、上传自定义proto等实现,Filter 可通过配置Sql设置过滤规则。

Aggregate算子——业务指标计算

  • 算子特点:针对于实例内拿到的这一批数据,对数据做聚合计算(如求和、计数、平均值、TopN等),是实现实时业务指标统计的核心算子;

  • 传统开发模式:需要工程师自行定义聚合逻辑,如使用hash map做累加器等,在复杂聚合(如多维度嵌套聚合)的情况下,开发难度大,调试成本高,同时还需要兼顾计算时效和聚合粒度等;

  • 配置化优化:直接写Sql的模式极大降低了开发成本,同时底层采用向量化引擎对列进行操作,相较于传统的行处理模式极大提高了计算效率,提高了时效性。

Sink算子——计算结果的最终出口

  • 算子特点:作为核心计算层的收尾环节,将最终流式作业产出数据输出至下游目标系统,是实时数据价值落地的关键。

  • 传统开发模式:需要工程师手动编写输出代码和配置项,适配下游系统的通信协议与数据格式;同时在Exactly-Once语义要求下,工程师需要协调检查点与Sink算子的事务或幂等写入逻辑,实现难度大;与此同时,批量写入的大小、间隔等参数调优将直接影响吞吐量和端到端延迟。

  • 配置化优化:流式开发平台提供了一套标准化的Sink框架,用户只需要指定落盘的目标系统并配置基础参数,即可实现流式计算结果输出。目前已支持落盘Afs,厂内自研消息队列Bigpipe,以及向量化数据库Doris,未来还将进一步支持Redis、Clickhouse等。

  • 检查点:在配置化场景下,用户仅需要配置检查点存储路径,而触发时机、容错策略、状态分片与恢复等底层复杂逻辑全部交由系统自动托管,提升了流式作业的可用性和易用性。

3.2.2 时间与容错层

时间与容错层是流式计算中“扛风险,保稳定”的核心支撑,水位控制和状态管理两大模块的底层逻辑复杂且易出错,传统开发模式下调优成本高,而配置化将其完全对用户透明,仅在页面上向用户体现为各个计算环节处理进度。

在流式系统中,水位体现了数据的完整性(水位时间之前的所有数据都已就绪)和可见性(当某条数据处理出现故障,水位便不会再退进,问题由此变得可见),作为这么重要的一个概念,水位控制就显得格外重要,往往需要丰富的经验和多次调优才能达到预期的效果。而在配置化的流式平台中,水位的控制对用户基本透明,仅在运维界面体现为各个算子的当前处理进度,在降低了门槛的前提下又保证了水位的数据完整性和可见性两个特点。

而状态管理是Exactly-Once的重要保证,保障了故障恢复时的数据一致性。传统开发模式下,用户需手动设计状态的存储结构(如选择本地内存还是分布式存储)、编写状态序列化 / 反序列化代码、规划状态分片策略以避免单点瓶颈,还要手动处理状态版本冲突、清理过期状态以防止存储膨胀,每一步都依赖对底层存储和分布式系统的深度理解。而在配置化的帮助下,这些技术被完全封装,用户仅需要配置状态存储的路径,其他则完全交由系统实现。

3.3 实践——Push业务在流式计算开发平台的落地

目前,Push业务实时方向优先在流式计算开发平台落地实践,这一决策不仅契合流式计算场景“低延迟、高吞吐、实时处理”的核心特性,更通过创新的开发方式实现了业务价值的高效释放——相较于传统开发模式中“开发-测试-部署-迭代”的冗长链路,新方案大幅简化了流式任务的编排、调试与上线流程,减少了环境适配、依赖冲突等冗余环节,让开发人员能够聚焦核心业务逻辑的迭代优化,无需投入过多精力在底层环境搭建与运维工作上。最终,这一落地策略显著缩短了业务需求从提出到上线的周期,极大提升了业务更新迭代的效率,助力业务快速响应市场变化、迭代产品功能,同时降低了开发与运维成本,为后续在更多云原生、实时计算相关业务场景的规模化推广奠定了坚实基础。

d0a065eea48702679b1166fbabf469a1.png

3.4 降本增效与敏捷迭代

配置化带来的价值是多维且立竿见影的,与我们在背景中讨论过的核心挑战相呼应:

  • 大幅降低开发门槛和人力成本:在有了配置化之后,业务部门想要开发流式任务便不再需要向流式部门提需,只需要经过简单培训即可上手,同时也降低了沟通成本,团队的人力成本得以有效优化;

  • 显著提升运维效率与系统稳定性:标准化的核心优势就是避免了很多人为错误,同时作为模板一定是经过多次试验后的最佳实践,能够保障作业运行的基线性能。同时,统一的交互界面将各个操作接口收口到一个平台上,极大降低了操作成本,版本管理、作业启停变得轻而易举,极大提升了运维效率;

  • 极致优化资源利用:声明式的资源配置让流式系统可以更加灵活地进行资源扩速容调度和优化,避免了资源浪费或瓶颈;

  • 赋能业务敏捷迭代:从前每个简单的迭代(例如将落盘窗口从5分钟修改成15分钟)都需要走开发-测试-上线的繁琐流程,往往会耗时半天至一天,而有了配置化后,仅仅需要在配置界面修改一个参数并重新发布部署即可实现修改,实现了真正的“敏捷开发”,让业务创新快人一步。

04 总结与展望

通过构建基于 Kubernetes 的云原生流式计算 PaaS 平台,我们不仅解决了传统流式系统“开发难、运维重、扩展弱”的三大痛点,更完成了一次开发范式的跃迁——从“手写代码、手动调优”走向“配置驱动、平台兜底”。开发者不再需要深陷于资源调度、状态管理、容错机制等底层复杂性,而是聚焦于业务逻辑本身,真正实现“所想即所得”的流式应用构建体验。这一转变的背后,是平台将多年积累的流式计算最佳实践,以标准化、自动化的方式内嵌于架构之中。无论是时间语义的精准处理,还是 Checkpoint 与 Exactly-Once 的默认保障,平台都在默默承担起“专家角色”,让普通开发者也能轻松驾驭高可靠、高性能的实时计算任务。

展望未来,立足于当前稳固的云原生底座,平台的演进路径清晰可见:

弹性智能化:当前基于可观测层丰富的监控指标,为引入更精细的自动化弹性策略奠定了坚实基础。后续,我们将探索基于自定义监控指标(如水位延迟、CPU使用率、吞吐量波动)的HPA,让资源扩缩容能紧贴真实业务负载,在保障SLA的同时进一步优化成本。

  • 运维自治化:在大模型能力快速发展的当下,基于多年积淀的流式工程经验方案,在RAG技术的加持下构造流式服务运维智能体,实现运维自治化。

  • 体验服务化(Serverless):在配置化开发之上,最终极的体验是让用户完全感知不到底层引擎与基础设施。未来,平台将向流式计算FaaS(Function-as-a-Service)深化,用户只需提交一段业务处理函数或SQL,平台即可自动完成资源调度、引擎选择与任务生命周期管理,实现真正的“按需计算”。

昨天以前首页

百度一站式全业务智能结算中台

作者 百度Geek说
2025年12月23日 16:41

导读

本文深入介绍了百度一站式全业务智能结算中台,其作为公司财务体系核心,支撑多业务线精准分润与资金流转。中台采用通用化、标准化设计,支持广告、补贴、订单等多种结算模式,实现周结与月结灵活管理。通过业务流程标准化、分润模型通用化及账单测算自动化,大幅提升结算效率与准确性,确保数据合规与业务稳健发展。未来,中台将推进全业务线结算立项线上化、数据智能分析,进一步提升数据分析智能化水平,为公司业务发展提供坚实保障。

01 概述

结算中台作为公司财务体系的核心组成部分,承担着多业务线分润计算、结算及资金流转的关键职能。采用通用化、标准化的设计理念,结算中台能够高效支撑公司内数十个业务线的分润需求,确保广告收入、订单收入、内容分发的精准结算,为公司的财务健康与业务稳健发展提供坚实保障。结算中台建设的核心目标是: 构建高效、标准化、智能化的结算中台体系,支撑多业务线分润计算与资金流转,确保结算数据准确性、高时效披露及业务快速迭代能力,同时降低运维复杂度,推动全业务线结算线上化管理。

结算中台已对接了百家号业务、搜索业务、智能体业务、小说等多个业务线的结算需求, 支持广告分润、补贴分润、订单分润三种结算模式。不同业务线根据各自的业务场景使用不同的结算模式,确保每个业务的收益分配准确无误。结算中台功能分层如图:

图片

02 基本功能

1. 结算模式

结算中台支持三种结算模式,以适应不同业务场景的结算需求:

  • 订单结算:基于直接订单数据,按照订单实际金额与分成策略进行分润计算。

  • 补贴结算:针对特定业务或用户群体,提供额外的收益补贴,以增强业务的市场竞争力。

  • 广告结算:根据分发内容的广告变现与渠道分成比例,精确计算媒体与内容的实际收益。

2. 结算能力

结算中台支持周结与月结两种结算能力:

  • 周结:适用于需要快速资金回笼的业务场景,比如短剧快速回款以后能够再次用于投流, 确保资金流转的高效性。

  • 月结:作为默认的结算周期,便于公司进行统一的财务管理与账务处理。

3. 账单测算自动化

结算中台支持重点业务账单自动测算,通过预设的分润模型,自动计算每个渠道、每位作者的应得收益,生成测算报告。这一自动化过程显著提升工作效率,减少人为错误,确保结算数据的绝对准确。

03 需求分析

在推进公司结算业务时,我们致力于实现统一化、标准化,规范业务流程,并确保数据合规化治理,我们面临着诸多问题与挑战,具体表现如下:

1. 流程与规范缺失

  • 结算流程管理混乱:存在结算需求未备案即已上线的情况,或者备案内容与实际实现不一致,甚至缺乏备案流程。

  • 日志规范陈旧:广告分润场景中,内容日志打点冗余,同时缺少扩展性,导致对新的业务场景无法很好兼容。

2. 烟囱式开发成本高

  • 标准化与统一化需求迫切:之前,各个结算业务维护各自的结算系统,涉及不同的技术栈和结算模型,线下、线上结算方式并存,导致人工处理环节多,易出错,case多,管理难度大。为提高效率,需实现结算业务的标准化与统一化,并拓展支持多种业务结算模式。

  • 分润模型通用化设计:多数业务结算方式相同,同时账单计算逻辑也相似或者相同,没有必要每个业务设计一套逻辑,需要做通用化设计。

3. 业务迭代中的新诉求

  • 测算系统需求凸显:在业务快速迭代的过程中,许多业务希望尽快看到结算效果,以推进项目落地。因此,构建高效的测算系统成为迫切需求,以加速业务迭代和决策过程。

  • 提升作者体验:为提升作者等合作伙伴的满意度和忠诚度,结算数据需实现高时效披露,确保他们能及时、准确地获取收益信息。结算账单数据的产出依赖百余条数据源,要保证数据在每天12点前产出,困难重重

  • 数据校验与监控机制:结算数据的准确性和质量直接关系到公司的财务健康和业务发展。因此,需建立完善的数据校验和监控机制,确保结算数据的准确无误和高质量。

04 技术实现

根据结算中台建设的核心目标,结合业务痛点,在结算系统建设中,基于通用化、标准化的理念,从以下五个方面来搭建统一的、规范化的结算中台。

  • 业务流程标准化:建设一套标准来定义三类结算模式下每个数据处理环节的实现方式,包括业务处理流程、数据处理过程。

  • 分润模型通用化:实现不同的账单计算算法,支持各个业务的各类作者收入分配诉求,并且实现参数配置线上化。

  • 技术架构统一:统一整个结算业务的技术栈、部署环境、功能入口和数据出口。

  • 建设账单测算能力:模拟线上结算流程的账单测算能力,支持业务快速验证分润模型参数调整带来的作者收入影响效果。

  • 建设质量保证体系:建设全流程预警机制,通过日志质检、自动对账、数据异常检测来保障账单产出数据时效性、准确性。

1. 业务流程标准化

不同业务场景,采用了通用化、标准化的设计来满足业务的特异性需求,下面是三大结算模式业务流程简图:

图片

在广告模式、补贴模式、订单模式结算流程设计中, 从日志打点、线上化、计算逻辑等方向考虑了通用化、标准化设计, 具体如下:

(1) 日志打点统一化

统一日志标准, 针对业务日志规范陈旧问题,要求所有接入的业务方严格按照统一格式打点日志,删除冗余字段, 确保数据的规范性与一致性,同时保证设计能够覆盖所有业务场景,为后续处理奠定坚实基础。

针对某些业务定制化的需求, 在广告模式、补贴模式、订单模式三种结算方式中,在设计日志打点规范时, 会预留一些扩展字段, 使用时以 JSON 形式表示, 不使用时打默认值。

(2) 账单计算线上化

在补贴结算模式中,之前不同业务都有各自的账单格式设计,同时存在离线人工计算账单的非规范化场景,账单无法统一在线计算、存储、监管。新的结算中台的补贴结算模式,将所有离线结算模式,使用统一的账单格式,全部实现线上化结算,实现了业务结算流程规范化。

(3) 账单计算逻辑优化

比如在广告模式中,百家号业务的公域视频、图文、动态场景中,由于收入口径调整,迭代效率要求,不再需要进行广告拼接,所以专门对账单计算流程做了优化调整。不仅满足业务诉求,同时做了通用化设计考虑,保证后续其他业务也可以使用这套流程的同时, 也能兼容旧的业务流程。

广告模式结算流程优化前:

图片

广告模式结算流程优化后:

图片

2. 分润模型通用化

不同业务场景,不同结算对象,有不同的结算诉求,不仅要满足业务形态多样化要求,还要具有灵活性。因此抽取业务共性做通用性设计,同时通过可插拔式设计灵活满足个性化需求。

图片

(1) 基于流量变化模型

以合作站点的优质用户投流方为代表的用户,他们在为百度提供海量数据获得收益的同时,也有自己的诉求,那就是自己内容的收益不能受到其他用户内容的影响。自己优质内容不能被其他用户冲淡,当然自己的低质内容也不会去拉低别人的收益水平。

对于此部分用户我们提供“基于流量变现的分润”策略,简单来说就是,某一篇内容的收益仅仅由它自己内容页面挂载的广告消费折算而来,这样就保证了优质用户投流方收益的相对独立,也促使优质用户产出更加多的内容。

(2) 基于内容分发模型

  • 部分作者只关注收益回报: 对百家号的某些作者来说,他们的目的很单纯,他们只关注产出的内容是否获得具有竞争力的收益回报,至于收益怎么来他们并不关心。

  • “基于流量变现”策略不妥此时,我们再使用“基于流量变现”的策略的话,就有些不妥,举个极端里的例子,有一个作者比较倒霉,每次分发都没有广告的渲染,那他是不是颗粒无收?这对作者是很不友好的。

  • “基于内容分发的分润”模型: 基于收益平衡性考虑,我们推出了更加适合百家号用户的“基于内容分发的分润”模型。在这种模型下,只要内容有分发,就一定有收益,而不管本身是否有广告消费。

  • 策略平衡考虑: 当然,为了防止海量产出低质内容来刷取利润,在分润模型上,我们同时将内容质量分和运营因子作为分润计算的权重,也就是说作者最终的收益由内容的质量和内容的分发量共同决定,以达到通过调整分润来指导内容产出的目的。

(3) 基于作者标签模型

为了实现对百家号头部优质作者进行激励,促进内容生态良性发展, 会对不同的作者进行打标, 并且使用不同的分润模型, 比如对公域的百家号作者进行打标, 优质作者, 通过动态单价及内容质量权重策略来给到他们更加的分成, 其他的普通作者, 通过内容分发模型来分润。这样不仅保证了优质作者取得高收益,也保证了其他作者也有一定的收益

另外,出于对预算的精确控制,发挥每一笔预算的钱效,优质的作者会占用较大的预算资金池,而普通作者使用占用较少的预算资金池。同时也会对每类资金池进行上下限控制,保证预算不会花超。

(4) 基于运营场景模型

为了实现对百家号作者的精细化运营,比如对一些参与各类短期活动的作者给予一定的阶段性的奖励,可以通过补贴模型来实现。在一些运营活动中,需要控制部分作者的分成上限,分润模型会进行多轮分成计算,如果作者的收益未触顶并且资金池还有余额的情况下,会对余额进行二次分配,给作者再分配一些收益。此类模型主要是为了实现灵活多变的作者分润策略。

3. 技术架构统一

根据业务流程标准化、分润模型通用化的设计原则,建设统一的结算中台。以下是结算中台统一结算业务前后的对比:

图片

图片

4. 建设账单测算能力

为各个需要测算能力的业务,设计了一套通用的测算流程,如下图:

图片

针对每个测算业务,设计了独立的测算参数管理后台,用于管理业务相关的分润模型参数,如下图:

图片

测算流程设计

(1) 功能简述: 每个测算业务, 产品需要登录模型参数管理后台,此后台支持对分润模型参数进行创建、查看、编辑、测算、复制、上线、删除,以及查看测算结果等操作, 出于业务流程合规化的要求, 每次模型参数上线前, 需要对变更的参数完成线上备案流程才可以上线,实现分润流程合规线上化。

(2) 流程简述

  • 流程简述概览: 每次测算时, 产品需要先创建一个版本的账单模型测算参数,并发起参数测算,参数状态变成待测算 。

  • 离线任务与收益计算: 此后,离线任务会轮询所有的待测算参数,提交Spark任务,调用账单计算模型来计算作者收益,最后生成TDA报告。

  • 查看与评估测算报告: 产品在管理平台看到任务状态变成测算完成时, 可以点击 TDA 链接来查看测算报告, 评估是否符合预期。

  • 根据预期结果的操作:如果不符合预期,可以编辑参数再次发起测算;如果符合预期,则可以发起备案流程,流程走完后可以提交上线。

(3) 收益明显: 通过账单测算建设, 不仅解决结算需求未备案即已上线或者备案内容与实际实现不一致,甚至缺乏备案流程的业务痛点问题,  而且把业务线下账单计算的流程做到了线上, 做到留痕可追踪。同时也满足了业务高效迭代的诉求, 一次账单测算耗时从半天下降到分钟级, 大大降低了账单测算的人力成本与时间成本。

5. 建设质量保障体系

为了保证业务质量,从以下几方面来建设:

(1) 建设数据预警机制:为保证作者账单数据及时披露, 分润业务涉及的 百余条数据源都签订了 SLA, 每份数据都关联到具体的接口人, 通过如流机器人来监控每个环节的数据到位时间, 并及时发出报警信息, 并推送给具体的接口负责人。对于产出延迟频次高的数据流,会定期拉相关负责人相关复盘,不断优化数据产出时效,保证账单数据在每天如期产出

(2) 数据异常检测机制:对账单数据进行异常波动性检测, 确保数据准确性 ,及时发现并处理潜在异常问题

(3) 自动对账机制:每天自动进行上下游系统间账单明细核对,保证出账数据流转的准确无误。

(4) 日志质检机制:每日例行对日志进行全面质检分析, 及时发现日志打点日志。

05 中台收益

结算中台作为公司财务体系的核心,承担多业务线分润计算与资金流转重任。

(1) 通过通用化、标准化设计,高效支撑数十个业务线的精准结算,确保广告、订单、内容分发的业务结算稳定、健康。近一年,结算业务零事故、零损失。

(2) 中台支持多种结算模式与灵活周期管理,实现账单测算自动化,账单测算时间从天级降到小时级。提升效率并减少错误,提升业务需求迭代效率。

(3) 通过业务流程标准化、分润模型通用化、账单测算能力建设及质量保证体系,解决了结算业务规范缺失、业务形态多样等问题。累计解决历史结算case数十个,涉及结算金额达千万级。

未来,结算中台将推进全业务线结算立项线上化、周结与测算能力落地、项目全生命周期管理,并依托大模型能力实现数据智能分析,进一步提升数据分析智能化水平,为公司业务稳健发展提供坚实保障。

06 未来规划

1、推进全业务线结算实现立项线上化;

2、推进周结 、测算能力在各业务线上落地;

3、推进项目全生命周期管理,实现项目从上线到下线整体生命周期变化线上化存档,可随时回顾复盘。

4、数据智能分析,依托公司大模型能力,实现通过多轮对话问答来进行数据分析,针对业务问题进行答疑解惑,提升数据分析的智能化水平。

❌
❌