阅读视图

发现新文章,点击刷新页面。

百度APP日志处理框架升级之路

导读

面对百度APP日均数千亿PV、超百PB数据规模带来的巨大挑战,我们完成了数据仓库的系统性升级。本文详细阐述了通过"两步走"策略解决资源压力、处理延迟和架构瓶颈的全过程:第一阶段聚焦日志清洗环节的稳定性与成本优化,第二阶段实现实时离线链路解耦、核心数据隔离及计算框架容错能力提升。此次升级显著提升了数据处理时效性、系统稳定性和成本效益,为业务发展提供了更坚实的数据支撑。

背景

百度APP及其产品矩阵作为百度体量最大的C端业务线,在数据处理全链路面临规模与架构的双重挑战。日志清洗环节因日均几千亿PV、超百PB的庞大数据规模,导致计算资源持续承压、处理延迟频发,加之历史遗留的复杂日志格式,清洗稳定性与时效性逐步下降,存储成本高昂。与此同时上游日志数据仍存在实时与离线链路耦合、核心与边缘数据未有效隔离、计算框架容错能力不足等结构性问题,影响关键数据产出的稳定与时效。整体系统切换与优化面临高额的历史负担和技术重构成本,下游业务的数据可用性、决策及时性及深度运营分析均受到显著制约。

基于以上问题,我们制定了“两步走”的升级策略:第一阶段优先解决日志清洗环节的稳定性和存储成本问题;第二阶段在此基础上,重点推进数仓上层架构优化,包括实时与离线链路解耦、核心数据隔离处理以及计算框架容错能力提升,逐步实现整体数据仓库的高效、稳定与可持续升级。

01 第一阶段:多日志源整合

1. 2023年之前架构

在百度APP及其产品矩阵的数据体系建设过程中,日志清洗作为整个数据流水线的起始环节,其处理稳定性和产出时效性始终处于关键地位,是保障下游业务数据可用性与决策及时性的重中之重。然而,随着业务规模持续扩大和用户体量快速增长,每日产生的日志量急剧上升,由此带来的巨大计算压力使得整个清洗链路频繁面临资源瓶颈与处理延迟,稳定性和时效性均逐步下滑,难以满足下游各业务方对数据交付时间和质量的要求。与此同时,数据入口的分散催生了大量烟囱式的开发与冗余的计算逻辑,不仅推高了运维成本,更在源头形成了数据孤岛。下游基于此类数据构建的数仓架构必然复杂化,多表的 JOIN 与理解成本高昂,使得整个数据建设环节背负着日趋沉重的成本与协作压力。

2. 问题分析

2.1 旧架构分析

图片

2.1.1 数据孤岛化加剧,认知与使用成本高昂

现有架构对每类日志采用独立落表方式,导致数据存储呈现碎片化状态。这种设计造成同一业务实体的相关信息分散在不同表中,形成严重的数据割裂。下游用户在使用数据时,不得不通过多表关联才能获取完整信息,不仅大幅增加了技术实现难度,更带来了沉重的认知负担。用户需要理解多张表的结构和关联关系,极易产生理解偏差,进而影响数据分析的准确性和可靠性。

图片

2.1.2 关联查询性能瓶颈,制约数据价值释放

与此同时,多表关联查询模式给系统带来了巨大的性能压力。随着数据量的持续增长,表连接操作的成本呈指数级上升,查询响应时间显著延长。特别是在需要跨多个表进行关联分析的场景下,系统往往需要耗费大量计算资源和时间,无法满足业务对高效数据分析和快速决策的需求,严重制约了数据价值的及时释放。

此外,原始日志结构中普遍存在的复杂嵌套格式(如多层JSON、数组结构等)大幅增加了数据清洗和解析的复杂度。大量业务自定义字段缺乏统一规范,导致解析逻辑冗余且低效,进一步降低了整体处理性能。这些因素共同加剧了数据处理的延迟与资源消耗,形成系统性瓶颈。

2.1.3 维护复杂度与脆弱性并存,系统稳定性堪忧

独立的数据处理流水线,导致系统维护点分散。任何逻辑变更或schema调整都需要在多处同步实施,极大地增加了维护工作量。这种架构的脆弱性也显著提高了出错风险,单个任务修改的错误可能引发连锁反应,影响整个数据链路的稳定性。

特别需要指出的是,当前采用的UDW数仓及配套ETL框架仍是2012年上线的技术方案,已明显落后于业界主流水平。该框架存在诸多局限性:首先,其兼容性差,难以与现有开源生态工具链高效集成;其次,基于C++的MR计算框架稳定性不足,日常运行中容易出现各种异常;最后,开发调试效率低下,严重制约了数据需求的迭代速度。这些技术债务不仅增加了系统的维护复杂度,更成为制约数据平台发展的关键瓶颈。

2.2 重构思路分析

图片

理想状态:从数据架构的理想设计来看,基于通用宽表数据建模方法论,采用“一步到位”的方式直接产出高度整合、面向主题的Turing宽表,是最为高效和优雅的解决方案。它能够减少中间冗余加工环节,提升数据一致性和复用度。

升级成本:下游业务方因历史原因,数据应用架构高度依赖传统UDW模式的数据组织与服务方式,迁移至Turing宽表体系涉及大量脚本改造、逻辑核对与业务适配工作,技术切换和数据迁移成本极高,导致架构升级短期难以实施。

思考:为实现数据架构的平滑升级,本次重构方案采用渐进式过渡策略,在着力解决现有架构核心痛点的同时,必须充分考虑百度业务数据链路长、历史包袱重的现实情况,审慎平衡技术先进性与落地可行性。方案设计严格遵循"平滑过渡、风险可控、成本最优"三大原则。

需要特别指出的是,由于现有数据体系深度嵌入各业务线的策略计算与离线分析环节,其紧密的耦合关系导致配套升级难度极大、周期长。这不仅涉及底层数据表的更替、依赖路径修改,更要求对依赖原有数据模型的下游业务进行协同改造和全面适配,沟通和推进难度极大。所以在保障业务连续性的前提下,如何有序推进全链路的升级切换是本次升级的重中之重。

建模思路:

(1)降低迁移成本

在数据中间层设计上,方案延续使用刻钟级UDW表作为缓冲层,通过将多个离散的UDW表整合为统一的宽表模型,进一步降低下游的使用和理解成本。同时,对表schema实施精细化改造,包括消除冗余字段、统一数据标准、优化存储格式,并重构字段逻辑以提升数据一致性。这种设计既保持了与现有下游系统的兼容性,又显著降低了数据使用复杂度。

(2)双轨输出机制

为确保迁移过程的平稳性,方案采用双轨输出机制:一方面继续提供优化后的UDW宽表,保障现有作业的无缝运行;另一方面通过聚合加工生成小时级Turing表,作为统一对外输出的日志宽表。这种渐进式迁移路径使下游用户可根据自身情况灵活选择切换时机,最大限度降低升级成本。

(3)兼顾历史和未来

此次架构优化为后续全面升级奠定了坚实基础。通过UDW层的预处理和Turing表的逐步推广,最终将实现架构的完全过渡,在提升系统性能的同时确保业务连续性,达成技术演进与业务稳定之间的最佳平衡。

3. 解决方案

过渡方案设计与实施:稳时效、降成本、提效率的综合治理

面对日志清洗环节日益严峻的稳定性、时效性及成本压力,我们制定并实施了一套详尽的过渡性解决方案。该方案并未激进地推行一步到位的Turing宽表迁移,而是立足于现有技术生态,以快速解决下游业务最迫切的痛点为目标,重点攻坚“产出时效不稳定”、“存储计算成本高”及“明细数据查询效率低下”三大核心问题。

3.1 优化处理粒度与逻辑沉淀,保障时效与复用性

为彻底扭转小时级任务积压与延迟的局面,我们首先对调度周期进行了粒度细化,将日志清洗任务从小时级调度全面提升至刻钟级(15分钟)。这一调整显著降低了单次任务的处理数据量和计算压力,使数据产出的延迟大幅减少,稳定性和时效性得到了根本保障。在技术选型上,我们并未盲目更换计算框架,而是继续沿用成熟稳定的C++/MR框架,确保了迁移过程的平稳性与可靠性。

同时,我们致力于提升数据的易用性与标准化程度。针对下游业务方需要反复从复杂JSON、Map等嵌套字段中解析提取关键信息的痛点,我们进行了大规模的业务通用逻辑下沉工作。将超过100个高频访问的埋点属性进行预解析、扁平化处理,转化为单独的标准化字段。这不仅极大减轻了下游的数据预处理负担,更直接提升了基于这些字段的查询过滤与聚合分析效率,为下游开发节省了大量时间。

图片

3.2 兼顾历史依赖与未来演进,提供平滑迁移路径

我们充分认识到下游业务对原有UDW数仓体系的强依赖性。为保障业务的连续性,我们并未强制要求所有方立即迁移,而是采取了双轨并行的支撑策略。在产出新一代数据模型的同时,我们继续提供UDW中间表,确保那些尚未准备好迁移至Turing宽表的业务方能够无缝对接,无需修改现有代码,极大降低了方案的落地门槛和风险。

3.3 深度优化存储与查询,实现性能跨越式提升

为进一步降低存储成本并提升Turing宽表的查询性能,我们对其存储结构进行了深度优化。

  • 合并小文件与高效压缩:海量小文件是制约查询性能的首要元凶。我们通过按设备ID、点位ID、时间戳等关键字段进行精细排序,将数据写入为连续有序的大文件,从而将单天高达800万个小文件合并至60万左右,文件数量减少了近93%。在存储格式上,我们选用Parquet列式存储,并经过充分调研测试,采用了ZSTD压缩算法。ZSTD在压缩比、压缩/解压速度上取得了最佳平衡,且完美支持多线程,最终实现了每天节省超过420TB的巨大存储开销,成本效益极其显著。

4. 新的问题&解决策略

问题1:宽表数据量膨胀导致的查询性能下降

解决策略:为应对宽表数据量激增对查询性能带来的挑战,我们实施了体系化的查询加速方案,显著提升海量数据下的检索效率

  • 强制分区限制策略:在查询引擎层上线了强制要求限制分区条件的规则,避免了全表扫描带来的巨额元数据开销,大幅提升元数据检索效率。

  • 查询结果缓存:对常见的热点查询结果进行缓存,对于重复性查询实现了秒级响应。

  • 智能资源调度:根据查询的计算复杂度,系统自动将其调度到不同配置的资源池中执行,简单查询快速返回,复杂查询获得充足资源,实现了集群资源的高效利用。

问题2:分区数量增多导致点位所在的分区变得困难

解决策略:针对分区维度增加后,数据定位难度加大的问题,我们通过元数据管理与平台化集成提供解决方案:

  • 新建分区元数据集,以天为粒度预先计算并存储所有点位与分区的映射关系,形成高效的点位分区定位查询,为点位所在分区快速检索提供基础支撑。

  • 与现有点位管理平台深度集成,在其点位查询界面新增【查一查】功能。用户可通过界面化操作直接获取精准的数据分区信息及查询SQL模板,极大提升了用户使用的效率,降低了用户使用成本。

02 第二阶段:全面提速

1. 2023→2024年架构

随着业务发展,该数仓已完成由UDW(统一数据工作台)向Turing(新数据工作台)的改造,并初步建立起体系化的数据模型与分层数据集,显著提升了数据复用性和分析效率。基于这些宽表与数据集,大部分常规分析场景已能够快速响应。然而,在数据加工的最上游,即明细数据宽表的生产环节之前依旧包含缓冲的刻钟级udw表,因此仍存在若干架构性瓶颈。首先,实时数据处理链路与离线批处理链路相互耦合,资源竞争与依赖关系复杂,影响了整体任务的稳定性和时效性;其次,核心业务指标与非核心附属数据未被有效拆分处理,导致关键数据产出易受边缘数据波动或延迟的干扰;此外,当前的计算框架对于数据迟到、重复、异常值等复杂情况的处理灵活度不足,容错与自适应能力有待加强。

图片

为彻底解决这些问题,进一步提升数据产出的时效性、准确性和稳定性,以更好地赋能百度APP及其产品矩阵及各下游业务的数据分析与决策,亟需结合各数据点位的实际使用情况和业务优先级,对最上游的日志ETL(抽取、转换、加载)处理流程进行系统性的优化与重构。

2. 问题分析

当前数据ETL处理流程面临以下几个核心挑战,这些问题不仅影响数据产出的效率与稳定性,也为下游业务数据的准确性和及时性带来风险。

2.1 开发框架灵活性不足,资源协调与弹性扩展能力受限

目前的ETL任务仍沿用原有UDW大表处理框架,通过单机Hadoop Client提交任务,并依赖QE(底层为mapreduce引擎)进行计算。该框架在资源调度和权限管理方面已逐渐暴露出瓶颈。同时udw是2012年提出的数仓建设方案,随着开源计算、存储技术的发展,udw性能逐步落后业界,部分功能不具备继续升级迭代可行性。一旦出现上游数据延迟、队列资源拥塞或系统异常,容易导致任务大规模积压。由于缺乏跨队列或跨资源的调度容灾能力,无法协调其他计算资源执行任务回溯与补偿,最终将直接影响整体数据产出时效,甚至波及下游多条业务线的核心数据应用。

2.2 核心与非核心数据处理耦合,异常影响范围扩散

在日志清洗ETL环节中,核心业务数据点位与非核心业务数据点位、以及实时与离线数据流目前尚未进行有效拆分处理。这种架构层面的耦合导致一旦上游数据源或计算过程中发生异常,其影响面会迅速扩大,不仅关键业务指标受到冲击,非核心业务数据的问题也可能反向干扰核心链路的稳定性。缺乏业务优先级识别和隔离机制,降低了计算链路的整体容错能力和故障隔离水平。

2.3 计算链路冗长复杂,维护困难且稳定性面临挑战

当前处理流程中包含UDW中间缓冲层,导致计算环节增多、链路层级深化。较长的依赖链不仅增加了数据产出的端到端延迟,也显著提高了运维监控和故障定位的复杂度。任何环节出现性能波动或失败都易引起连锁反应,威胁整体任务的稳定性和时效性,同时也带来较高的人力维护成本。

2.4 实时与离线数据源不一致,存在冗余计算与口径偏差

百度APP及其产品矩阵业务当前使用的实时计算链路和离线数据链路在核心指标上并未实现数据源统一,两条链路独立处理且并行存在。这导致相同指标需要在不同流程中重复计算,既造成资源浪费,也增加了数据口径对齐的难度。长期来看,此类架构问题会直接影响关键指标的一致性和可信度,对业务决策准确性构成潜在风险。

2.5 存储无序增长,数据冗余和存储成本与日俱增

随着业务规模的持续扩张和流量快速增长,支撑核心业务的明细数据宽表总量已达到百PB级别,存储与计算成本压力日益凸显。然而,不同业务域对数据的保留周期和使用频率存在显著差异,全部数据长期存储既不经济也无必要。

3. 解决方案

3.1 ETL框架升级

在完成由多张udw表到Turing表的优化工作完成后,数据处理的时效性与稳定性虽然取得了一定改善,但仍存在进一步提升的空间。具体而言,原有的C++ MR计算框架在任务运行过程中逐渐暴露出两类典型问题:一是容易发生计算长尾现象,个别任务实例处理缓慢,拖慢整个作业完成进度;二是基于单机调度的模式存在可靠性瓶颈,整体资源协调和任务容错能力有限。这些问题导致数据产出的延迟风险依然较高,难以完全满足业务对数据时效日益提升的要求。

为解决上述痛点,经过充分的技术调研与架构评估,我们决定将计算框架升级为TM+Spark的组合方案。其中,TM(Task Manager)作为厂内自研的高性能流式处理框架,在多个关键维度上显著优于原有的C++ MR架构。

TM(Task Manager):更高的容错性和更强的稳定性

图片

首先,在容错性方面,TM具备更为智能和敏捷的错误恢复机制。当某个计算实例发生故障或执行缓慢时,TM调度系统能够迅速感知并主动发起抢占操作,将当前Task动态迁移至新的实例继续处理,从而有效避免传统MR框架中由于个别长尾任务导致的整体作业延迟。这一机制极大提升了作业的稳健性和执行效率。

其次,在调度稳定性方面,TM基于Opera调度系统进行资源管理与任务分配,这一调度架构具有高度解耦和资源隔离的特点。每个任务实例独立运行,互不干扰,有效避免了在MR模式下由于同一队列中其他高负载或异常作业所带来的负面冲击,从而保障关键数据处理任务的稳定性和可预期性。

图片

此外,TM框架也在输出存储效率方面做出了重要升级。它原生支持输出Parquet列式存储格式,并集成ZSTD压缩算法,在减少存储空间占用的同时大幅提升了后续查询操作的I/O效率。这一改进使得数据在写入阶段就具备更优的列组织结构和压缩特性,为下游分析提供了高性能的数据基础。

主流开源框架Flink和TM的对比如下:

图片

Spark:通过构建DAG,计算更高效;利用RDD或者DataFrame减少IO耗时;多线程机制,执行速度更快。

Spark对比MR的核心优势:

  • 速度:基于内存计算,无需反复做读写操作,更加高效

  • 高度集成:spark丰富的API和高级抽象的函数可以轻松实现复杂的逻辑计算和处理,无需和MR一般需要编写复杂的处理逻辑

  • 计算模型:内置的RDD数据结构可以提高数据计算的容错性;查询优化和执行优化可以适应复杂数据的处理和查询

结合Spark通用计算引擎强大的分布式内存计算能力和丰富的生态组件,新框架不仅解决了之前C++ MR模式中的长尾与调度瓶颈,还进一步实现了处理链路的统一与优化。Spark的高扩展性和TM的流式稳健性相结合,共同构建出一个容错能力强、资源利用高效、运维负担低的新一代数据处理架构,为业务提供更低延迟、更高可靠性的数据服务。

3.2 日志分类分级

3.2.1 埋点上线不规范,被动兼容推高处理成本

在当前百度APP及其产品矩阵业务高速发展的背景下,日均处理日志量已达3000亿PV的庞大规模,数据流的稳定、高效与成本可控变得至关重要。

原有的埋点分类和校验存在两个突出的问题:

  • 上报不规范:存在大量不经过日志中台统一校验而直接上线的业务打点,这些“非规范”打点格式各异、质量参差不齐,极易引发解析异常。

  • 处理成本高:下游的日志清洗ETL环节被迫陷入“被动兼容”的循环中,需要频繁地跟进制订适配规则以解析这些非标数据,不仅带来了极高的运维成本,更因计算资源的无效消耗而加剧了整体处理链路的负担,严重制约了数据产出的时效性与稳定性。

3.2.2 通过协同治理实现日志中台全流量覆盖

为从根本上破解这一难题,我们基于对百度APP及其产品矩阵数据全链路的深入洞察,发起了一项跨体系的协同治理工程。联合了日志中台团队、各业务研发团队、QA质量保障团队及PMO项目管理团队,形成了强有力的专项工作组。

图片

第一阶段的核心任务是对所有日志模块进行全域梳理。我们共同制定了统一的《新增业务模块接入日志中台规范》《日志埋点规范》,明确了从数据采集、上报到校验的完整标准流程,并强力推动百度APP及其产品矩阵(包括主客户端及相关创新业务)的全量需求空间、代码仓库及日志模块,完成向日志中台的标准化接入迁移。这一举措将日志中台的流量覆盖能力从治理前的约80%一举提升至100%****,实现了全流量管控。

更重要的是,我们在日志中台增强了多项主动校验能力:包括日志长度校验、关键公共参数完整性校验、以及精确到需求ID的粒度校验。这使得任何不合规的打点企图在测试和上线阶段就能被即时发现和拦截,实现了“问题早发现、早解决”的闭环管理,从而构筑起覆盖全场景的打点需求上线质量保障体系,从源头上杜绝了异常日志的产生。

3.2.3 打破“只上不下”僵局,建立埋点生命周期管理

在成功建立起“入口”管控机制后,我们将治理重心转向对历史存量埋点的“出口”梳理与优化。长期以来,由于缺乏有效的评估手段,点位数据存在着“只增不减”的痼疾,大量废弃或无效点位持续消耗着巨额的计算和存储资源。为此,我们创新性地从鉴权信息入手,通过对十几类不同下游使用场景(包括内部报表、算法模型、RDC数据转发服务等)的全面调研与信息收集,并对相关日志解析链路进行深度分析,首次精准地绘制出以百度APP及其产品矩阵全量15000多个点位为起点的、覆盖所有下游应用场景的“点位全链路使用地图”。

基于这张价值地图,我们清晰地识别出超过10000个点位已无任何下游业务使用或价值极低。通过严格的评估与协作流程,我们果断对这些埋点进行了下线处理,下线比例高达存量点位的71%。此次大规模治理行动,不仅直接释放了海量的计算和存储资源,有效缓解了系统瓶颈,更打破了长达多年的“埋点只上不敢下”的历史僵局,建立了点位的全生命周期管理模式,为后续数据的精细化管理与成本优化奠定了坚实基础。

图片

3.3 AB实验数据扇出处理

3.3.1 现状与问题

在数据驱动的业务迭代中,A/B实验平台的指标建设和效果评估能力至关重要。然而,随着业务快速扩张和实验复杂度的提升,原有的实验数仓架构逐渐显露出严重瓶颈。平台最初是在通用数仓分层模型的基础上,采用“每个指标单独计算”的模式进行建设。这种设计在初期虽然灵活,但随着实验数量和指标数量的急剧增长,计算链路变得异常复杂、冗余且难以维护。由于缺少与公司数据中台团队的深度协同和标准化约束,每次新增实验指标都需要大量重复开发,导致实验数据需求的交付周期不断延长,严重拖慢了业务迭代速度,引发了业务团队的负反馈。

3.3.2 解决方案

(1)分析过程

理想的解决方案是直接复用百度APP及其产品矩阵已有的标准化大宽表进行实验指标配置。即基于一张集成所有关键维度与指标的大宽表,快速定义和产出实验分析所需的数据集。然而,现实情况却更为复杂:百度APP及其产品矩阵客户端同时线上进行的实验数量极多,平均每个cuid(用户唯一标识)对应的实验ID(sid)字符长度已超过2400字符。这个长度几乎相当于单条日志原始存储容量的40%,如果直接将实验ID维度接入宽表,将导致每条日志存储膨胀近一倍。这不仅会带来极高的存储成本,也会大幅增加下游所有数据应用的数据扫描量和传输开销,严重拖慢查询性能,进而影响整个数据链路的效率。

(2)设计思路

图片

面对这一独特挑战,我们并未选择传统的宽表集成方案,而是从数据生成的源头实施了更根本的架构优化。我们重点对实验ID映射关系进行了拆分和重构:将sid与核心行为数据解耦,设计并建设了独立的sid维表。该维表直接从日志源头统一生成,整合了来自客户端的实验曝光及分组信息,并实现了对业务方、评估方各自独立建设的多套映射关系的全面统一。这一举措不仅从本质上避免了主宽表的存储膨胀,还彻底解决了因数据来源不一致而导致的实验效果评估diff问题,显著提高了实验数据的准确性和可信度。

(3)成果与收益

在此基础上,A/B实验平台的分析查询不再依赖于对超大宽表的直接扫描,而是通过sid维表与核心行为宽表进行动态拼接的方式实现指标计算。

在指标口径对齐方面,已完成实验类指标与OKR指标的口径统一工作,累计对齐上线指标2000余个,覆盖多个主题和维度。实验指标改由数据中心宽表统一生产,显著减少了以往在指标口径沟通与对齐方面的成本;在实验效率提升显著,指标开发环节通过复用宽表及数仓下沉逻辑,并升级计算框架,使常规需求开发周期从原先2周以上缩短至1周内,开发效率提升超50%。同时核心指标计算SLA由T+14小时提升至T+10小时,处理时效明显提高;在计算资源成本方面,通过整体数据流复用和抽样日志整合优化,实现了计算资源成本的有效降低。另外,联动产品及策略团队治理并下线无效实验指标超1800+,释放的资源进一步支撑了新场景的指标建设需求。

4. 分级存储治理

随着业务规模的持续扩张与产品矩阵的不断丰富,百度APP及其产品矩阵业务的日志数据量呈现指数级增长,单张核心Turing数据表的存储量已达到百PB级别,面临巨大的存储与成本压力。传统的统一存储周期策略难以适应当前复杂的使用场景:一方面,大量短期数据被无效保留,占用巨额存储资源;另一方面,部分核心业务场景仍需依赖长周期历史数据进行跨年指标对比、关键数据需求回溯与深度建模分析。

为解决这一矛盾,我们针对Turing表启动了多维度的精细化存储治理工作。通过深入分析业务使用特征与数据访问频率,我们建立了差异化的数据生命周期管理机制,实施**“热->温->冷”**三级数据分层存储策略。对高频访问的近期数据全部保留,对访问频率较低的长期历史数据自动进行转储、压缩或者裁剪等,并配套建立完备的数据取回与回溯流程。

该项治理在充分保障核心业务长周期数据使用需求的前提下,显著压缩了整体存储规模,实现了存储成本的大幅优化,为未来数据的可持续增长与高效管理奠定了坚实基础。

具体实施策略:

图片

03 总结与展望

随着业务规模的持续扩张和产品矩阵的不断丰富,数据量呈现指数级增长,这一趋势持续驱动着数据处理架构与模型的演进与迭代,同时也对数据分析的敏捷性、易用性和可靠性提出了更高要求。在数仓系统全面升级的过程中,我们着力优化数据处理全链路,通过改进调度机制、减少计算环节、强化故障自动恢复能力,显著缩短了整个数据处理流程的时长,有效识别并排除多项潜在稳定性风险。此外,依托于对全端埋点体系的系统化梳理与标准化规范,构建了高质量、可复用的数据资产底座。

本次整体架构的升级为业务提供了坚实的数据支撑,在数据时效性、准确性和使用便捷性方面均实现显著提升。作为百度体系内最核心且数据规模最大的业务板块,百度APP仍面临数据持续激增带来的诸多挑战,包括埋点规范统一难度高、技术栈兼容与选型约束多、日志解析复杂度高、存储结构灵活多变以及成本控制压力增大等问题。

面向未来,我们将持续推进数仓架构的深度优化,重点围绕埋点治理、架构升级、效能提升、存储模型优化和资源精细化管理等方面展开工作。目标是构建一套具备更高时效性、更优数据模型、更低存储与计算成本的全新一代数仓链路,为业务创新与决策提供高效、可靠、低成本的数据服务能力。

百度Feed实时数仓架构升级

导读

本文主要介绍基于流批一体建设的Feed实时数仓在业务高速发展和降本增效的大环境下,所面临的问题和挑战,以及对应的解决方案。文章分为四个部分,首先介绍下旧的Feed实时数仓的整体架构设计;然后介绍随着业务的不断发展,旧的架构所面临的问题;第三部分是文章的重点,着重介绍重构升级后的Feed实时数仓架构设计,以及在重构升级过程中所遇到的关键性问题和解决方案;第四部分是总结和规划,Feed实时数仓重构升级后,带来了什么样的收益和业务效果,以及对实时数仓未来发展的一个思路探讨。

01 简介

Feed实时数仓是一个基于 feed 日志产出 15 分钟的流批日志表,主要用于对日志原始字段的解析,并下沉简单业务逻辑。该表保留最细粒度的用户明细数据,是Feed数据的最底层数仓宽表。其整体架构设计如下图所示

图片

数据源:Feed实时数仓的数据源主要是各种日志打点数据,主要包括手百端打点和服务端打点。通过使用MEG日志中台提供的一站式打点方案,对用户的行为明细打点数据进行收集管理。

数据采集:数据采集过程,首先通过minos(百度自研的新一代的流式日志传输系统)的agent服务将打点服务的日志进行采集传输到实时流中,然后由日志中台的清源系统进行统一的清洗,对所有的日志打点数据进行格式化,统一schema。清源系统会将统一处理后的数据,传输到厂内消息队列bigpipe中(百度自研的分布式中间件系统)。

数据清洗:数据清洗分为两阶段。

第一阶段为基于TM流式框架搭建的Feed流式计算作业,该作业订阅消息队列bigpipe中的数据,对日志的原始字段进行解析,并下沉一些简单的Feed业务逻辑。流式计算处理结束之后,根据打点数据的生成时间进行落盘,生成刻钟级目录的数据。

第二阶段为基于StreamCompute框架搭建的批处理作业,该作业的任务是对第一阶段产出的刻钟级目录数据进行字段结构统一,并生成hive、spark等查询引擎能够直接查询的orc格式文件,最后将数据导入到实时数仓中。

数据仓库:

Feed实时数仓作为底层明细数据,虽然是DWD表,但保留着ods层数据的特点,存储着Feed日志打点的基础数据。

Feed业务基于实时数仓的数据,对复杂的业务逻辑进行下沉,产出小时级的离线DWD表,作为 feed 主要对外服务的数据表。并在DWD表的基础上,拼接其他主题数据,进行数据聚合,产出ads 层的主题宽表、中间表。

Feed评估业务基于Feed实时数仓,对cuid进行聚合,产出cuid粒度的评估中间数仓宽表。

数据应用:Feed实时数仓下游的数据应用,主要包括策略信号、实时应用、实时报表等高时效性的应用,主要用来检测数据趋势,观察实验策略、热点活动等带来的数据变化,主要是对Feed的分发、时长、au等指标的影响。

02 实时数仓面临的核心问题

随着业务的不断发展,越来越多的下游业务开始接入Feed实时数仓,比如商业、电商、直播等业务。Feed实时数仓急需解决以下几个问题

1. 计算过程繁琐,成本高时效慢

Feed实时数仓的整体架构为流处理+批处理的架构。其中流处理主要进行日志的ETL处理,订阅消息队列bigpipe中的实时流数据,进行清洗加工,产出统一的proto格式数据;批处理过程是对ETL后的proto格式数据进行格式转换,生成可供hive查询引擎直接查询的orc格式数据。

时效慢:流+批的数据处理架构,使得实时数仓数据的产出时间达到了45分钟,端到端数据应用的产出时间更是达到了50分钟以上。

随着手百业务的不断发展,实验评估、直播、电商等业务对数据的时效性提出了更高的要求。比如Feed实验对照组需要更快的实时监控来观测不同的实验策略对Feed的分发时长带来的收益,电商直播需要更快的实时监控来观察不同的分发策略对于直播间观看情况的影响。50分钟的实时监控已经无法满足这类高时效性的业务场景,尤其是重要时事热点、重大直播活动等热点项目。

成本高:实时计算处理过程使用了TM+SC两套流式架构,其中TM部分承担流式数据的清洗和简单的指标计算,SC部分主要是负责批处理的字段结构统一工作。流+批的处理架构成本偏高,其中TM部分需要240w/年,而SC部分需要360w/年,其负责的字段结构统一工作和消耗的成本明显不成正比。SC架构本是百度自研的一站式流式计算服务,在此项目中用来进行批处理的工作,造成了严重的资源浪费。

2. 下游业务多,指标对不齐

随着电商、直播等业务的发展,越来越多的业务开始接入Feed数据,原本只是为单一Feed业务提供的实时数仓宽表,其下游不断增加,包括且不限于评估实验、分润、商业、电商、直播、百家号等业务。由于Feed实时数仓只是数据清洗之后的用户明细数据,并不包括指标和维度相关的信息,比如点击、展现、播放时长、互动等指标,入口来源、视频类型、干预类型等维度信息。各下游在使用这些指标、维度时都需要根据宽表中的基础数据进行计算。由于下游使用方比较多,且分属不同的部门,计算口径往往无法统一。

图片

以Feed实验评估业务为例,随着Feed业务的发展,核心指标口径也不断变化,导致实验指标和Feed大盘指标无法完全对齐,已经严重影响Feed业务迭代。对于口径对不齐问题,评估中心,数据中心做过专项治理,对齐Feed大盘+视频口径,解决了部分问题;但随着业务持续迭代,数据对不齐问题再次加剧,所以急需从根本上解决指标对不齐的问题。

3. 系统架构冗杂,稳定性差

Feed实时数仓整体架构从日志采集端到应用端,每个阶段的作业都未区分核心和非核心数据。尤其是数据采集部分和数据清洗部分,都是漏斗形架构。这样的架构就会出现,若非核心数据流量暴涨,会引起整体链路上的水位延迟,甚至会阻塞核心数据的处理,最终影响核心数据的使用。

03 实时数仓重构方案

3.1 整体架构

图片

新的实时数仓架构,从数据采集到数仓阶段全部进行了重构升级。

数据采集:

图片

对日志打点从业务、点位重要度 两个维度进行拆分。下图以Feed、手百业务为例,日志中台的清源系统拆分出Feed核心作业、Feed非核心作业,分别处理Feed的核心和非核心数据,核心和非核心日志打点输出到不同的消息队列中,从源头实现核心和非核心数据的解耦。

**数据清洗:**对应核心和非核心消息队列,建立两个独立的数据清洗作业(核心作业和非核心作业)。

1). 字段抽取逻辑保持不变,依旧只是对数据进行简单的清洗。

2). 增加指标计算环节,该指标计算环节对应原架构中Feed离线数仓的小时级明细宽表的逻辑,将离线的复杂业务逻辑下沉到流式计算环节。最终产出的的实时数仓中包含了计算好的指标结果,由于Feed实时数仓为Feed数据的唯一出口,下游在使用时候可以忽略Feed业务逻辑的计算,直接使用Feed实时数仓产出的指标字段,从而解决下游指标对不齐的问题。

3). 删除流转批的处理环节,将字段格式统一的工作集成到流式计算环节中。基于TM流式框架实现了包括字段抽取+指标计算+字段格式统一的全部流式计算处理,减少了流转批的过程,节省大量计算资源,同时还提高数据产出时效性。

数据仓库:新版的Feed实时数据的字段结构与原架构中的Feed离线DWD数仓宽表保持一致,对Feed离线DWD数仓宽表中所有的复杂业务逻辑进行了下沉,新版Feed实时数仓=Feed离线DWD数仓宽表的实时化。下游应用直接通过简单的count/sum操作就能得到feed的各种指标结果,指标查询效率提升90%。

3.2 关键问题解决方案

3.2.1 离线复杂业务逻辑实时化解决方案

由于Feed实时数仓是Feed所有数据的唯一出口,将Feed离线DWD数仓宽表中的复杂业务逻辑下沉到实时数仓中,将从根本上解决下游各业务指标口径对不齐的问题。离线复杂业务逻辑下沉到流式,主要存在以下两个问题。

3.2.1.1 离线和实时数据计算维度不一致

实时数仓和离线数仓建模维度不一样,业务逻辑无法直接下沉。旧的实时数仓是面向数据源建模,所有的字段抽取逻辑是基于不同的日志源进行抽取,比如端打点日志、PC打点日志、服务端日志等;而Feed离线数仓是基于业务建模,分成了点击、展现、时长、互动等业务分区,业务逻辑、指标计算也是在这些业务维度基础上进行处理。

解决方案:

在流式计算环节中,业务逻辑处理分为三层进行。如下图所示,第一层依旧进行字段抽取的数据清洗处理;第二部分根据根据关键字段信息,对所有日志数据进行业务逻辑分区;第三部分,该部分处理逻辑对齐离线的复杂业务逻辑,不同的业务分区,执行不同的业务逻辑计算。最终生成业务维度的实时数仓底层数据。

图片

3.2.1.2 下游用户无法直接进行切换

原Feed实时数仓和Feed离线DWD数仓宽表,数仓建模维度不一样。原Feed实时数仓是简单清洗的日志明细表,只是对日志的字段进行简单的裁剪;Feed离线DWD数仓是对Feed实时数仓宽表进一步加工之后的表(包括删除无用日志字段信息(比如实验sid信息等)、删除无用打点日志、 通过日志明细计算出维度/指标字段)。如果新的实时数仓宽表字段要和离线DWD数仓宽表建模保持一致,原实时数仓下游使用方无法直接迁移到新的Feed实时数仓。

解决方案:

1. 功能单一的大字段单独抽出,建立一个新的明细表。如sid字段,建立sid明细表,下游用户使用时通过cuid等字段进行关联。

2. 无用打点日志:对于Feed业务来说无用的打点日志,单独保留到非核心分区。

3. 新的实时数仓宽表,在离线数仓宽表字段基础上,增加字段用以表示旧实时数仓宽表中分区信息,兼容历史分区逻辑,以供下游切换时使用。

3.2.2 字段格式统一实时化解决方案

字段格式统一,主要是将清洗之后的数据,按照实时数仓的schema进行字段的格式进行统一,同时将最终数据文件(行存)转为ORC列式存储格式,以供hive、spark等查询引擎进行高效的查询。

在原来的数据架构中,字段格式统一只能由sc或者spark进行处理,所以只能使用流+批的方式进行实时数仓的生产,这造成了严重的资源浪费。将该部分处理工作集成到流式计算TM任务中,数据生产成本至少降低200万/年;同时缩短数据生产链路,提升数据产出时效。详细解决方案如下。

3.2.2.1 数据存储格式选定Parquet格式代替之前ORC格式作为最终数据的存储格式

Parquet是一种专为大数据处理系统优化的列式存储文件格式。目标是开发一种高效,高性能的列式存储格式,并且能够与各种数据处理系统兼容。Parquet 在2013年作为开源项目被创建,在2013年6月被 Apache 软件基金会采纳为顶级项目。它的开发受到 Apache Parquet 社区的积极推动。自推出以来,Parquet 在大数据社区中广受欢迎。如今,Parquet 已经被诸如 Apache Spark、Apache Hive、Apache Flink 和 Presto 等各种大数据处理框架广泛采用,甚至作为默认的文件格式,并在数据湖架构中被广泛使用。

Parquet具有以下优势

列式存储:

  • Parquet 是一种列式存储格式,有多种文件压缩方式,并且有着很高的压缩比。

文件是可切分(Split)的:

  • 在Spark中使用parquet作为表的文件存储格式,不仅节省AFS存储资源,查询任务的输入数据量减少,使用的MapTask也就减少了。

支持谓词下推和基于统计信息优化:

  • Parquet 支持谓词下推和统计信息(例如最小值、最大值、空值等),这使得在执行查询时可以更有效地过滤和优化数据访问。这对于加速查询是非常有帮助的。

支持多种数据类型和模式演进:

  • Parquet 支持多种数据类型,包括复杂数据结构,这使得它适用于各种类型的数据。此外,Parquet 允许模式演进,即在不破坏现有数据的前提下修改表结构,提供了更大的灵活性。
3.2.2.2 在TM框架中引入Apache Arrow开源库实现输出parquet格式文件

Apache Arrow 定义了一个与语言无关的列式存储内存格式,可以理解为parquet文件加载到内存中的表现。

图片

上图为Proto格式数据通过Arrow 转为Parquet格式数据的详细过程。

  1. TMSinker算子(TM流式处理框架中输出算子)收到上游产出的proto数据后,首先将数据分成4份,每一份对应一个线程,

  2. 每个线程将自己负责的数据转成一个RecordBatch; 具体操作是解析Protobuf数据,将数据进行格式映射,构建一个Arrow Schema,填充到RecordBatch中,然后将4个RecordBatch合成一张Table。

  3. 使用Arrow提供的API,将Arrow Table写入到Parquet Writer,Parquet Writer负责把数据刷新到磁盘上。

部分组件概念如下:

RecordBatch,可以理解为一张子表,有schema信息和每一列数据,常作为并行计算的子数据单元。

Table可以理解为一张列式存储的表在内存中的表现形式,可以由多个RecordBatch合并而成。

3.2.2.3 实现过程中出现的其他问题及解决方案

小文件变多问题

原架构中,字段结构统一是批处理,会等15分钟的数据都产出之后,集中进行处理;而新的架构中,将字段结构统一的处理集成到流式计算中,导致小文件数过多。太多小文件会导致查询引擎增加对元数据读取开销等问题,影响查询稳定性,甚至会出现占满slot情况 影响其他任务。

小文件产出原因:正常TMsinker算子是通过攒task(数据大小+超时时间)减少小文件产生,但会存在跨时间窗口的数据,从而产出小文件问题。平均每15分钟会产生5234个文件,其中小文件951个,小文件占比18%(略早到的文件占比10%;略晚到的占比8%),平均文件大小258MB -- 未压缩)。

解决方案:

1. TMsinker 算子每次请求tm server获取task数由1个变为多个(可配置),避免出现sinker获取1个task就处理的情况,同时降低tm server的压力。

2. 优化时间等待策略和攒数据策略

a. 默认配置

  • 默认每次获取task数200个;(默认值200;用户可通过配置项覆盖)

  • 最大等待时间20S;(默认20秒;时效和文件size的平衡;用户可通过配置项覆盖

  • 最少积攒数据800MB; (默认800mb;用户可通过配置项覆盖)

b. 详细策略

  • max_num: 一次性可获取并锁定的最多task数量

  • last_num: 上一次获取并锁定的的task数量

  • num: 当前获取并锁定的task数量

图片

大文件转parquet失败问题

在使用arrow库把proto格式数据转为parquet格式数据过程中,当某一列 string 类型的数据超过 2G 时格式转换会失败。

首先我们从string在内存中的表现形式来进行分析

图片

Length:表示这一列一共有多少条数据

Null Count:表示这一列一共有多少条数据是Null

Validity Bitmap:位图,1代表非Null,0代表null,用于快读判断某条数据是否是null

Value Buffer: 存储 string 数据 list;

**Offsets Buffer:**存储每条数据在ValueBuffer中的位置

图片

如上图,string的offsets buffer是list,因此string类型最大只能支持2^31字节=2G的数,如果在这条数据之前所有的数据已经超过2G了,那么因为Offset是int32无法表示大于2G的整数,导致这条数据无法转换。

问题原因找到,解决方案就很简单了,将string替换成large_string类型即可,其offsets buffer是list。

压缩耗时高问题

通过查看arrow库的源码,我们发现Arrow库当前使用的ZSTD压缩方法的Simple API,而Zstd库提供了 Simpler/Advanced API。这两个API的区别是Simple API只能设置压缩级别,而Advanced API可以设置压缩级别和压缩线程等。

解决方案:修改源码中ZSTD压缩方法的API,改为Advanced API,并通过环境变量暴漏多线程相关的参数。

以配置6核CPU为例,单线程时最多整使用1个核,多线程时可以使用到5.5个核

图片

字段结构统一实时化最终整体解决方案如下:

图片

04 总结与规划

Feed实时数仓重构升级完成后,流批一体架构升级为纯流式架构,整体计算成本节省50%,实时数仓数据产出实效缩短30分钟,提速80%。离线复杂业务逻辑下沉,指标查询效率提升90%,DWD明细宽表产出时效提升3小时;Feed宽表统一指标出口,其他下游和Feed业务线完成口径对齐,从根本上解决了指标对不齐的问题;流式计算整体架构统一到流式TM框架,维护成本降低50%,端到端核心非核心数据完成拆分,服务&数据双隔离,互不影响,服务稳定性大幅提升。

针对Feed实时数仓的后续规划,我们计划从计算引擎上进行优化升级,对标业界主流实时计算引擎,改变现有的C++代码开发模式,提高流式计算服务的开发效率,降低开发成本,以应对快速发展手百和Feed业务,满足越来越多的数仓需求。同时未来我们将把Feed实时数仓建设成厂内实时数仓标杆,为更多的业务提供实时数据服务。

❌