普通视图

发现新文章,点击刷新页面。
今天 — 2025年12月4日掘金专栏-百度Geek说

基于AI的质量风险管控

作者 百度Geek说
2025年12月4日 16:56

导读

线上问题复盘发现质量保障存在测试召回、有效性及排查止损时效性不足等痛点,根源在于保障对象多样演进、线上问题处置复杂。为此我们构建质量风险管控系统,本文分别从风险管理系统的构建思想&实践、风险感知系统的AI效果提升、风险控制系统的智能化建设等维度展开介绍,整体风险管控系统在构建过程效果、使用效果和质量结果等层面均取得较好效果。未来,AI将更深度参与质量风险管控过程,与人工协同构建更智能化的风险管控体系。

01 背景

在线上问题的复盘中,我们总结出质量保障的三大痛点

(1)问题测试召回/感知能力的完备性不足:测试能力缺失导致问题漏检、监控报警缺失导致问题发现滞后;

(2)问题测试召回/感知能力的有效性不足:测试工具不稳定导致测试结果失真、报警配置不合理导致误报/漏报;

(3)问题排查与止损的时效性不足:线上问题定位能力缺失、定位止损慢、止损链路长,导致影响范围扩大。

究其根本,源于以下挑战:

(1)质量保障对象多样、海量且持续演进:我们面对数以万计至百万级的质量保障对象(如服务模块、词表、业务对象等),每类对象对应不同的质量风险与保障策略。同时,这些对象本身还在不断变化,要求质量保障方案具备动态适应能力——即实现对质量保障对象的完整、动态、高效识别与控制,确保在合适的阶段选用最优的质量保障策略组合,以召回潜在风险。

(2)线上问题处置复杂、动态且高度关联:线上系统面临大量动态风险(如变更、数据波动、流量与资源变动等),这些因素持续冲击系统稳定性。因此,我们亟需构建不依赖人、完备且高效的问题感知机制,并打造体系化、智能化的定位与止损能力,从而快速分析线索、实施干预,降低线上问题带来的损失。

为应对上述挑战,我们构建了质量风险管控系统(RMCS),该系统由三部分组成:风险管理系统(RMS-Risk Manage System)-前置消除风险、风险感知系统(ROS-Risk Observe System)-中期发现问题、风险控制系统(RCS-Risk Control System)-后置控制损失。

02 AI的质量风险管控方案

经过多年发展,伴随着AI的发展强大,质量风险管控经过起步阶段、发展阶段的建设积累,已经发展到关键的转型阶段:基于AI的质量风险管控阶段,我们普遍并深入的使用AI能力来解决质量风险管理全流程的问题,提升质量管控的效果和ROI。

图片

△ 基于AI的质量风险管控整体架构

领域知识:把丰富的知识从各类入口、平台、配置以及人脑转移到标准的软件知识图谱中,以结构化知识和非结构化规范知识进行组织,按需转化为实体和关系,从而构建RMCS的丰富、标准、开放的知识图谱生态,实现海量信息的标准化、共享化存储。

RMCS核心能力

  • RMS Agent (AI风险管理):以 AI 为核心,打造具备 “感知 - 决策 - 执行 - 反思” 能力的智能质量风险管理系统,实现 “应拦尽拦”。RMS以开放策略生态思路,灵活管理 “对象质量能力、质量能力风险处置策略”,实现对不同刻画对象能力现状的刻画,驱动质量能力提升,最终通过风险管理应用平台,实现数据、策略、刻画、闭环等环节的统一产品管理。

  • ROS  Agent(AI报警管理):依托领域知识,打造风险实时观测与降噪能力,实现 “应报尽报”。ROS涵盖知识建设、监控创建、维护、评估、降噪及报警跟进等多个环节,覆盖风险管理(如前置监控完备性建设)与控制(如报警有效性、感知后跟进处置)两个阶段,是问题发现后的主要感知手段。

  • RCS  Agent(AI值班人):融合领域模型与领域知识,打造端到端 AI 值班人,具备自主 / 协同式的智能定位与处置能力,实现 “应快尽快”。RCS围绕问题发生到止损全环节,构建报警分类导诊、排查定位、止损等多个环节的智能化控制能力,实现对问题整体损失预期控制,托管全流程风险控制过程。

03 基于AI的质量风险管控核心能力介绍

3.1 RMS Agent (AI做风险管理)

传统质量建设过程的核心痛点包括质量能力缺失、质量能力退化等反复出现的问题,面对庞大且持续变化的质量主题和持续发展的质量保障能力,需要构建不依赖于人刻画和前置风险识别,风险管理系统RMS就是为了解决这种前置风险而产生的, RMS以知识图谱为基础,对质量保障『主体』上全生命周期『质量保障能力』进行持续的合理性风险评估、分发和处理流程管理,牵引『主体』的『质量保障能力』持续发挥预期价值,达到将风险约束在适宜位置/阶段的目的,最终实现3个根本性转变:

  • 从“人治”到“数治”: 将风险管控从依赖专家个人经验和重复劳动的模式,转变为基于全域数据和AI模型进行系统性、自动化治理的模式。

  • 从“孤立”到“协同”: 打破各业务线、各质量阶段之间的信息壁垒,通过统一的风险语言和协作流程,实现跨域风险的联动防控。

  • 从“被动响应”到“主动预防”: 从事后补救的“救火队”模式,转向事中干预、事前预测的“预警机”模式,将风险尽可能约束在萌芽或早期阶段。

RMS核心关注的四大核心痛点和解决思路:

(1)“经验壁垒”与“人力瓶颈”问题: 风险识别、评估、决策高度依赖少数专家的个人经验,难以规模化、标准化和传承,RMS 将专家经验沉淀为可计算、可复用的知识图谱和AI策略模型,让系统具备“专家级”的风险认知和判断能力。

(2)“信息孤岛”与“认知局限”问题:业务系统、质量数据、保障能力等信息分散在不同部门,缺乏全局视角,RMS 通过构建覆盖“主体-对象-能力”的完备知识图谱,打通数据孤岛,形成统一的、相互关联的风险全景视图。。

(3)“响应滞后”与“漏反复”问题: 传统人工巡检和评审方式,风险发现不及时,处理周期长且可能陷入“发现问题-修复-再次发生”的恶性循环,RMS实现7x24小时的自动化风险扫描与监测,并通过策略闭环确保风险被有效分发和处理,防止复发。

(4)“成本高昂”与“灵活性不足”问题: 为每个业务线定制化搭建风控体系成本高、周期长,业务变化时,风控策略难以快速调整,无法适应敏捷开发和快速迭代的需求,RMS 通过中台化、组件化(拼装、插拔式)的架构,提供通用能力的同时,允许业务方低成本、高效率地自定义风控流程和策略,实现“开箱即用”与“灵活定制”的平衡。

RMS旨在从模式上成本上效果上重塑质量风险管理过程,****打破业务间壁垒,最大化降低业务质量经营成本。****整体方案依托软件知识图谱,以一站式质量经营为导向,构建包括实体对象管理、质量能力管理、风险策略管理、风险观测、风险分发处置等通用能力。标准能力支持业务自主拼装、插拔式使用,实现风险从认知到闭环的全流程管理。支持各种质量角色的参与,协同以达到持续提升质量经营水平的目的。

下面是RMS提供的部分核心能力展示,目前RMS接入实体106万,覆盖实体类型115类,建设能力项394个,累计发现风险16万+,并完成了91.46%的风险闭环,直接支撑业务风险前置挖掘召回和闭环。

image.png 基于多实体关系的大事件运营

image.png

风险智能闭环工作台

3.2 ROS  Agent(AI做报警管理)

监控报警建设核心要解决报警完备性、有效性两个问题,即一旦异常发生时,需覆盖全位置、全指标异常并有效感知,同时对异常引发的多维、重复、关联报警进行降噪,减少报警信号的流转干扰。

为此,ROS重点构建了报警自主生成&运维报警智能降噪能力来解决报警完备性和有效性问题。本文从通用逻辑阐述 AI 监控管理方案。

图片

为达到完备和有效的目标,需重点解决以下四大问题:

(1)如何做到完备的覆盖:构建完备的系统与业务知识,抽象所有监控对象并构建不同监控对象关系,结合监控基础知识与大模型,生成完善的监控覆盖方案,其中需要重点关注业务监控基础知识差异,同时使用影响范围、对象分层等作为输入进行方案构建。

(2)如何做到监控项智能生成:依据监控对象、关系、基础知识、数据 / 业务特征及经验,生成含监控对象、策略、关联参数、通知方式等的多维度复杂监控项参数,这里结合时序模型、大模型来综合判断,最终结合监控平台能力完成监控项的生成;监控生成分为完全自主生成(适用于场景明确、准确度高的场景)与协同式生成(需人工确认,用于初始阶段或准确度不足时),两种方式适合于不同成熟度的场景使用。

(3)如何做到异常智能识别:通过规则、时序模型、大模型、动态阈值等机制,判断数据或用例结果是否为问题,不同的监控平台、监控对象、数据特征、业务特征适合不同类型的异常检测策略。

(4)如何进行智能降噪:分析单个报警 、关联报警、多个报警的异常特征、关系及盯盘情况来综合判断是否需要进行报警通知,并结合风险程度、影响范围、时效性等解决无效打扰、报警淹没等问题,平衡质效。

下面是典型的业务&监控平台提供的能力示例如下,通过上述关键问题的解决,结合底层完备/准确的知识构建和场景化的应用产品,监控召回率保持90%+,报警生成比例78%,部分业务监控降噪比例已达到60%。

image.png

报警生成示例

image.png

切流导致的报警降噪(绿色点不通知)示例

3.3 RCS  Agent(AI值班人)

风险控制系统主要解决报警后跟进及时性、排查准确性与效率问题,通过快速找到有效止损线索并止损缩小影响,将问题损失控制在最小范围,会面临以下几个关键问题:

(1)匹配最优跟进人 / 方案:如何结合问题影响面、跟进代价与时效性,明确 AI 或真人跟进的成本与效果。

(2)提供排查线索与止损预案:如何依据业务经验、变更信息、系统知识、历史故障等,匹配最契合排查链路/工具找到正确的线索并从预案库筛选最优止损方案,实现快速止损。

(3)解决跟进过程信息与人员混乱:针对多角色、多团队参与的线上处置场景,尤其长链路业务信息差问题,需要构建端到端事件管理机制,确保及时找对负责人、同步信息,减少干扰与维护成本。

为了解决上述问题,构建了一套统一的RCS建设方案,可实现基于AI的全方位风险控制能力。

图片

方案中有几个关键部分,展开介绍如下:

(1)问题导诊:报警后快速明确风险影响面、跟进方(AI or 真人),提供智能排查结论,按业务特点构建导诊策略(如影响面、风险对象、业务类别等),实现差异化问题处置通路。

(2)端到端事件管理:搭建事件管理产品,覆盖事件感知、建群、排查、止损、总结、跟踪全生命周期,提供流程管理、信息互通等核心能力,同时完成事件信息的统一中心化存储,实现 MEG 线上事件标准化管理。

(3)AI值班人自主处置(常见于慢损问题):对影响小、暂无需真人介入的问题,AI 通过定位工具调度、对话分析、人员地图等能力,完成初步分析、变更确认、标注等工作,确认是线上问题后再转真人跟进。自主处置AI值班人的目标是自主完成问题处置,所以需要建设完善的定位工具调度、单对单对话、自然语言分析、人员地图能力,并能够实现拟人化的信息确认和自主分析。

(4)AI值班人引导处置(常见于快损问题):快损问题需真人与 AI 协同,AI 以助手身份提供线索推荐、工具推荐、止损操作推荐、事件盯盘等支持,且可动态调整策略(如根据损失预估切换止损方式),触达正确人员快速判断,快损事件的关键目标是快速止损,所以无论是触达效率、有损止损动作选择权衡等均需要以综合损失最小快速止损为目标。

(5)高危事件管控中心:针对业务与系统关联复杂的情况,构建全局管控中心与 MEG 高危事件 AI 值班人,与各业务 AI 值班人协同,实现事件信息、工具、线索互通,避免因信息差延误止损。

通过持续的能力建设和数字化构建,线上问题的智能定位覆盖率和准确率稳步增长,同时为了解决问题损失(等级)和MTTR的耦合关系,构建了基于损失速度分桶的损失控制达标率指标,该达标率同样持续提升至93%。AI值班人开始持续在风险控制过程中发挥作用,AI值班人协助率达到96%,端到端协率完成协助率达到40%。

04 总结&展望

随着RMCS能力的建设,质量结果得到了非常有效的控制(如下图)。

图片

(1)从线上问题数量上看,线上问题总数逐年降低,25年对比22年降低比例超过53%,说明我们具备了将问题前置拦截通过风险呼唤前置解决的能力。

(2)从线上问题等级上看,严重问题数量也在持续降低,说明我们具备了快速问题感知和控制的能力,将高损问题转化为低损问题。

展望

目前质量风险管控已经发展了AI转型的重要时期,已经从使用AI解决工具问题变化为使用面向AI构建知识、产品,AI从辅助人慢慢的开始在更多场景可以替代人,因人的投入限制质量保障工作的限制会逐步被突破,质量风险管控后续也可能会变成人和AI更深度协同分析的局面,AI发挥自我学习、24h oncall、智能化的特长完成绝大部份的风险管控,正式员工发挥知识构建、训练AI并构建符合AI的管控产品,最终协同构建更智能化的风险管控目标。

❌
❌