普通视图

发现新文章，点击刷新页面。

昨天 — 2025年8月21日掘金专栏-百度Geek说

播放器视频后处理实践（一）

掘金专栏-百度Geek说

作者百度Geek说

2025年8月21日 16:41

1. 前言

在播放器架构不断演进的今天，视频后处理技术正在成为提升用户体验的关键环节。相比传统的解码即播，现代播放器越来越多地引入后处理链路，通过增强画质、渲染氛围等手段，为用户提供更具沉浸感的视听体验。

本系列文章将系统介绍我们在播放器视频后处理模块中的技术方案与工程实现，涵盖从效果设计、算法选型，到性能优化和跨平台兼容的全链路细节。第一期内容聚焦在两类核心能力：

视频增强：提升画面清晰度、对比度与色彩表现，尤其针对暗场、低码率等场景进行针对性优化；
氛围模式：基于视频内容实时生成边缘延展光效，打造更强沉浸感，适配大屏与移动端场景。

本文将着重介绍我们如何在性能受限的设备上实现视频增强效果，如何结合 GPU/OpenGL、Shader 编程以及平台图像处理 API 构建高效可控的处理链路。后续我们将陆续推出如氛围模式等视频后处理文章，敬请期待。

2. 视频增强（亮度和色彩）

丨2.1 什么是视频增强技术

视频增强技术是指一系列用于改善视频质量的技术手段，其目的是在不改变原始内容的情况下提升视频的视觉效果。技术的应用场景包括视频播放、编辑、传输、存储等领域，常用于提高图像清晰度、对比度、色彩饱和度等，使观看者获得更好的视觉体验。

丨2.2 常见视频增强技术

移动端实践：亮度与色彩增强。针对Android/iOS平台的视频播放场景，我们重点实现了亮度增强与色彩增强两项关键技术。本文将分享技术落地中的核心方案与优化经验。

丨2.3 亮度增强

亮度增强效果示意图（左：原图右：增强后）

2.3.1 技术选型

亮度增强是图像/视频处理中非常基础且常见的操作，常见的亮度增强原理可以分为以下几类，每种方式背后的核心思想略有不同。下面是详细的分类和解释：

线性亮度增强（线性增益）

原理：RGB整体直接乘以一个大于 1 的系数（或加一个偏移量）。

公式：

color.rgb = color.rgb * gain;       // 乘法增强color.rgb = color.rgb + offset;     // 加法增强

简而言之，这种做法就是简单粗暴的在原本的RGB上进行提升，从这里，可以想到RGB颜色调整后容易出现色偏。
那么我们可能会想到，如果先将RGB转换为YUV，调节Y 分量，再反变换为 RGB。

公式：

Y = 0.299*R + 0.587*G + 0.114*B;
Y_new = Y * gain;

这确实是视频增强中一种常用且理论上“更稳”的方式，因为它分离了亮度（Y）和色彩（UV / IQ / CbCr）信息。
但这种处理方式有一个严重的问题，不处理图像的对比度或中间的关系，且不能保留高光细节（Clipping），也就是调整后，超过范围[0.0,1.0]的值会被截断（clamp），造成高光过曝。

直方图均衡（Histogram Equalization）

原理：通过调整像素分布，让亮度值均匀分布在整个区间，从而整体提升视觉亮度。

特点：增强暗部和亮部的对比，对低对比度图像尤其有效。

实现相对复杂，不常用于实时shader，考虑到其运算复杂性，我们也pass了这种方式。

Gamma 变换（幂律调整）

原理：使用幂函数对像素进行非线性拉伸。

公式：

color.rgb = pow(color.rgb, vec3(gamma));

特点：γ < 1：图像变亮，主要拉升暗部；γ > 1：图像变暗，压缩亮部。

具有两个优点：

调整方式具有非线性特点，能更细腻地控制中间调亮度，避免简单加法可能引起的局部过曝或暗部细节丢失。
模拟现实中显示设备的响应曲线，效果较为自然。

这也是我们最后选择的方式，他的运算量简单，适合端上视频播放的实时处理。

2.3.2 背后的原理

我们引申一下，这种方式的优点是怎么得出来的呢。

为何能避免简单加法可能引起的局部过曝或暗部细节丢失

从公式看，原本亮度较低的像素会被相对“提亮”更多，而原本亮度较高的像素提升幅度较小。暗部像素相对于原值会获得更大的“提拉”，而亮部像素则变化较小，从而既能提升整体曝光，又能保留高光细节。

为什么说模拟现实中显示设备的响应曲线，更为自然呢？

因为显示器、人眼视觉和视频编码，都是非线性系统，不是简单线性变化。

真实世界的光亮度是线性的，比如两支灯加起来就是两倍亮。
但人眼感知亮度是对数感知的（小亮度变化很敏感，大亮度变化不敏感）。
视频和图像在存储时通常经过一个 Gamma编码，原本线性光 → 压缩（比如取 1/2.2 次方） → 存成文件。这种光和电的转换过程，就是OETF/EOTF响应曲线。

所以这种pow(color, gamma)的调整方式，实际就是在模拟显示端的响应曲线。

总结一句话：

编码有 Gamma，所以显示端或后处理也必须按照 Gamma空间规则来调节，才能保持自然感知。

丨2.4 色彩增强

色彩增强效果示意图（左：原图右：增强后）

从上图可以看到山体、草地上的花，饱和度增强。

2.4.1 调节的目标

1. 增强色彩感知

提高图像的“鲜艳度”或“视觉吸引力”，让图像更生动。

特别是在图像颜色偏灰、曝光不佳或图像压缩后颜色损失的情况下。

2. 突出主体

通过饱和度调节，增强主体与背景之间的色彩对比，提高视觉聚焦度。

3. 修复/还原真实色彩

对摄像头采集后色彩不足的图像进行还原，尤其是肤色、植物、天空等自然色彩。

针对上述目标，我们主要依赖主观评测感受，同时需要避免以下问题：

主观评估（人眼视觉）

色彩鲜明但不刺眼：增强后色彩更加明显但不过饱和。
肤色自然：人脸或皮肤色调不过红或黄（肤色是视觉最敏感区域）。
色彩分布均衡：图像中颜色种类丰富但不过分集中某一色调。
无色彩断层：调节后颜色过渡应平滑，不能有色阶突变。

2.4.2 技术选型

目前业界对色彩增强主要有以下2种方向的研究：

传统SDR色彩增强。
SDR2HDR，模拟HDR效果，达到增强目的。

从实现方式上，主要也有2种主流方式：

1. 非神经网络（传统算法 or 结合lut查找表）

2. 基于神经网络（模型）

模型需要较高的技术储备，且在移动端运行耗时大，所以目前我们没有选择这种方式，而是寻找效果较好且可控的算法。

2.4.2.1 色彩三要素

我们先了解下“色彩三要素”。他们是色彩学中用于描述颜色感知的三个基本维度，分别是：色相、饱和度、明度。这三者共同定义了一个颜色的完整视觉特性。

色相

饱和度

明度

在色彩增强中，一般主要调节的是饱和度（Saturation），其次可能会适当调整明度（Brightness / Value），而色相（Hue）通常不会主动改变。原因如下：

常调节的要素及原因：

1. 饱和度（Saturation）

最常调节的要素，增强后画面显得更鲜艳、更有吸引力，尤其适用于风景、商品、动漫类画面。可提升视觉冲击力和色彩表现力。

明度 / 亮度（Brightness / Value）

有时作为辅助增强项，提高整体图像的通透感。与 Gamma 调节、曝光补偿常一起使用，即配合使用上一章节的亮度调整即可。

色相（Hue）

一般不调整，因为改变色相会改变物体本身颜色，可能导致不真实（如人脸偏色、草地变蓝等）。只在需要艺术化或特殊滤镜（如复古风格、红外效果）时才会使用。

2.4.2.2 颜色空间的选择

选择好色彩增强的调节方向为『饱和度』后，第二步，我们需要选择好颜色空间。

当视频一帧画面作为GL纹理输入到后处理链路时，为RGB颜色模型，我们想要调节饱和度，则需要将其转换为其他颜色空间进行调节，那么面临的第一个问题是如何选择合适的颜色模型去进行算法设计？

RGB
HSV
LCH/LAB

2.4.2.3 基于RGB空间

基于RGB颜色直接调节

们可以理解，饱和度是色彩的纯度，即色彩相对于灰度（无色）的程度。那么我们可以基于RGB颜色模型，并根据灰度进行差值混合即可。

如GPUImage的GPUImageSaturationFilter提供了类似例子，它对饱和度调节，是基于RGB颜色，然后取出灰度值通过在原始颜色和灰度之间插值，mix(vec3(luma), color.rgb, saturation) 实现了饱和度的变化：

插值因子 saturation 越接近 0，图像越趋向于灰度；
saturation 越高，图像越接近原始颜色或超出原始饱和度，色彩更鲜艳。

这种简单的算法存在一个问题：原本局部饱和度已经比较高，如果依然提高饱和度，则局部细节消失。

过饱和，细节丢失

2. 为了解决上述问题，我们基于自然饱和度的调整。

自然饱和度（Vibrance）的概念最先由photoshop提出，重点在于适应性，自然饱和度调整后一般比饱和度调整要自然。其核心特点：

进行自适应饱和度调节的流程：

计算亮度（Luma）：使用加权平均公式从 RGB 获取亮度：luma = 0.2126 * r + 0.7152 * g + 0.0722 * b
计算饱和度（Saturation）：使用 RGB 最大值和最小值之差估算色彩纯度：saturation = max(r, g, b) - min(r, g, b)

计算调节因子 k：根据当前饱和度和用户设置的 Vibrance 强度进行非线性调节：k = 1.0 + Vibrance * (1.0 - saturation / 255.0)（Vibrance 取值范围通常为 0.0 ~ 1.0）
应用颜色调整：将颜色向亮度方向插值，使低饱和度颜色更鲜艳，同时高饱和区域变化较小：color.rgb = mix(vec3(luma), color.rgb, k)

其调整倾向于将RGB值往同一个luma值进行靠近，也是无法保证颜色保持稳定，容易会发生偏色的情况。

色彩增强效果示意图（左：原图右：自然饱和度增强后）

于是，我们继续探索其他的颜色模型。

2.4.2.4 基于HSV颜色模型的饱和度调整

基于HSV饱和度的调整方法是将RGB颜色模型转换为HSV颜色模型，其中HSV分别表示色相（Hue）、饱和度（Saturation）、明度（Value）。只调整饱和度可以在不影响明暗和色相的情况下增强色彩的鲜艳程度。

将常见的调整方法有整体抬升，按比例增加，或者曲线调整，达到将整体饱和度提高的目的。但是饱和度调整同时提升所有颜色的强度，比较粗暴。

有可能导致：

本来局部饱和度已经比较高，调节后过饱和，局部细节的消失。(和上一章节例子一样)。
本来局部饱和度较低，接近白色，加大饱和度后，容易出现色块。

普通调节

如何优化：

对此引入对源的饱和度的检测，设定上下限制，平滑调节。
在HSV颜色模型上，引入了类似自适应饱和度调整的方式。
目的：在低饱和度区域，避免突然增加饱和度。低饱和度的颜色（例如接近灰色的颜色）通常对饱和度调整非常敏感，因此需要一种平滑的方式。
目的：在高饱和度区域减少权重，避免过度增强饱和度。高饱和度的区域本身已经很饱和，进一步增加饱和度会导致过饱和，视觉上显得不自然。

加入自适应后

2.4.2.5 肤色保护

采用HSV空间调整后，我们还需要考虑一个核心问题：

在图像色彩增强（如饱和度调整、色调映射）时，肤色区域容易因过度调整而失真（如过红、过黄或惨白）。需通过肤色识别技术，对检测到的肤色区域进行保护，限制增强幅度，保持自然观感。

在此引入了基于HSV色彩模型的肤色识别，HSV色彩模型也同样将亮度与颜色进行了分离，因此对于光照变化也有很强的抗干扰能力，可以较好的识别出肤色。

结合HSV色彩模型和高斯概率模型实现肤色保护，具体步骤如下：参考GPUImageSkinToneFilter的肤色识别方法。

(1) RGB转HSV空间

将图像从RGB转换到HSV空间，分离色调（H）、饱和度（S）、亮度（V）。
优势：HSV的色调通道（H）对光照变化鲁棒，更适合肤色识别。

(2) 肤色概率计算

肤色色调模型：

统计肤色色调的均值 skinHue = 0.05（典型值，对应黄红色调）。

方差相关参数 skinHueThreshold = 40（控制肤色范围宽度）。
距离计算：

计算当前像素色调 h 与 skinHue 的归一化距离。

dist = abs(h - skinHue) / 0.5高斯权重（概率）。
通过高斯函数计算肤色概率：

skinProb = exp(-dist * dist * skinHueThreshold)结果范围 [0, 1]，越接近1表示越可能是肤色。

(3) 肤色区域保护

阈值分割：

设定阈值（如 skinProb > 0.95），二值化得到肤色掩膜（Mask）。
动态衰减增强强度：

对检测到的肤色区域，按 skinProb 权重衰减色彩增强效果。例如：enhanced_pixel = original_pixel * (1 - skinProb) + adjusted_pixel * skinProb * alphaalpha 为衰减系数（如0.2），控制保护力度。

增加肤色保护后，可以看到效果明显更好，人脸不会有过于突兀的颜色变化。

左：增强（无保护）中：原图右：增强（肤色保护）

2.4.3 效果对比

HSV空间的调节后色彩更加自然。
RGB空间调节则更加绚丽。但容易色偏。
基于综合考虑，我们采用HSV空间调节，以适应更多的源，避免色偏。

三. 总结与展望

本研究聚焦于移动端视频增强技术的工程化落地，重点验证了亮度增强与色彩增强两种核心算法的实际应用效果。从主观评测效果看，在部分视频上，两项技术均能显著提升视频观感质量，有效改善用户体验。

目前，亮度增强功能已在「好看 App」成功上线，且收获了良好的应用效果。现阶段，我们正着力研发亮度增强与色彩增强相叠加的综合优化方案，计划通过这一方案对更多视频内容进行品质升级，从而为用户带来更优质的观看体验。以下为您呈现亮度增强结合色彩增强的部分应用案例：

例子1：后层次感更好（右）

例子2：色彩更鲜明（右）

例子3：画面更清晰明亮（右）

未来研究将围绕以下方向展开：

场景化优化：建立典型场景特征库，针对性优化算法参数配置。
实时性提升：通过模型轻量化与硬件加速技术，更加快速的视频实时处理。

昨天以前掘金专栏-百度Geek说

第一！百度智能云领跑视觉大模型赛道

掘金专栏-百度Geek说

作者百度Geek说

2025年8月19日 15:34

近日，国际数据公司（IDC）发布了《视觉大模型能力及应用评估报告，2025》，该报告对中国市场的视觉大模型厂商进行了全面且深入的评估，百度凭借卓越的综合实力，在众多竞争对手中脱颖而出，荣膺总分第一名的桂冠。作为百度视觉大模型领域的核心产品，百度智能云一见视觉大模型平台，在平台能力、算法模型、工程化落地能力、覆盖行业等维度具有显著优势，领跑视觉大模型赛道。

技术破局，实力领跑

小模型时代，视觉AI技能开发成本高，企业在视觉智能应用落地过程面临 “做不出”、“用不起”、难复制” 的困境。随着多模态大模型技术突破，企业生产过程中大量的安全、合规、品控等视觉检测需求正在被激活，基于视觉的管理数字化理念逐步被认可。

大模型重构视觉智能，一见基于文心4.5原生多模态大模型、文心X1深度思考模型升级，让专业级视觉AI应用从 “遥不可及”变成“人人可用”。作为多模态视觉管理平台，一见提供视觉AI技能生产、效果调优到应用的全栈能力，支持“一句话生产专业级视觉AI应用”，并通过技能可视化编排灵活匹配业务流程，低成本、低门槛帮助企业实现全视觉管理数字化。

同时，IDC报告中指出，端侧AI与边缘智能迎来发展，大小模型协同、轻量化的部署展现应用潜力。

一见采用云边协同架构，通过大模型自动生产并持续调优小模型，在保障端到端视觉AI应用效果的同时，大幅降低应用成本。轻量级小模型部署在边缘侧，可实现秒级快速触发；云端大模型负责深度理解复杂场景，兼顾响应效率与处理精度，这种 “边缘+云端” 的协同模式，让企业在享受高精度应用效果的同时，有效控制硬件投入与运维成本。这一能力也在IDC报告中得到了充分认可，成为一见领跑大模型赛道的重要支撑。

多场景落地，价值凸显

目前，一见已在餐饮连锁、钢铁、电力、矿山、港口、铁路、化工、水务、公安等20+行业落地，服务数百家头部客户，护航企业生产运行全环节，帮助企业实现全视觉管理数字化。

>>管安全：筑牢安全生产防线

一见为某风电集团构建的安全生产集中管控体系，覆盖了全国近300个风电场站、数万台风机，实时识别员工不规范作业与设备异常，集控人效提升300%+，隐患处理响应从小时级压缩至分钟级，巡检效率提升6-10倍，为能源安全筑牢“智能防线”。

>>管质量：破解质量检测难题

在冶金材料领域，一见与中国钢研联合打造的金相分析大模型，将传统依赖人工的检测方式升级为AI自动化分析。其95%的分割准确率（金相分析的核心指标），不仅解决了传统检测中“漏检率高、效率低” 的痛点，更让曾经依赖老师傅经验的冶金质检，转型为可标准化复制的智能流程。

>>管工序：传承老师傅操作经验

在制造行业，一见为某装备制造企业打造工序合规分析系统，破解复杂装配环节老师傅“经验断层” 难题。只需上传一段标准工序操作视频，一见便能基于多模态视频理解自动拆解老师傅的标准操作步骤，分钟级生成工序识别AI技能，上线后实时识别操作并纠偏，新员工误操作率降低90%。

>>管物料：实现精细运营管控

一见助力某头部连锁品牌实现物料精细管理，依托一见多模态大模型能力打造智慧运营中枢，精准优化资源配置，实现供应链及人效的智能管理，物料盘点效率提升60%，降低人工盘点工时。

>>管服务：重构门店管理范式

一见帮助某餐饮连锁企业实现锅底上桌检测、顾客离座识别等6类场景，实现了全国1000多家门店服务质量的量化管理，**订单覆盖率从抽检5%提升至95%，AI识别准确率达95%，**门店满意度大于98.2%。

多年的技术沉淀与20+行业的深耕实践，加速一见在视觉大模型领域形成独特的竞争力。技术普惠，一见将持续以技术创新为锚点，让视觉智能深度融入企业生产运行的每个环节，重新定义看见的价值，成为企业全视觉管理数字化跃迁的助推剂。

百度智能云x中科大脑：「城市智能体」如何让城市更会思考

掘金专栏-百度Geek说

作者百度Geek说

2025年8月14日 16:38

近日，2025中关村论坛系列活动——中关村人工智能与未来城市论坛在中关村国家自主创新示范区展示中心举办。论坛上，发布了应用范式创新升级成果、智能体产品、可信数据空间成果等。

中科大脑联合百度智能云等伙伴共同打造并发布21个智能体产品，涵盖城市治理、城市服务、公共安全、教育健康、政务办公等领域，是基于海淀人工智能创新街区和全国多地探索实践的积淀，作为标杆引领行业成长。

智能体产品作为智慧城市建设的重要支撑，论坛上，百度智能云、中科大脑、北京邮电大学、北京大学通用人工智能研究院等多家单位共同启动智能体生态合作计划，聚焦共创融合应用场景、共育繁荣创新生态和加强科技成果转化三个关键维度，携手擘画“数启新纪元 ”下智慧城市建设的未来图景。

百度智能云利用大模型技术，构建城市治理智能中枢，实现政务场景全流程智能化升级，打造集专业文书生成、城市治理监测、政务数据查询、便民服务办理、民生诉求响应于一体的城市智能体解决方案，推动政务服务从"人工处理"向"智能驱动"转型。

>>全流程公文智能：构建覆盖"提纲-撰写-审核"的公文智能生产体系，集成政策法规、公文范例等专业语料库，实现文书自动生成与合规性校验，公文处理效率显著提升。

>>多模态治理协同：整合视频监控、物联感知等多源数据，通过多模态大模型实现违法行为智能识别与执法预警，构建"监测-处置-反馈"闭环管理机制，提升非现场执法覆盖率。

>>政务问数穿透查询：建立跨部门数据关联分析模型，支持领导决策场景下的复杂数据即时穿透查询，实现复杂数据3秒穿透查询，辅助科学决策。

>>智能办事服务：融合"问答-导引-办理"全流程服务能力，提供疑问解答、办事导引、智能回填、边聊边办多项便民功能，有效提升在线办事效率。

>>民生诉求闭环响应：集成法律法规库和典型案例库，根据用户咨询的民生问题给出建议的解决方案引用相关法律依据，实现民生咨询智能分类与处置方案自动生成，根据用户咨询的民生问题给出建议的解决方案引用相关法律依据，AI法治护航解忧于民。

百度智能云具备从算力、平台到应用的全栈技术能力，全面支撑大模型在产业中的高效部署与落地。在算力层面，百度智能云已成功点亮昆仑芯三万卡集群，昆仑芯已在多个行业实现规模化部署。硬件之上，结合百度百舸GPU云平台，围绕落地大模型全旅程的算力需求，在集群创建、开发实验、模型训练、模型推理四大方面，为企业提供“多快稳省”的AI基础设施，最大化释放硬件性能。在平台层面，千帆大模型平台始终致力于为用户提供全流程、一站式的AI服务。目前，千帆平台还提供了包括文心大模型等在内的超过100多个模型和全面的模型开发工具链，企业既能灵活调用现有的成熟智能体，也可以根据业务需求灵活开发定制化应用。在应用层面，百度智能云推出了“行业场景智能体家族”。这些智能体支持快速轻量化定制，可高效接入业务系统，显著加速AI在金融、制造、政务等行业的落地进程。

PaddleMIX推出扩散模型推理加速Fast-Diffusers：自研蒸馏加速方法FLUX-Lightning实现4步图像生成

掘金专栏-百度Geek说

作者百度Geek说

2025年8月12日 16:00

■ 背景：扩散模型推理成本亟待优化

扩散模型（Diffusion Models）近年来在高保真图像和视频生成上取得了令人瞩目的成果。然而，这类模型在推理阶段需要经过数十步乃至上百步的迭代去噪，每一步都要运行庞大的 U-Net 或 Transformer 模型，导致推理耗时巨大。对于高分辨率生成或视频生成等应用，迭代推理的开销更是呈指数级上涨，使实时应用变得非常困难。如何在不牺牲生成质量的前提加速扩散模型的推理，已成为学界和工业界共同关注的课题。

扩散模型推理优化的总体方案

基于上述需求，PaddleMIX 从模型蒸馏、模型推理缓存（Training-Free）以及深度学习框架编译优化等多个技术维度出发，打造了 Fast-Diffusers 扩散模型推理加速工具箱，便于开发者根据实际场景灵活组合运用，从而有效提升扩散模型的推理速度。在第一期中我们介绍了动态跳过冗余计算（SortBlock）、智能缓存复用特征（TeaBlockCache）和数学近似预测（FirstBlock-Taylor）等 Training-Free 加速算法，在保持与原始模型几乎一致的生成质量的同时，将扩散模型的推理速度提升了2倍以上。本期稿件将从蒸馏加速和框架高性能优化两个方面介绍 Fast-Diffusers 工具箱中扩散模型的加速策略。

图1 推理加速工具箱

▎蒸馏加速方案和框架性能优化

主流的扩散模型蒸馏加速方法包括有一致性模型（Consistency Models），渐进式蒸馏（Progressive Distillation）以及分布匹配蒸馏（Distribution Matching Distillation）等。一致性模型建立在概率流常微分方程（PF-ODE）上，使用一致性函数将 PF-ODE 轨迹上任何时间步的点映射到轨迹的起点，支持一步生成高质量样本，同时保留多步采样能力以平衡计算成本与生成质量。分布匹配蒸馏通过分布级对齐（Distribution Matching）而非路径级模仿，在保持图像质量的同时实现数量级的速度提升，通过要求学生模型生成的图像分布应与教师模型生成的分布的一致性，完成一步生成图像的过程。

PaddleMIX 最新发布的扩散模型工具箱 PPDiffusers 中，集成了一致性模型 PCM(Phased Consistency Distillation)和 DMD2(Improved Distribution Matching Distillation for Fast Image Synthesis)算法，同时 **PaddleMIX 推出自研蒸馏加速模型 FLUX-Lightning，实现4步快速的高质量高分辨率图像生成，生成效果超越业界开源和闭源模型，达到业界 SOTA 水平。**另外使用飞桨深度学习编译器 CINN 进一步优化推理性能，对比 torch compile、Onediff、TensorRT 等主流推理优化框架，推理性能取得了显著的性能提升。

FLUX-Lightning 简介

PPDiffusers 提出了基于 FLUX 的蒸馏加速模型 FLUX-Lightning，可以在4步极少步数下，生成高分辨率高质量的图像，定量指标和定性指标均超越业界开源和闭源模型，达到了业界 SOTA 水平。

图2 FLUX-Lightning 4步推理结果

我们提出的 FLUX-Lightning 模型主要包含4个部分，区间一致性蒸馏（Phased Consistency Distillation），对抗学习（Adversarial Learning），分布匹配蒸馏（Distribution Matching Distillation），矫正流损失（reflow loss），完整框架如下图所示。

图3 FLUX-Lightning 框架

▎区间一致性蒸馏

▎对抗学习

为了进一步提升少步数下的图像生成质量，FLUX-Lightning 模型引入了对抗学习（Adversarial Learning），使用 discriminator 在 latent space 判别真实样本和虚假样本。

discriminator 模型由冻结的 teacher denoiser 和多个可训练的 discriminator heads 组成，前者负责提取图像特征，后者负责进行判别工作。图3展示了以 FLUX 为 teacher denoiser 的 discriminator 模型结构，FLUX 包含19个 FluxTransformerBlock 和38个 FluxSignleTransformerBlock，共计57个 TransformerBlock，将每个 TransformerBlock 的输出的图像特征 hidden states 输入到可训练的 discriminator heads 中，discriminator heads 由多个卷积层和残差结构组成，判别输入样本为真实样本还是虚假样本。

图4 discriminator 网络架构

▎分布匹配蒸馏

▎矫正流损失

▎算法流程

算法完整流程如下所示

飞桨编译器高性能推理

深度学习编译器是一种专门为深度学习模型优化和部署而设计的工具，用于提高模型的计算效率、降低内存占用、加速训练推理过程，核心价值在于弥合高层算法描述与底层硬件指令集之间的语义鸿沟。编译器功能上是将高层次的深度学习模型转换为低层次的、高效的、底层硬件可执行的代码。编译器通过将框架输出的初始计算图转化为具有严格语义定义的中间表示层，保留计算图的完整结构，随后在中间表示层实施多轮迭代优化，最终通过目标硬件感知的代码生成模块，将优化后的中间表示转化为高度特化的机器指令序列。简单来说，深度学习编译器在深度学习框架和底层硬件之间充当了“翻译”的角色，能够将用户定义的神经网络模型描述转化为底层硬件能够理解和执行的指令。编译器在实现这种转换的过程中，应用了一系列优化技术，以提高模型在各种硬件平台上（如 CPU、GPU）的执行效率。以下是飞桨框架编译器（CINN, Compiler Infrastructure for Neural Networks）整体流程图。

▎生成模型结合 CINN 推理性能优化

针对多模态生成模型推理时间长的问题，基于飞桨深度学习编译器 CINN，我们对于 FLUX 模型在 A800单卡推理情况下进行了飞桨框架推理性能优化实验，对比基于 xDiT 优化框架提供的 Torch Compile、Onediff 和 TensorRT 推理优化性能指标作为竞品。通过编译器优化所带来的性能加速，飞桨在 FLUX.1-dev 和 FLUX.1-schnell 这两个官方模型配置的推理中都取得了显著的性能提升，并且实现对比竞品的性能优势。

飞桨单卡推理性能测速和性能优化提升如下表所示。

FLUX 模型动态图编译器推理性能

通过表格中的性能测速对比可以发现，对于 FLUX.1-dev 模型的推理性能，输出图像维度为1024p 和512p 的情况下，使用飞桨编译器优化对比原生动态图推理性能提升分别达到31.8%和36.7%，而对于 FLUX.1-schnell 模型的推理性能，使用编译器优化对比原生动态图推理性能提升分别达到30.8%和34.6%，对于不同配置下 FLUX 系列模型都表现出了显著性能提升。

飞桨单卡推理性能测速和性能竞品对比如下表所示。

▎FLUX 模型推理性能竞品对比

我们对于市场上文生图大模型推理性能优化策略进行了性能分析，包括 torch compile、Onediff、TensorRT 等主流推理优化框架。通过对比可以发现基于飞桨编译器优化实现的 FLUX 推理在各个配置下都体现出了领先的推理性能。对于 FLUX.1-dev 模型，输出图像维度为1024p 和512p 的情况下，飞桨编译器推理性能对比竞品中性能最优的 Torch compile 推理性能提升分别达到1.4%和6.5%, 对于 FLUX.1-schnell 模型，飞桨编译器推理性能对比竞品中性能最优的 Onediff 推理性能提升分别达到1.4%和6.5%, 体现出了飞桨框架在市场中的推理性能方面的领先性，以及在 FLUX 模型各不同配置和参数设置情况下稳定的性能优势。同时我们也将该技术应用到自研蒸馏加速模型 FLUX-Lightning 中，开启 CINN 后在 A800上单卡推理时延能从2.21s 进一步降低到1.66s。

实验结果

▎实验设置

数据方面，我们基于 laion-aesv2数据集筛选45w 数据，筛选条件为：图像长宽都大于1024，美学指标 aes>6，水印概率分数<0.5。使用 COCO-10k 作为评测数据集。

模型方面，选用目前文生图领域最新的 FLUX 模型作为基础模型，由于 FLUX 模型自带 CFG 蒸馏，将 guidance scale 进行 embedding 后作为模型输入，所以训练时默认使用 CFG-augmented ODE solver。

评测指标，方面选择 CLIP 指标和 FID-FLUX，其中 FID-FLUX 指标参考 PCM 模型的 FID-SD 指标，使用原始 FLUX dev 模型的生成结果（50 step）计算 FID 分数。CLIP 指标用于评价生成结果与 prompt 的符合程度。

模型训练方面，使用 lora 训练的方式（lora rank=32），有效节省计算资源消耗。模型总 loss 如下所示，其中

▎定量结果

消融实验定量结果显示，我们使用的 Adversarial Learning，Distribution Matching Distillation 以及 reflow loss 都获得了模型效果的提升，证明了 FLUX-Lightning 优化点的有效性。

表1 消融实验

为了进一步验证 FLUX-Lightning 模型的效果，我们和目前 SOTA 的基于 FLUX 的蒸馏加速模型进行了全面的对比，包括 FLUX schnell，TDD (Target-Driven Distillation: Consistency Distillation with Target Timestep Selection and Decoupled Guidance)，SwD (Scale-wise Distillation of Diffusion Models)以及 hyper-flux，其中 flux schnell 和 Hyper-FLUX 是闭源模型，TDD 和 Swd 为开源模型，且所有模型均基于 FLUX 蒸馏得到。对比结果如下所示，在 FID-FLUX 指标上 FLUX-Lightning 模型获得了最好的效果（8.0182），CLIP 指标上也展现出了具有竞争力的分数。

表2 定量实验结果

备注：消融实验使用28w 数据实验，完整 FLUX-Lightning 模型使用全量45w 数据训练

▎定性结果

下面展示了我们的 FLUX-Lightning 模型和其他竞品之间的图像生成效果对比，可以看到 FLUX-Lightning 模型在图像质量、prompt 一致性、生成准确性方面都超过了其他竞品。具体来说：

FLUX-Lightning 在人体部位的生成上更加准确。例如第一行大部分竞品生成的脚部都很怪异，FLUX-Lightning 生成了正确的脚部同时更加符合“没有被毯子盖住”的含义。第二行和第三行中大部分竞品生成的手指数量不对或者形状不对，FLUX-Lightning 的手指数量性状则完全正确。

FLUX-Lightning 具有更好的文字生成的能力。在第4行中需要生成“New York City, 100 miles”的文字，TDD 生成了模糊不清的文字，SwD 缺少“miles”，Hyper-FLUX 的“100”很模糊，FLUX schnell 生成了不需要的“ew caft”的乱码，只有 FLUX-Lightning 生成了清晰的“New York City, 100 miles”文字。

FLUX-Lightning 可以生成更合理的人体姿态。第5行展示了抛棒球的运动员，TDD 和 Hyper-FLUX 的手臂部分出现明显扭曲，SwD 的手部和棒球合在了一起，FLUX-Lightning 生成的整体动作以及局部特征更加合理准确；第6行展示了跑步的运动员，SwD 生成的腿部和 FLUX schnell 生成的手臂都有明显问题，TDD 和 Hyper-FLUX 则是生成了不合理的背部文字，只有 FLUX-Lightning 生成了正确的跑步姿势以及背部“8”的文字。

FLUX-Lightning 生成内容和 prompt 更加契合。第7行要求生成“一家三口”，SwD 和 flux schnell 仅仅生成了两个人，Hyper-FLUX 则是生成了2个男人，TDD 生成了一家三口但是人物形态扭曲，FLUX-Lightning 正确生成了一家三口，同时人物形态正常。第8行中，TDD 和 FLUX schnell 没有体现出“大象扬起鼻子”的样子，SwD 和 Hyper-FLUX 的图像细节和背景丰富度较差，FLUX-Lightning 在大象形态和背景丰富程度上更加优秀。最后一行中，TDD 和 SwD 的手部细节扭曲，Hyper-FLUX 没有展现出“正在梳头”的状态，flux schnell 则是生成了奇怪的梳子，FLUX-Lightning 在人物细节、物体细节和动作上都更胜一筹。

▎人工评测

为了更加全面地评测 FLUX-Lightning 的效果，我们进行了图像生成效果的人工评测。具体来说，我们生成了50个富有挑战性的 prompt，对 TDD，SwD，Hyper-FLUX，FLUX schnell 及 FLUX-Lightning 共计5个模型的生成结果进行排序，4位评审员采样盲评的方式，按照结果好坏从高到低分别得到10分，7分，5分，3分，1分，最终取平均分。部分 prompt 示例如下所示，第一行中，需要考察生成结果是否包含“3个女性”，“医院”，“病床，医疗设备”等元素。第二行中，考察生成模型是否包含“蒙古包”，“马头琴”以及“墙上的乐器”等元素，同时还要依据人物是否扭曲、图像质量等多个维度进行评判。

图5 人工评测 prompt 示例

人工评测结果如下所示，其中 FLUX-Lightning 获得了最高分7.37分，表明 FLUX-Lightning 可以生成更符合人类审美的图像，体现了模型的优异效果。

表3 人工评测结果

使用教程

PaddleMIX 已将 FLUX-Lightning 模型开源集成到其扩散模型推理库（PPDiffusers）中，源码和使用说明都可以在 PaddleMIX 的 GitHub 仓库中获取，代码链接为：

github.com/PaddlePaddl…

感兴趣的开发者可以查阅开源代码，了解各模块的实现细节和参数配置，并对自己的扩散模型进行蒸馏加速。

▎训练

数据准备：下载 laion 训练数据和数据列表

wget https://dataset.bj.bcebos.com/PaddleMIX/flux-lightning/laion-45w.tar.gz
wget https://dataset.bj.bcebos.com/PaddleMIX/flux-lightning/filelist_hwge1024_pwatermarkle0.5.txt

数据解压之后，文件结构如下所示

|-- your_path
   |-- laion-45wlaion-45w
      ｜-- 0000000.txt
      ｜-- 0000001.txt
      ｜-- 0000002.txt
      ....
   |-- filelist_hwge1024_pwatermarkle0.5.txt

模型训练命令:

python -u -m paddle.distributed.launch --gpus "0,1,2,3,4,5,6,7" train_flux_lightning_lora.py \
    --data_path "your_path/laion-45w" \
    --file_list_path "your_path/filelist_hwge1024_pwatermarkle0.5.txt" \
    --pretrained_teacher_model "black-forest-labs/FLUX.1-dev" \
    --output_dir outputs/lora_flux_lightning \
    --tracker_project_name lora_flux_lightning \
    --mixed_precision "bf16" \
    --fp16_opt_level "O2" \
    --resolution "1024" \
    --lora_rank "32" \
    --learning_rate "5e-6" \
    --loss_type "huber" \
    --adam_weight_decay "1e-3" \
    --max_train_steps "28652" \
    --dataloader_num_workers "32" \
    --guidance_scale "3.5" \
    --validation_steps "20000" \
    --checkpointing_steps "1000" \
    --checkpoints_total_limit "30" \
    --train_batch_size "1" \
    --gradient_accumulation_steps "1" \
    --resume_from_checkpoint "latest" \
    --seed "453645634" \
    --num_euler_timesteps "100" \
    --multiphase "4" \
    --gradient_checkpointing \
    --adv_weight=0.1 \
    --adv_lr=1e-5 \
    --pre_alloc_memory 76 \
    --use_dmd_loss \
    --dmd_weight 0.01 \
    --apply_reflow_loss \
    --reflow_loss_weight 0.01

▎推理

下载模型权重

wget https://dataset.bj.bcebos.com/PaddleMIX/flux-lightning/paddle_lora_weights.safetensors

推理命令

python text_to_image_generation_flux_lightning.py --path_to_lora your_path/paddle_lora_weights.safetensors --prompt "a beautiful girl" --output_dir ./

text_to_image_generation_flux_lightning.py 中的内容为

# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
import argparse
import os
os.environ["USE_PEFT_BACKEND"] = "True"
import paddle
from ppdiffusers import FluxPipeline
parser = argparse.ArgumentParser(description="Simple example of a training script.")
parser.add_argument(
    "--path_to_lora",
    type=str,
    required=True,
    help="Path to paddle_lora_weights.safetensors",
)
parser.add_argument(
    "--prompt",
    type=str,
    required=True,
    default="a beautiful girl",
)
parser.add_argument(
    "--guidance_scale",
    type=float,
    required=False,
    default=3.5,
)
parser.add_argument(
    "--height",
    type=int,
    required=False,
    default=1024,
)
parser.add_argument(
    "--width",
    type=int,
    required=False,
    default=1024,
)
parser.add_argument(
    "--lora_scale",
    type=float,
    required=False,
    default=0.25,
)
parser.add_argument(
    "--step",
    type=int,
    required=False,
    default=4,
)
parser.add_argument(
    "--seed",
    type=int,
    required=False,
    default=42,
)
parser.add_argument(
    "--output_dir",
    type=str,
    required=False,
    default="./",
)
args = parser.parse_args()
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", map_location="cpu", paddle_dtype=paddle.bfloat16)
pipe.load_lora_weights(args.path_to_lora)
with paddle.no_grad():
    result_image = pipe(
        prompt=args.prompt,
        negative_prompt="",
        height=args.height,
        width=args.width,
        num_inference_steps=args.step,
        guidance_scale=args.guidance_scale,
        generator=paddle.Generator().manual_seed(args.seed),
        joint_attention_kwargs={"scale": args.lora_scale},
    ).images[0]
result_image.save(os.path.join(args.output_dir, "test_flux_lightning.png"))

使用 CINN 技术加速推理 FLUX-Lightning 方法如下：

export FLAGS_use_cuda_managed_memory=true
export FLAGS_prim_enable_dynamic=true
export FLAGS_prim_all=true
export FLAGS_use_cinn=1
python text_to_image_generation_flux_lightning_cinn.py --path_to_lora your_path/paddle_lora_weights.safetensors --prompt "a beautiful girl" --output_dir ./ --inference_optimize

总结与展望

本文介绍了 PaddleMIX 最新推出的 FLUX-Lightning 模型，通过区间一致性蒸馏（Phased Consistency Distillation），对抗学习（Adversarial Learning），分布匹配蒸馏（Distribution Matching Distillation），矫正流损失（reflow loss）等技术，在保持图像生成质量的前提下，可以做到4步快速生成，大幅提升了图像生成的性能，叠加上 CINN 推理优化，单图推理仅需1.66s（A800）。模型效果也达到了业界 SOTA 的水平，定量和定性结果显示超越了目前市面上基于 FLUX 的各种开源和闭源的蒸馏加速模型，开发者可以根据需求简单地对自己的扩散模型进行蒸馏加速。

展望未来，随着扩散模型在更大规模数据和更多应用领域的发展，此类推理高效化的需求将更加迫切。我们有理由相信，蒸馏加速方法还有很大潜力可挖——例如使用 TrigFlow 消除 CM 模型中的量化误差、更加高效的对抗损失设计等，都有望在保持图像生成质量的前提下进一步提升生成效率。PaddleMIX 也将持续完善多模态模型的工具链，在提供强大模型能力的同时兼顾实际部署效率。希望这些加速方法能够帮助开发者更快地落地扩散模型应用，激发出更丰富的创意，实现高质量生成与高效推理的双赢。

▎开源代码链接：

PaddleMIX 扩散模型加速插件相关代码已在 GitHub 开源。欢迎大家访问仓库获取源码并提出宝贵意见，共同推进扩散模型技术的发展与应用！

github.com/PaddlePaddl…