普通视图

昨天以前掘金专栏-得物技术

AI质量专项报告自动分析生成｜得物技术

作者得物技术

2025年8月14日 15:14

一、背景

在日常工作中，常需要通过各项数据指标，确保驱动版本项目进展正常推进，并通过各种形式报表数据，日常总结日报、周会进展、季度进行总结输出归因，分析数据变化原因，做出对应决策变化，优化运营方式，目前在梳理整理校准分析数据需要大量的时间投入、结合整体目标及当前进展，分析问题优化的后续规划。

常见形式

人工收集

数据来源依赖于各系统平台页面，通过人工收集校准后填写再通过表格公式计算，或者可以通过多维表格工作流触发通知等功能。

quickbi报表

通过ODPS搭建自定义报表，实现快速收集数据，复制报表到飞书文档内进行异动分析。

平台能力开发

通过代码开发文档导出能力，根据固定模板生成数据分析，该能力开发人力成本较高，需要针对不同平台数据源定制化开发。

AI Studio智能体平台

研发效能团队基于开源Dify项目社区部署，可以根据需求自定义sop，多模型的可选项，选择最适合业务的模型。每个工作流节点可自定义流程的判断分析，轻松上线可投产的AI Agents。

Dify是一个支持工作流编排的AI智能体平台，轻松构建并部署生产级 AI 应用。其核心功能包含：

以工作流的方式编排AI应用，在工作流中可以添加LLM、知识库、Agent工具、MCP服务等节点，工作流支持分支流转、节点循环、自定义节点等高级能力项。
支持在工作流中调用公司内部的Dubbo/gRPC服务。（插件实现）
知识库管理，通过构建私有知识库以增强 LLM 的上下文。
与内部平台集成，支持H5页面嵌入、API的方式与内部平台集成。
主流模型集成，支持使用多种主流模型如DeepSeek、OpenAI等，支持多模态模型。

对标的业界产品有：

扣子：www.coze.cn
FastGPT：tryfastgpt.ai
n8n：n8n.io

✅ 多模型选择（适配不同业务场景）

✅ 可视化工作流搭建（支持自定义SOP）

✅ 全链路可观测性（实时调试优化）

综上本期实践利用AI工作流平台针对报告进行生成分析输出，让使用方回归到聚焦数据归因分析上，减少数据收集分析、文档编写成本。

二、应用实践

实践效果

整体分析数据从哪来->需要输出什么样的格式->优化模型输出结果，三步骤针对输出结果进行调优。

自动化成熟度分析工作流搭建案例

运用效果

※ 报告效果

※ 飞书机器人通知归因分析

数据处理

LLM：通过用户输入分析获取数据源请求格式，配置好对应数据的映射关系模型自行获取对应数据。

提示词输入

格式化输出配置

http请求：通过用户输入分析后的参数构造请求参数，通过固定接口拉取数据，支持curl导入功能。

代码执行：支持python、js代码对结果数据进行处理过滤，提升分析结果准确性。

模型提示词

如文档整体分为不同模块可设定不同模型节点处理，每个模块增加特定提示词处理节点内容，模型并行分析处理，提升输出稳定性和输出效率，再通过LLM输出整合进行整体输出。

在模型输入上下文及用户输入，通过获取的数据指定输出格式，设定提示词，提供AI结合模板输出对应形式。

通过衔接上下节点返回内容最终整合报表输出结果，统一输出样式格式。

优化输出

切换可用模型

遇到模型输出不稳定或者未达到预期效果，可切换可用模型，寻找适配模型。

设定模型预载参数

设定模型预载参数，提升模型输出准确度。

优化增加提示词

优化增加提示词提升输出形式稳定性：角色定义 -> 字段映射 -> 模板说明 -> 实际数据填充 -> 输出格式定义。

`## 角色定义你是一位接口自动化测试专家以及报告生成专家，负责将接口返回的数据映射字段结合模板输出一份有效的自动化成熟度报告-稳定性部分。

接口返回数据字段映射关系：

基础字段： bu_name:业务域名称。 parent_bu_id:业务域。

稳定性指标字段： total_auto_stability_score：稳定性评分 iter_case_success_rate: 迭代自动化成功率 iter_case_success_rate_cpp: 迭代自动化成功率环比 auto_case_failed_rate: 自动化失败率 auto_case_failed_rate_cpp: 自动化失败率环比 case_aigc_avg_score: 用例健壮有效性评分 case_aigc_avg_score_cpp: 有效性评分环比

模板：

2.2 自动化稳定性用表格展示自动化稳定性，表格内容包含所有一级业务域、二级业务域。表头按照顺序输出： 1、业务域 2、自动化稳定性评分 3、迭代自动化成功率 4、迭代自动化成功率环比 5、自动化失败率 6、失败率环比 7、用例健壮有效性评分 8、有效性评分环比

重点关注项：xxx --仅分析二级业务域的稳定性性指标字段，列出需重点关注指标。

模板说明：

1、以html格式输出，增加内容丰富度，不输出任何多余内容。 2、表格说明：表格需要包含所有业务域数据。不要省略或者缺少任何业务域数据，将所有业务域展示在同一个表格内。 3、表格行排序：根据评分从高到低排序。 4、环比字段说明：指标环比下降环比字段标记红色，环比提升字段标记绿色，不标记背景色。

任务说明

1、用户将提供接口返回的JSON数据。 2、根据接口数据和匹配字段映射关系。 3、结合模板以及模板说明html形式输出，不输出任何多余内容。请你根据以上内容，回复用户，不需要输出示例。`

模板转换

输出的表格形式通过模板转化固定输出html表格形式，提升模型输出稳定性。

输出形式

以markdown形式或以html形式输出，复制到飞书文档上进行输出。

html最终效果

markdown最终效果

飞书机器人通知归因分析

生成飞书文档

支持飞书应用直接新建飞书文档，markdown形式输出。

对话返回生成后的飞书文档地址及分析：

三、总结

在日常工作中如何有效利用数据指标驱动项目进展，现有数据收集和分析流程中面临的挑战。通过手动收集数据、生成报表、平台开发等传统方式，需要投入大量时间和人力资源，导致工作效率低下。

为此，引入了研发效能AI 智能体平台，AI工作流平台不仅改进了数据处理方式，还提升了报告生成的效率和准确性，从而增强了业务洞察力。进一步丰富工作流和知识库，提高对核心数据指标的分析能力，并针对异常数据指标进行细致剖析，为团队提供更深入的指导和支持。

此外，相似场景的处理也可以借助AI工作流进行优化，有望在多个业务领域推广应用。

四、后续规划

丰富工作流：丰富结合知识库，针对每项核心数据指标提升建议以及业务域现状给予业务域具体指导建议。
明细下钻分析：获取对应数据指标异常后，结合明细数据进行分析，具体到用例、人员级别。
类似场景可通过AI工作流处理：固定模板数据源报告类、周会均可使用该方法减少人工投入成本。

往期回顾

1.Rust 性能提升“最后一公里”：详解 Profiling 瓶颈定位与优化｜得物技术

2.Valkey 单点性能比肩 Redis 集群了？Valkey8.0 新特性分析｜得物技术

3.社区搜索离线回溯系统设计：架构、挑战与性能优化｜得物技术

4.正品库拍照PWA应用的实现与性能优化｜得物技术

5.得物社区活动：组件化的演进与实践

文 / 笠

关注得物技术，每周更新技术干货

要是觉得文章对你有帮助的话，欢迎评论转发点赞～

未经得物技术许可严禁转载，否则依法追究法律责任。

掘金专栏-得物技术
Rust 性能提升“最后一公里”：详解 Profiling 瓶颈定位与优化｜得物技术得物技术
2025年8月12日 13:49

Rust 性能提升“最后一公里”：详解 Profiling 瓶颈定位与优化｜得物技术

掘金专栏-得物技术

作者得物技术

2025年8月12日 13:49

一、Profiling：揭示性能瓶颈的“照妖镜”

在过去的一年里，我们团队完成了一项壮举：将近万核的 Java 服务成功迁移到 Rust，并收获了令人瞩目的性能提升。我们的实践经验已在《RUST练习生如何在生产环境构建万亿流量》一文中与大家分享。然而，在这次大规模迁移中，我们观察到一个有趣的现象：大多数服务在迁移后性能都得到了显著提升，但有那么一小部分服务，性能提升却不尽如人意，仅仅在 10% 左右徘徊。

这让我们感到疑惑。明明已经用上了性能“王者”Rust，为什么还会遇到瓶颈？为了解开这个谜团，我们决定深入剖析这些“低提升”服务。今天，我就来和大家分享，我们是如何利用 Profiling 工具，找到并解决写入过程中的性能瓶颈，最终实现更高性能飞跃的！

在性能优化领域，盲目猜测是最大的禁忌。你需要一把锋利的“手术刀”，精准地找到问题的根源。在 Rust 生态中，虽然不像 Java 社区那样拥有 VisualVM 或 JProfiler 这类功能强大的成熟工具，但我们依然可以搭建一套高效的性能分析体系。

为了在生产环境中实现高效的性能监控，我们引入了 Jemalloc 内存分配器和 pprof CPU 分析器。这套方案不仅支持定时自动生成 Profile 文件，还可以在运行时动态触发，极大地提升了我们定位问题的能力。

二、配置项目：让Profiling“武装到牙齿”

首先，我们需要在 Cargo.toml 文件中添加必要的依赖，让我们的 Rust 服务具备 Profiling 的能力。以下是我们的配置，Rust 版本为 1.87.0。

[target.'cfg(all(not(target_env = "msvc"), not(target_os = "windows")))'.dependencies]
# 使用 tikv-jemallocator 作为内存分配器，并启用性能分析功能
tikv-jemallocator = { version = "0.6", features = ["profiling", "unprefixed_malloc_on_supported_platforms"] }
# 用于在运行时控制和获取 jemalloc 的统计信息
tikv-jemalloc-ctl = { version = "0.6", features = ["use_std", "stats"] }
# tikv-jemallocator 的底层绑定，同样启用性能分析
tikv-jemalloc-sys = { version = "0.6", features = ["profiling"] }
# 用于生成与 pprof 兼容的内存剖析数据，并支持符号化和火焰图
jemalloc_pprof = { version = "0.7", features = ["symbolize","flamegraph"] }
# 用于生成 CPU 性能剖析数据和火焰图
pprof = { version = "0.14", features = ["flamegraph", "protobuf-codec"] }

简单来说，这几个依赖各司其职：

※ tikv-jemallocator

基于 jemalloc 的 Rust 实现，以其高效的内存管理闻名。

※ jemalloc_pprof

负责将 jemalloc 的内存剖析数据转换成标准的 pprof 格式。

※ pprof

用于 CPU 性能分析，可以生成 pprof 格式的 Profile 文件。

三、全局配置：启动Profiling开关

接下来，在 main.rs 中进行全局配置，指定 Jemalloc 的 Profiling 参数，并将其设置为默认的全局内存分配器。

// 配置 Jemalloc 内存分析参数
#[export_name = "malloc_conf"]
pub static malloc_conf: &[u8] = b"prof:true,prof_active:true,lg_prof_sample:16\0";


#[cfg(not(target_env = "msvc"))]
use tikv_jemallocator::Jemalloc;


// 将 Jemalloc 设置为全局内存分配器
#[cfg(not(target_env = "msvc"))]
#[global_allocator]
static GLOBAL: Jemalloc = Jemalloc;

这段配置中的 lg_prof_sample:16 是一个关键参数。

它表示 jemalloc 会对大约每 2^16 字节（即 64KB）的内存分配进行一次采样。这个值越大，采样频率越低，内存开销越小，但精度也越低；反之则精度越高，开销越大。在生产环境中，我们需要根据实际情况进行权衡。

四、实现Profile生成函数：打造你的“数据采集器”

我们将 Profile 文件的生成逻辑封装成异步函数，这样就可以在服务的任意时刻按需调用，非常灵活。

内存Profile生成函数

#[cfg(not(target_env = "msvc"))]
async fn dump_memory_profile() -> Result<String, String> {
    // 获取 jemalloc 的 profiling 控制器
    let prof_ctl = jemalloc_pprof::PROF_CTL.as_ref()
        .ok_or_else(|| "Profiling controller not available".to_string())?;


    let mut prof_ctl = prof_ctl.lock().await;
    
    // 检查 profiling 是否已激活
    if !prof_ctl.activated() {
        return Err("Jemalloc profiling is not activated".to_string());
    }
   
    // 调用 dump_pprof() 方法生成 pprof 数据
    let pprof_data = prof_ctl.dump_pprof()
        .map_err(|e| format!("Failed to dump pprof: {}", e))?;


    // 使用时间戳生成唯一文件名
    let timestamp = chrono::Utc::now().format("%Y%m%d_%H%M%S");
    let filename = format!("memory_profile_{}.pb", timestamp);


    // 将 pprof 数据写入本地文件
    std::fs::write(&filename, pprof_data)
        .map_err(|e| format!("Failed to write profile file: {}", e))?;


    info!("Memory profile dumped to: {}", filename);
    Ok(filename)
}

CPU Profile生成函数

类似地，我们使用 pprof 库来实现 CPU Profile 的生成。

#[cfg(not(target_env = "msvc"))]
async fn dump_cpu_profile() -> Result<String, String> {
    use pprof::ProfilerGuard;
    use pprof::protos::Message;


    info!("Starting CPU profiling for 60 seconds...");


    // 创建 CPU profiler，设置采样频率为 100 Hz
    let guard = ProfilerGuard::new(100).map_err(|e| format!("Failed to create profiler: {}", e))?;


    // 持续采样 60 秒
    tokio::time::sleep(std::time::Duration::from_secs(60)).await;


    // 生成报告
    let report = guard.report().build().map_err(|e| format!("Failed to build report: {}", e))?;


    // 使用时间戳生成文件名
    let timestamp = chrono::Utc::now().format("%Y%m%d_%H%M%S");
    let filename = format!("cpu_profile_{}.pb", timestamp);


    // 创建文件并写入 pprof 数据
    let mut file = std::fs::File::create(&filename)
        .map_err(|e| format!("Failed to create file: {}", e))?;


    report.pprof()
        .map_err(|e| format!("Failed to convert to pprof: {}", e))?
        .write_to_writer(&mut file)
        .map_err(|e| format!("Failed to write profile: {}", e))?;


    info!("CPU profile dumped to: {}", filename);
    Ok(filename)
}

ProfilerGuard::new() 100 Hz 意味着每秒钟会随机中断程序 100 次，以记录当前正在执行的函数调用栈
tokio::time::sleep(std::time::Duration::from_secs(60)).await 表示 pprof 将会持续采样 60 秒钟
guard.report().build() 这个方法用于将收集到的所有采样数据进行处理和聚合，最终生成一个 Report 对象。这个 Report 对象包含了所有调用栈的统计信息，但还没有转换成特定的文件格式
report.pprof() 这是 Report 对象的一个方法，用于将报告数据转换成 pprof 格式

五、触发和使用 Profiling：随时随地捕捉性能数据

有了上述函数，我们实现了两种灵活的触发方式。

※ 定时自动生成

通过异步定时任务，每隔一段时间自动调用 dump_memory_profile() 和 dump_cpu_profile() 。

fn start_profilers() {
    // Memory profiler
    tokio::spawn(async {
        let mut interval = tokio::time::interval(std::time::Duration::from_secs(300));
        loop {
            interval.tick().await;
            #[cfg(not(target_env = "msvc"))]
            {
                info!("Starting memory profiler...");
                match dump_memory_profile().await {
                    Ok(profile_path) => info!("Memory profile dumped successfully: {}", profile_path),
                    Err(e) => info!("Failed to dump memory profile: {}", e),
                }
            }
        }
    });
    // 同理可以实现CPU profiler
}

※ 手动 HTTP 触发

通过提供 /profile/memory 和 /profile/cpu 两个 HTTP 接口，可以随时按需触发 Profile 文件的生成。

async fn trigger_memory_profile() -> Result<impl warp::Reply, std::convert::Infallible> {
    #[cfg(not(target_env = "msvc"))]
    {
        info!("HTTP triggered memory profile dump...");
        match dump_memory_profile().await {
            Ok(profile_path) => Ok(warp::reply::with_status(
                format!("Memory profile dumped successfully: {}", profile_path),
                warp::http::StatusCode::OK,
            )),
            Err(e) => Ok(warp::reply::with_status(
                format!("Failed to dump memory profile: {}", e),
                warp::http::StatusCode::INTERNAL_SERVER_ERROR,
            )),
        }
    }
}
//同理也可实现trigger_cpu_profile()函数

fn profile_routes() -> impl Filter<Extract = impl Reply, Error = warp::Rejection> + Clone {
    let memory_profile = warp::post()
        .and(warp::path("profile"))
        .and(warp::path("memory"))
        .and(warp::path::end())
        .and_then(trigger_memory_profile);
    
    
    let cpu_profile = warp::post()
        .and(warp::path("profile"))
        .and(warp::path("cpu"))
        .and(warp::path::end())
        .and_then(trigger_cpu_profile);
    memory_profile.or(cpu_profile)
}

现在，我们就可以通过 curl 命令，随时在生产环境中采集性能数据了：

curl -X POST http://localhost:8080/profile/memory
curl -X POST http://localhost:8080/profile/cpu

生成的 .pb 文件，我们就可以通过 go tool pprof 工具，启动一个交互式 Web UI，在浏览器中直观查看调用图、火焰图等。

go tool pprof -http=localhost:8080 ./target/debug/otel-storage ./otel_storage_cpu_profile_20250806_032509.pb

六、性能剖析：火焰图下的“真相”

通过 go tool pprof 启动的 Web UI，我们可以看到程序的火焰图。

如何阅读火焰图

※ 顶部： 代表程序的根函数。

※ 向下延伸； 子函数调用关系。

※ 火焰条的宽度： 代表该函数在 CPU 上消耗的时间。宽度越宽，消耗的时间越多，越可能存在性能瓶颈。

CPU Profile

Memory Profile

在我们的 CPU 火焰图中，一个令人意外的瓶颈浮出水面：OSS::new 占用了约 19.1% 的 CPU 时间。深入分析后发现， OSS::new 内部的 TlsConnector 在每次新建连接时都会进行 TLS 握手，这是导致 CPU 占用过高的根本原因。

原来，我们的代码在每次写入 OSS 时，都会新建一个 OSS 实例，随之而来的是一个全新的 HTTP 客户端和一次耗时的 TLS 握手。尽管 oss-rust-sdk 内部有连接池机制，但由于我们每次都创建了新实例，这个连接池根本无法发挥作用！

七、优化方案：从“每次新建”到“共享复用”

问题的核心在于重复创建 OSS 实例。我们的优化思路非常清晰：复用 OSS 客户端实例，避免不必要的 TLS 握手开销。

优化前

每次写入都新建 OSS 客户端。

fn write_oss() {
    // 每次写入都新建一个OSS实例
    let oss_instance = create_oss_client(oss_config.clone());
    tokio::spawn(async move {
        // 获取写入偏移量、文件名
        // 构造OSS写入所需资源和头信息
        // 写入OSS
        let result = oss_instance
            .append_object(data, file_name, headers, resources)
            .await;
}
fn create_oss_client(config: OssWriteConfig) -> OSS {
    OSS::new(
    ……
    )
}

这种方案在流量较小时可能问题不大，但在万亿流量的生产环境中，频繁的实例创建会造成巨大的性能浪费。

优化前

※ 共享实例

让每个处理任务（ DecodeTask ）持有 Arc 共享智能指针，确保所有写入操作都使用同一个 OSS 实例。

let oss_client = Arc::new(create_oss_client(oss_config.clone()));
let oss_instance = self.oss_client.clone(); 
// ...
let result = oss_instance
    .append_object(data, file_name, headers, resources)
    .await;

※ 自动重建机制

为了应对连接失效或网络问题，我们引入了自动重建机制。当写入次数达到阈值或发生写入失败时，我们会自动创建一个新的 OSS 实例来替换旧实例，从而保证服务的健壮性。

// 使用原子操作确保多线程环境下的计数安全
let write_count = self.oss_write_count.load(std::sync::atomic::Ordering::SeqCst);
let failure_count = self.oss_failure_count.load(std::sync::atomic::Ordering::SeqCst);


// 检查是否需要重建实例...
fn recreate_oss_client(&mut self) {
 
    let new_oss_client = Arc::new(create_oss_client(self.oss_config.clone()));
    self.oss_client = new_oss_client;
    self.oss_write_count.store(0, std::sync::atomic::Ordering::SeqCst);
    self.oss_failure_count.store(0, std::sync::atomic::Ordering::SeqCst);
    // 记录OSS客户端重建次数指标
    OSS_CLIENT_RECREATE_COUNT
        .with_label_values(&[])
        .inc();
    info!("OSS client recreated");
}

八、优化效果：性能数据“一飞冲天”

优化后的服务上线后，我们观察到了显著的性能提升。

CPU 资源使用率

同比下降约 20% 。

OSS 写入耗时

同比下降约 17.2% ，成为集群中最短的写入耗时。

※ OSS写入耗时

※ OSS相关资源只占千分之一

内存使用率

平均下降 8.77% ，这部分下降可能也得益于我们将内存分配器从 mimalloc 替换为 jemalloc 的综合效果。

这次优化不仅解决了特定服务的性能问题，更重要的是，它验证了在 Rust 中通过 Profiling 工具进行深度性能分析的可行性。即使在已经实现了初步性能提升的 Rust 服务中，仍然存在巨大的优化空间。

未来，我们将继续探索更高效的 Profiling 方案，并深入挖掘其他潜在的性能瓶颈，以在万亿流量的生产环境中实现极致的性能和资源利用率。

引用

GitHub - tikv/jemallocator: Rust allocator using jemalloc as a backend
crates.io/crates/jema…
GitHub - google/pprof: pprof is a tool for visualization and analysis of profiling data
Use Case: Heap Profiling
jemalloc.net/jemalloc.3.…
www.brendangregg.com/flamegraphs…
magiroux.com/rust-jemall…