普通视图

发现新文章,点击刷新页面。
昨天以前掘金专栏-百度Geek说

如何在百度百舸部署满血版DeepSeek-V3、DeepSeek-R1模型

作者 百度Geek说
2025年2月13日 11:09

百度百舸·AI异构计算平台已支持快速部署DeepSeek-V3、DeepSeek-R1及其蒸馏的Llama、Qwen等小规模dense模型。您可以登录百度百舸平台快速部署DeepSeek系列模型体验模型效果。

01 开通轻量计算实例

开通一台H20(ebc.lgn7t.c208m2048.8h20.4d)规格的计算实例并添加到百度百舸·AI异构计算平台。

图片

02 部署vLLM

在百度百舸平台的左侧导航中选择「工具市场」页面,部署工具vLLM。

图片

03 模型推理

vLLM部署成功,登录实例下载模型并启动vLLM服务,安装WebUl客户端。

图片

发送请求开始对话。

图片

04 各系列模型的推荐配置清单

图片

在完成满血版DeepSeek模型的快速部署后,百度百舸·AI异构计算平台还能为这些在线服务提供全生命周期管理、自研框架推理加速、推理资源碎片整理等能力。在保障服务稳定性的同时,有效降低推理成本并提升推理性能。

访问百度百舸页面cloud.baidu.com/product/aih…

————END————

推荐阅读

首日调用客户破1.5万!DeepSeek-V3/R1上线背后的超低推理成本技术揭秘

唤醒 AI 算力,专有云 ABC Stack 面向企业级智算平台的 GPU 提效实践

百度APP iOS端磁盘优化实践(上)

对话AI原生|比帮你写代码更爽的是:让Agent来打工

0 Token 间间隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎极限优化 TPS

首日调用客户破1.5万!DeepSeek-V3/R1上线背后的超低推理成本技术揭秘

作者 百度Geek说
2025年2月11日 10:18

2月3日,百度智能云千帆大模型平台正式上线了DeepSeek-R1与DeepSeek-V3模型,模型上线首日,已有超1.5万家客户通过千帆平台进行模型调用。百度智能云针对此次模型上线提供了行业领先的超低推理价格,低至DeepSeek官方刊例价3-5折,当前还可享受限时免费服务。这一突破性进展的背后,是百度智能云在推理引擎性能优化技术、推理服务工程架构创新以及推理服务全链路安全保障上的深度融合。本文将深度解析其技术实现路径。

图片

已上架至千帆ModelBuilder「模型广场」

图片

可在千帆ModelBuilder「体验中心」立即体验

01 推理引擎性能优化技术

基于百度智能云在大模型推理性能优化方向的技术积累,针对DeepSeek模型MLA结构的计算进行了极致的性能优化,并通过计算、通信、内存不同资源类型算子的有效重叠及高效的Prefill/Decode分离式推理架构等,在核心延迟指标TTFT/TPOT满足SLA的条件下,实现模型吞吐的大幅度提升,进而显著降低模型推理成本。

02 推理服务的工程架构创新

在推理服务层面,进行了深入的优化与创新。针对推理架构,做了严格的推/拉模式的性能对比。经验证拉模式在请求处理的成功率、响应延时以及吞吐量等关键指标上均展现出更为卓越的性能。为了进一步提升系统的稳定性和用户体验,巧妙地设计了一种请求失败的续推机制,这显著增强了系统的容错能力和服务SLA达标率。同时针对多轮对话和system设定等场景中存在重复Prompt前缀的情况,实现了主流的KV-Cache复用技术,并辅以全局Cache感知的流量调度策略。这一举措有效避免了Token KV的重复计算,从而大幅降低推理延迟,提高了推理吞吐。

03 推理服务的稳定安全保障

千帆平台基于百度自身长期的大模型安全技术积累,集成独家内容安全算子,实现模型安全增强与企业级高可用保障,基于大模型全生命周期数据安全与模型保护机制,在千帆平台上的模型均拥有使用安全的安全保障;基于在安全方面的专项优化,确保DeepSeek-R1&DeepSeek-V3模型,企业用户在使用过程也具有更高的安全性。

百度智能云千帆ModelBuilder始终致力于为用户提供全流程、一站式的 AI 服务,除了强大的模型资源,还匹配了完善的一站式模型效果调优工具链,包含数据加工、模型精调、模型评估、模型量化等关键环节,助力企业根据自身业务需求深度优化模型性能。同时,百度智能云千帆ModelBuilder具备卓越的模型推理托管能力,支持vLLM、LMDeploy、TensorRT-LLM、SGLang等各类主流推理框架,还支持模型的自定义导入与部署,为开发者提供了高度灵活的开发环境。

值得一提的是,百度智能云近日成功点亮了昆仑芯P800万卡集群,这也是国内首个正式点亮的自研万卡集群,百度智能云将进一步点亮3万卡集群。

未来,我们将持续解锁更多技术文档,共享行业最佳实践案例,助力每一位创新者更快突破技术边界。我们期待与更多企业用户、开发者一起,共同探索无限可能,携手共创AI新篇章。

————END————

推荐阅读

唤醒 AI 算力,专有云 ABC Stack 面向企业级智算平台的 GPU 提效实践

对话AI原生|比帮你写代码更爽的是:让Agent来打工

0 Token 间间隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎极限优化 TPS

百度视频搜索架构演进

网页结构建模在低质采集站上的识别应用

❌
❌