普通视图

发现新文章,点击刷新页面。
昨天以前首页

PaddleOCR 3.1发布:文心助力30+语种文字识别精度提升30%+,关键能力支持MCP

作者 百度Geek说
2025年7月10日 14:49

PaddleOCR 3.0自5月20日发布以来,受到业界的广泛关注,同时我们也收到了众多宝贵意见。我们积极响应、快速升级迭代,并在近日发布了 PaddleOCR 3.1,带来了3个新升级:

三大升级

  • 新增 PP-OCRv5多语种文本识别模型。支持法语、西班牙语、葡萄牙语、俄语、韩语等37种语言,平均识别精度提升超过30%。同时依托文心4.5多模态能力,实现了数据的自动高质量标注,有效解决了多语种数据稀缺和标注成本高的问题,进一步提升了模型在多语言、多场景下的识别能力。
  • 新增文档翻译 PP-DocTranslation 产线。PP-DocTranslation 基于文档解析 PP-StructureV3和文心4.5大模型,支持对 Markdown、PDF 和图片三种格式的文档数据进行翻译,同时支持本地传入专业术语对照表,实现关键词汇的精细化多语言翻译。
  • 支持 MCP 服务器。用户可通过简单的步骤搭建 MCP 服务器,将通过本地 Python 库、云服务、自托管服务等多种方式运行的 PaddleOCR 核心能力统一集成到下游 AI 应用中,实现更灵活高效的应用构建。

01

30+语种文字识别精度跃升30%

随着世界各地交流合作的加深,多语种文本识别正成为智能应用领域的重要需求。为提升多语种场景下的文字识别能力,我们通过融合文心大模型的视觉和文本理解能力,实现了高效、高质量的训练数据获取,升级 PP-OCRv5在37种语言文字的识别能力,包括韩文、西班牙文、法文、葡萄牙文、德文、意大利文、俄罗斯文等。与前代多语种文字识别模型相比,PP-OCRv5在多语言场景文字识别准确率提升超过30%。

图片

图片

图片

图片

图片

图片

图片

图片

▎ 关键步骤——文心4.5助力多语种文字高质量数据构建

  • 自动文本行检测与裁剪:利用 PP-OCRv5检测模型,自动定位并裁剪图像中的每一行文本,快速、高效地获取标准化的文本行图片。
  • 高置信度文本内容识别:依托文心4.5强大的视觉和文本理解能力,对每个文本行图像进行多次独立识别,筛选出识别结果一致的样本。不仅显著提升标注数据的准确性,还有效规避了人工标注的主观误差,确保数据高质量和高可靠性。

图片

▎ 模型精度对比

图片

注:

  • 为更全面评估多语种模型能力,本次模型研发过程中重新收集了大量来自真实场景的高难度评估数据。
  • 拉丁字母文字涵盖西班牙文、葡萄牙文、法文等33种语言文本。东斯拉夫语言涵盖俄文、乌克兰文、白俄罗斯文。

▎ PP-OCRv5多语种文字识别命令行使用方式

可以通过在命令行中使用--lang 参数,来进行指定语种的文本识别模型推理:

# 通过 `--lang` 参数指定使用法语的识别模型

paddleocrocr-ihttps://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_french01.png \

    --langfr \ # 此处为法语,刚多请参阅文档

    --use_doc_orientation_classifyFalse \

    --use_doc_unwarpingFalse \

    --use_textline_orientationFalse \

    --save_path ./output \

    --devicegpu:0

上述命令行的其他参数说明请参考通用 OCR 产线的命令行使用方式。

02

PP-StructureV3+文心大模型

复杂文档翻译更简单

在全球化和信息化加速发展的背景下,文档翻译在现代社会中已成为一种不可或缺的需求,企业和个人需要高效、准确地翻译各类复杂文档。为此,我们结合 PP-StructureV3和文心大模型,推出了复杂文档翻译工具 PP-DocTranslation。PP-StructureV3具备强大的复杂文档解析能力,能够轻松应对很多复杂布局的 PDF 文档及文档图片,并高效地将其转换为 Markdown 格式输出。我们在此基础上,融合了文心大模型强大的文本理解和语义分析能力,对生成的 Markdown 结果进行进一步处理,实现了对相关文档的高质量多语言翻译。 此外,为了更好地服务于各类专业领域对精准翻译的需求,该工具特别增加了用户自定义词表功能,用户可以根据自身业务或领域的专业术语,自定义词汇表,从而实现特定场景下更加准确、专业的翻译结果。

▎ 效果展示

图片

图片

▎ 文心4.5助力多语言翻译

  • 精准翻译:依托文心4.5对多语言的理解,能够实现更为精准、地道的目标语言翻译效果。
  • 多语言支持:借助文心4.5的多语言处理能力,满足多样化多语言的翻译需求。

图片

PP-DocTranslation 的 CLI 体验方式:

可以通过在命令行中使用--target_language 参数,来进行指定要翻译的目标语言:

paddleocr pp_doctranslation -i vehicle_certificate-1.png --target_language en --qianfan_api_key your_api_key

03

支持 MCP 服务器 轻松连接大模型

发挥 OCR 的无限想象空间

MCP 是一种开放协议,用于规范应用程序向大语言模型提供上下文信息的方式。可以将 MCP 类比为 AI 应用中的 USB 接口。正如 USB 为设备与各种外设和配件之间的连接提供了标准化方式,MCP 同样为 AI 模型与不同数据源和工具之间的连接提供了统一规范。通过支持实时调用数据或 API,MCP 能有效拓展应用场景、降低开发门槛,并提升系统安全性。如今,MCP 正逐渐成为推动 AI 生态落地的关键连接桥梁。

为了更便捷地将 PaddleOCR 能力集成至各类 AI 应用中,PaddleOCR 3.1版本支持用户通过几步简单操作,即可搭建 MCP 服务器。具体而言,根据 MCP 协议,AI 应用(作为 MCP 主机)通过 MCP 客户端与 PaddleOCR 的 MCP 服务器进行通信。PaddleOCR 的 MCP 服务器则通过 Python API 或服务请求等方式调用其核心能力,并将这些能力标准化后提供给下游的 AI 应用使用。下图展示了 PaddleOCR 核心功能、PaddleOCR MCP 服务器以及 AI 应用之间的关系:

图片

当前,PaddleOCR MCP 服务器支持以下能力:

  • 文字识别:对图像和 PDF 文件进行文本检测与识别,返包含文字坐标和文字内容的 JSON 文件。
  • 文档解析:从图像或 PDF 中识别和提取文本块、标题、段落、图片、表格等版面元素,并将内容结构化输出为 Markdown 文档和 JSON 文件。

根据 PaddleOCR 的运行方式,MCP 服务器支持以下工作模式:

  • 本地 Python 库:在本地直接运行 PaddleOCR 模型。
  • 星河社区服务:调用托管在飞桨星河社区的服务。
  • 自托管服务:连接用户自行部署的 PaddleOCR 服务。

同时,PaddleOCR MCP 服务器支持 stdio 和 Streamable HTTP 两种传输机制,用户既可以本地部署服务实现快速集成,也可以远程调用服务,满足不同场景的使用需求。

同时,PaddleOCR MCP 服务器支持 stdio 和 Streamable HTTP 两种传输机制,用户既可以本地部署服务实现快速集成,也可以远程调用服务,满足不同场景的使用需求。

搭建 MCP 服务器并集成到 AI 应用中,仅需几个简单步骤。下面以“星河社区服务”模式为例,介绍如何在 Claude for Desktop 中使用 PaddleOCR MCP 服务器提供的工具。

1.参考 PaddleOCR 官方文档,在星河社区部署推理服务

  • PaddleOCR 官方文档:

paddlepaddle.github.io/PaddleOCR/v…

  • 星河社区:

aistudio.baidu.com/pipeline/mi…

2.将 Claude for Desktop 配置文件 claude_desktop_config.json 修改如下(需安装 uv):

{
  "mcpServers": {
    "paddleocr-ocr": {
      "command""uvx",
      "args": [
        "--from",
        "paddleocr-mcp@https://paddle-model-ecology.bj.bcebos.com/paddlex/PaddleX3.0/mcp/paddleocr_mcp/releases/v0.1.0/paddleocr_mcp-0.1.0-py3-none-any.whl",
        "paddleocr_mcp"
      ],
      "env": {
        "PADDLEOCR_MCP_PIPELINE""OCR",
        "PADDLEOCR_MCP_PPOCR_SOURCE""aistudio",
        "PADDLEOCR_MCP_SERVER_URL""<替换为服务基础 URL>", 
        "PADDLEOCR_MCP_AISTUDIO_ACCESS_TOKEN""<替换为星河社区访问令牌>"
      }
    }
  }
}

3.重启 Claude for Desktop。新的 paddleocr-ocr 工具现在应该可以在应用中使用了,如下图所示:

图片

如果希望使用 PP-StructureV3的文档解析能力,只需参考上述步骤,在星河社区部署文档版面解析 V3产线,并在配置文件中替换对应的服务基础 URL 即可。除了基本配置外,PaddleOCR MCP 服务器还提供丰富的可调参数,用户可根据需求灵活调整,例如替换为自训练的文本识别模型、关闭不需要的功能模块等。

关于更多详细用法,请参考官方文档:

paddlepaddle.github.io/PaddleOCR/v…

▎ 创新案例

以下展示了使用 PaddleOCR MCP 服务器结合其他工具搭建的创意案例:

Demo 1:在 Claude for Desktop 中,提取图像中的手写内容,并存到笔记软件 Notion。PaddleOCR MCP 服务器从图像中提取了文字、公式等信息,并保留了文档的结构。

Demo 2:在 VSCode 中,根据手写思路或伪代码一键转换为可运行并符合项目代码风格规范的 Python 脚本,并将其上传到 GitHub 仓库中。PaddleOCR MCP 服务器从图像中高准确率地提取手写代码供后续步骤使用。

Demo 3:在 Claude for Desktop 中,将含有复杂表格、公式、手写文字等内容的 PDF 文档或图片转存为本地可编辑文件。

PDF 转为 Word 可编辑格式

图片转为 Excel 可编辑格式:

图片

图片

图片

结语

自 PaddleOCR 3.0发布以来,我们收到了大量关于多语种识别和 MCP 支持的需求反馈。为此,我们近期推出了升级版 PaddleOCR 3.1。欢迎各位开发者、研究者和行业用户下载体验 PaddleOCR 3.1,并积极提出宝贵建议和反馈。大家的支持和参与将持续助力我们打造更加优质、开放和强大的 OCR 生态!

开源地址:github.com/PaddlePaddl…

百度阮瑜:百度大模型应用赋能产业智变|2025全球数字经济大会

作者 百度Geek说
2025年7月8日 15:11

7月3日,2025全球数字经济大会人工智能融合应用发展论坛在国家会议中心举办,论坛聚焦“AI应用落地”,以“大模型•深应用•强产业”为主题。

百度副总裁阮瑜受邀出席论坛,并发表《产业发展新动能—百度大模型应用赋能产业智变》主题演讲,分享了对大模型应用趋势变化的洞察——大模型使用成本降低、企业AI采用率提升,大模型应用形态在加速演进、应用边界在不断拓展。在此背景下,百度智能云持续推进大模型应用的创新,阮瑜现场讲解了“高拟人”数字员工的上线、视觉AI对降低企业生产成本的帮助、交通智能体的行业应用等,深入探讨人工智能如何赋能千行百业,推动数字经济高质量发展。

图片

大模型应用所呈现出的新趋势

在过去一年,大模型应用的单价使用成本下降了将近60倍,企业AI端在使用大模型的应用比例也在大幅上升。大模型AI的应用已经开始变成企业的核心生产工具。

大模型应用本身,有三个趋势发生:

  • 第一,从单智能体向多智能体演进,通过多个智能体分工协作,既能发挥各智能体的专业优势,又能通过交叉验证降低幻觉;

  • 第二,单模态向多模态转型,伴随底模能力提升,跨模态技术在应用端快速落地,交互形式也从单一对话拓展至图片、视频等多元模式;

  • 第三,应用形态从辅助决策向自动执行升级,随着MCP接口普及,多智能体协同自主执行能力增强,可通过流程串联完成复杂场景的产品体验。

同时,伴随着大模型应用边界持续拓展,企业开发门槛也显著降低。底模能力提升推动低代码/零代码应用产品涌现,开发者得以快速生成场景化应用。当大模型与场景知识深度结合后,应用场景从高容错的简单场景向低容错的复杂场景延伸。在付费模式上,效果驱动成为重要方向,国内外客户对按效果付费的接受度逐步提高,尤其在销售线索等领域已有诸多实践案例,预示着AI RaaS(Result as a Service)模式将成为大模型应用商业模式的关键形态。

AI生产力:数字员工真的走向现实

在通用应用领域,多智能体协作正推动数字员工从概念走向现实。百度智能云数字员工通过融合数字人真人级形象技术与大模型对复杂场景及行业SOP的深度理解,形成高度拟人化交互能力,可在真实业务场景中精准响应用户需求。**该产品上线15天内,官网访问量激增70%,线索收集量达传统模式的2倍,**其在复杂场景下支持多轮对话即时打断、实时捕捉客户需求并跟进的能力,目前已在多行业实现落地应用。

图片

多模态重构视觉AI:让生产成本大幅下降

除了数字员工这类场景,大模型的多模态应用也解决了很多原来小模型没有办法解决的问题。在过去,小模型的成本非常高,并且95%的碎片化需求没有办法通过小模型解决。但是当大模型的算力成本逐步下降、生成应用的成本也在下降,这使得大模型在多模态这个领域里有非常大的市场潜力和空间。

百度智能云一见正是基于多模态大模型全面重构的全视觉管理数字化平台。目前,一见已在安全生产管理、服务合规管理及品质管控等领域实现大范围覆盖,成功帮助众多客户在降本增效方面取得显著成效。

图片

公路上的AI:从通用赋能到行业深耕

大模型在通用应用里不断延伸的同时,也在逐步去往行业领域——聚焦解决行业 “深水区” 痛点。百度智能云基于大模型技术与深厚的行业Know-how积累,推出了一系列行业应用来帮助客户解决应用落地的问题。

在交通领域,百度智能云交通Agent产品改变了传统以“人工经验”为主的交通治理模式,通过大模型辅助交通管理者、参与者在复杂路况中做出科学决策和应对。在交通治理场景中,成功打造指挥专家、信控专家、智能问答等智能体。以京雄高速为例,在其作为“准全天候通行的智慧高速”示范路的建设过程中,河北高速通过与百度智能云合作,携手实现了交通事件一站式处置,做到准确发现危险事件-危险事件发现准确率达到95%,快速完成应急处置-处置时间从1小时缩短到30分钟左右。

信控领域,百度智能云信控专家Agent能够基于信控方案自动识别、路口流量还原,以及信控策略优化等核心能力,短时间内输出一套完整的信控解决方案。在跟鄂尔多斯一个交警大队的合作中,凭借全新的大模型信控技术,实现了整个车均延误率达到21%的改善,同时干线平峰期间的停车达到0次,真正做到了让出行畅通无阻。

图片

应用层的更多爆发:期待共同探索

大模型未来在多模态交互、跨领域知识融合等方向潜藏海量机遇。随着底模在算法效率、长文本理解、逻辑推理等能力上持续突破,应用层将在更多场景加速落地。百度智能云期待与行业伙伴共同探索大模型与垂直领域的深度结合,推动技术从通用能力向行业专属解决方案进化,以生态共建模式解锁更多创新可能,携手赋能千行百业数字化升级。

❌
❌