普通视图

发现新文章,点击刷新页面。
昨天以前美团技术团队

ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享

本文介绍了美团技术团队在国际顶会 ICCV 2025 中发表的 5 篇论文。同时,在ICCV 2025 举办的多模态推理竞赛中,美团基础研发平台/计算和智能平台组建的 ActiveAlphaAgent 团队,斩获赛题 1 真实场景视觉定位(VG-RS)冠军,赛题 2 空间感知视觉问答(VQA-SA)季军和赛题 3 创意广告视频视觉推理(VR-Ads)季军。本文也分享了这三道赛题的解题思路,希望相关研究能给同学们带来一些帮助或启发。

LongCat-Video 视频生成模型正式发布,探索世界模型的第一步

美团 LongCat 团队正式发布 LongCat-Video 视频生成模型 —— 不仅以统一模型在文生、图生视频基础任务上达到开源最先进水平,更依托原生视频续写任务预训练,实现分钟级长视频连贯生成,从根源上保障跨帧时序一致性与物理运动合理性,尤其在长视频生成领域具备显著优势。

从0到1建设美团数据库容量评估系统

美团数据库团队推出了数据库容量评估系统,旨在解决数据库容量评估与变更风险防控等领域难题。本文介绍了系统架构和主要功能:系统使用线上流量在沙盒环境回放验证变更安全,结合倍速回放技术探测集群性能瓶颈,构建容量运营体系实现集群容量观测与治理闭环。系统具备数据操作安全、结果真实可靠、灵活高效赋能等特点,有效提升数据库稳定性与资源利用率。

可验证过程奖励在提升大模型推理效率中的探索与实践

美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制(VSRM),针对大模型推理中的冗余回复与过度思考问题,精准奖励有效推理步骤,显著缩减输出长度并提升推理效率。VSRM 通过步骤级正确率增益评估,有效抑制无效步骤,兼容主流强化学习算法,助力高效、可靠的复杂推理任务。

开源 | InfiniteTalk:无限长虚拟人视频生成的新范式

为解决虚拟人长视频生成的质量退化问题,美团基础研发平台/视觉智能团队推出了 InfiniteTalk 技术,实现无限时长视频生成。已在 GitHub 开源并获 1.6K Stars,Hugging Face 月下载量 64.8K,受到了很多好评,能够应用到电商直播、教育、影视等领域。
❌
❌