普通视图

昨天 — 2025年12月2日美团技术团队

R-HORIZON：探索长程推理边界，复旦NLP&美团LongCat联合提出LRMs能力评测新框架

作者美团技术团队美团技术团队

2025年11月28日 08:00

复旦大学与美团LongCat联合推出 R-HORIZON——首个系统性评估与增强 LRMs 长链推理能力的评测框架与训练方法。核心创新：R-HORIZON 提出了问题组合（Query Composition）方法，通过构建问题间的依赖关系，将孤立任务转化为复杂的多步骤推理链。

作者美团技术团队美团技术团队

2025年11月27日 08:00

美团 LongCat 团队发布数学推理评测基准—— AMO-Bench 。该评测集共包含 50 道竞赛专家原创试题，所有题目均对标甚至超越 IMO 竞赛难度。AMO-Bench 既揭示出当前大语言模型在处理复杂推理任务上的局限性，同时也为模型推理能力的进一步提升树立了新的标杆。