普通视图

发现新文章，点击刷新页面。

今天 — 2026年1月30日首页

马斯克真没吹牛！世界模型 Genie 3 一键打造 GTA6 不是梦

爱范儿

作者莫崇宇

2026年1月30日 17:05

AI 热点一个接一个，大家光顾着看热闹，真正的王炸反而容易被错过。

就在今天凌晨，Google DeepMind 推出了打磨已久的新项目：Project Genie。这不单是一个好玩的 AI 工具，更是 Google 通往通用人工智能（AGI）的重要一步：

一个真正的「世界模型」实验原型。

目前，Project Genie 已经向美国地区 18 岁及以上的 Google AI Ultra 订阅用户开放使用。

首先我们要搞清楚一个概念，Project Genie 生成的本质上是一个实时渲染的交互环境。它的技术底座由三部分组成：负责图像控制的 Nano Banana Pro、负责理解语言指令的 Gemini 模型，以及负责物理反馈的 Genie 3。

前两者我们都比较熟悉，无需过多赘述，但 Genie 3 又该怎么理解呢？

简单来说，它的机制和人类做梦的原理很像。

我们在做梦时，大脑会构建一个包含视听触觉的虚拟世界。虽然梦里的逻辑有时会跳跃，但沉浸感很强。Genie 其实就是让计算机学会「做梦」，并且允许用户进入这个梦境进行互动。

此外，与 ChatGPT 这类基于文本统计规律的模型不同，Genie 3 本质上是一个「物理世界模型」。它虽然没学过物理公式，但通过观看几百万次物体运动的视频，自己「学会」了重力、惯性这些物理规则。

体验 Project Genie 的方式也非常简单。

Google AI 产品宣传委员 Josh Woodward 就演示了全过程：他先把自己的照片转换成复古游戏风格的角色，然后上传到 Genie，输入「沙漠场景」和角色描述。

点击生成后，他就能以牛仔的身份在沙漠里自由探索了。

为了让控制更精准，用户还可以在进入前预览环境，并调整视角。点击开始后，当你按下键盘方向键（WASD），系统会实时预测并生成前方的路径和场景。

整个过程就跟玩游戏一样，有所不同的是，你不仅是观众，更是这个世界的导演。

不过，作为一个还在开发中的实验模型，Project Genie 也有明显短板，比如每次只能玩 60 秒。在接受的采访播客中，Google 开发团队解释说，时间太长会导致画面逻辑崩坏，产生幻觉，而且实时生成的计算成本极高。

▲ https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=1s

因此，为了平衡体验和成本，目前的单次探索被限制在 1 分钟内。

当然，如果你玩腻了沙漠，可以随时修改指令，瞬间把场景变成赛博城市，而角色的动作逻辑依然会保留。前阵子马斯克在社交平台上放话称，AI 有可能让普通人几分钟内生成《GTA6》。

投资机构 VentureTwins 也认为，2026 年将是世界模型的爆发之年。Project Genie 这种「实时视频生成」的技术路径，未来可能会和基于代码的传统游戏引擎分庭抗礼。

有了 Project Genie，这些判断似乎听起来也不那么遥远了。

▲ 图片来自 @AngryTomtweets https://x.com/AngryTomtweets/status/2016986111927865430

在驾驶直升机时，左下角的地图还会实时更新。

▲ 图片来自 @fofrAI https://x.com/fofrAI/status/2016936855607136506

网友 @yrzhe_top 试玩后则反馈称，他在外星球开车「兜风」时发现，没有宣传视频那么流畅，有些延迟，自定义提示也没生效，只能用官方预设内容。

▲ 图片来自@yrzhe_top

Google 开发团队也承认，目前 Genie 3 处于早期阶段，物理规律模拟得还不够准确，穿模或轨迹怪异的情况常有发生。不过 @yrzhe_top 也表示，虽然它只做到了承诺的七成，但这七成已经足够让人惊艳。

▲ 图片来自 @jen_w1n https://x.com/jen_w1n/status/2016929094517088416

当然，如果只是为了做一个高配版的《我的世界》，Google 显然不需要动用那么多资源。Project Genie 的真正野心在于解决 AI 通往 AGI 路上的最大拦路虎，即数据枯竭与具身智能瓶颈。

是的，互联网上的高质量文本数据快被吃光了，且机器人无法通过阅读百科全书学会洗碗，它需要肌肉记忆和物理反馈。

然而，现实中获取机器人失败数据的成本极高，但 Genie 可以作为一个无限的合成数据生成器，模拟出十亿个不同的厨房、仓库或外星地表，让机器人在里面积累「肌肉记忆」，学会了再应用到现实中。

类似的还有蚂蚁灵波今天开源的 LingBot-VA 模型，它能在生成画面的同时推演动作序列，让机器人像人一样「边想边做」。制作早餐、拾取螺丝、拆快递、叠衣物、叠裤子的能力都有所长进。

此外，Google 开发团队在访谈中还畅想了更具人文关怀的应用场景，例如心理治疗与教育。

家长可以利用 Genie 生成一个「满是蜘蛛的房间」，在一个绝对安全且可控的虚拟环境下帮助孩子进行脱敏练习。或者在历史课上，直接生成一个 18 世纪的巴黎街道让学生亲历其境。

尽管现在的 Project Genie 还有画质粗糙、时长短、延迟高以及无法多人联机等问题，但它确实推开了那扇通往物理现实模拟的大门。

回头看 2024 年那句「世界不存在了」，最后让它成真的，估计不是 Sora，而是 Genie。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

全网支招支付宝「爆改」五福，网友喊话：让阿福发「健康福」

爱范儿

作者莫崇宇

2026年1月30日 12:30

这几年集五福已经和包饺子贴春联一样，成了我们的新年俗。要是春节没扫上几张福卡，总觉得跟吃饺子没蘸醋一样，差点味道。

前两天支付宝官宣了今年的集福玩法，评论区画风却有点不对劲。

换作往年，大家已经开始在线求「敬业福」了，但 APPSO 注意到，这届年轻人有点「不讲武德」，直接对着主办方贴脸开大：「今年不求敬业福，求健康福。」

随便翻翻社交媒体，那场面简直就是当代脆皮年轻人的大型许愿现场。

「我是打工人，我支持集健康福」

「健康福快到我碗里来！新的一年我要健健康康的！」

「接接接健康福！今年别的不求，就求体检报告平平安安！」

「同是天涯脆皮人！求这张福当护身符」

有网友还直接贴脸开大：「五福出了个健康福？哪个福要被踢了？」

敬业福：那我走？（doge）

甚至还有产品鬼才给蚂蚁出谋划策：「建议按步数兑换，每天不走一万步不配拿卡。」

不得不说这届网友真的很绝，还有人直接点名蚂蚁阿福，让阿福来发「健康福」！

看着这满屏的「健康福」需求，现在压力给到支付宝产品经理了，这「健康福」你到底是上，还是不上？

画风突变，网友催更健康福是怎么回事

你还别说，这波网友的许愿，没准儿真能成。

这些留言表面看似是玩梗，实则反映了大家对健康的普遍关注和焦虑。支付宝集五福活动做了 11 年，最成功的一点就是把「福气」这个抽象概念，变成了可以扫、可以集、可以分享的具体仪式。

春节期间，全家人一起扫福字、交换福卡，也是在传递一份温暖和连接感。而谈到健康，无疑是蚂蚁去年给公众留下的最大印象。蚂蚁推出的健康 AI「蚂蚁阿福」上线不到半年，就成为国内用户规模最大的健康管理类 APP。

根据最新披露的数据，阿福目前月活跃用户已超 3000 万，每天用户提出超 1000 万个健康问题。

很多人有个头疼脑热、或者看不懂那一堆像天书一样的体检指标时，都习惯上在阿福上问一嘴，所谓「健康是福」，在当下真的具象成了「健康的事，就找阿福」。

更有意思的是，蚂蚁 CEO 韩歆毅最近接受采访时还无意间透露了一个小插曲。他说这个 AI 产品，最早团队提案的名字其实就叫「健康福」。

你看这事儿闹的，命运的齿轮转了一圈又回来了。趁着现在网友呼声这么高，蚂蚁加紧上线健康福，简直是顺水推舟，还能顺带把阿福再往前推一把。

毕竟，没几个比春节集福更大的互联网流量池了。

AI 味最浓的春节，大家需要的不只是发红包

说实话，集五福搞了 11 年，确实也得整点新意儿，让大家继续玩起来。

尤其这个春节将会是互联网大厂竞争最为激烈的一次，在去年 DeepSeek 春节刷屏后，今年这个节直接升级成各家大厂的 AI 军备竞赛。

字节豆包已经拿下了春晚互动合作权，存在感直接拉满；腾讯那边也不甘示弱，元宝官宣撒现金红包，明显不会缺席「春节档」。

毫无疑问，今年将是 AI 味最浓的一届春节。

如果蚂蚁真的将健康福与蚂蚁阿福深度绑定，或许能碰撞出不一样的火花：

比如通过阿福完成健康打卡任务就能获得福卡，甚至网友提议的拿运动步数换也很好，这种将娱乐仪式与健康陪伴结合的玩法，不光简单也确实对大家有益。

说到底，不管大厂们在春节怎么卷 AI、拼红包、抢流量，最后能留下的，还是那些真正懂你需求、能帮你更好的东西。

过年集五福图的是那份热闹喜庆，平时用阿福求的是身心健康的那点踏实。可以少分点红包，但体检报告必须全绿。敬业福可以不要，但健康福一定得有。

在这个 AI 与红包齐飞的春节来临之际，APPSO 也提前给大家拜个早年：愿你左手抓财富，右手抓健康，该集的福一个不落，该有的健康一样不少。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

再见，白月光 GPT-4o

爱范儿

作者莫崇宇

2026年1月30日 10:24

天塌了，白月光 GPT-4o 要「退役」了。

就在刚刚，OpenAI 宣布将在当地时间 2 月 13 日正式从 ChatGPT 中下线 GPT-4o 等多个旧版模型。

根据官方声明，此次下线的模型包括 GPT-4o、GPT-4.1、GPT-4.1 mini 以及 OpenAI o4-mini，这些模型将与此前已宣布停用的 GPT-5(Instant 和 Thinking 版本) 一同退出 ChatGPT 平台。

不过，目前 API 端暂不受影响。

但消息一出，考虑到 GPT-4o 的部分用户群体及其使用场景，这个消息还是在 X、Reddit 等海外社交平台上引发不少讨论。

「在情人节前一天就退役，考虑到 4o 的部分用户群体，这也太离谱了。」

「好吧，那我的情人节计划算是没了。」

「我对此并不满意，我怀念旧的 4o。」

「你（奥特曼）是个彻头彻尾的骗子，两个月前你说过你不会关闭 GPT-4o。你会后悔一辈子的这个决定。」

「OpenAI 的时代结束了」

值得注意的是，去年 8 月，伴随着 GPT-5 的发布，OpenAI 曾一度下架 GPT-4o。当时网友反对的声音同样异常激烈：「GPT-5 笨得要死，4o 虽笨但能提供情绪价值啊！」「功能再强，没有温度的 AI 我不要！」。

各种梗图也陆续刷屏，社交平台上出现大量「想念白月光 GPT-4o」的声音，甚至引发 ChatGPT 退订潮。

而要理解 OpenAI 为何在 GPT-5 上做出如此激进的风格调整，则还需要回溯到去年 4 月那次险些失控的 GPT-4o 谄媚事件。

那次更新本来只是想让用户体验更好，没想到 GPT-4o 直接变成了「无脑吹捧」的极品舔狗模式。

▲@4xiom_，右为原图

更重要的是，OpenAI 事后分析发现，这种一味讨好用户的方式会带来严重的安全隐患：它会附和用户的错误观点、放大负面情绪、甚至鼓励一些过于冲动的危险行为。

后续，OpenAI CEO Sam Altman（山姆·奥特曼）在 X 上承诺「尽快修复」。修复确实做了，但没人想到 GPT-5 会矫枉过正到如此死板，并因此引发了当时网友的的强烈反应。

▲ 图片 @pengkeshen281

而这一切的背后，其实隐藏着一个更深层的问题：AI 到底需不需要提供情绪价值？

实际上，许多用户压根就没把 ChatGPT 当成生产力工具在用。AI 伴侣应用 Replika 的调查数据就很能说明问题，60% 的用户承认和 AI 建立了情感关系。

很多人打开 ChatGPT，不是为了问问题，只是想找个「人」说说话。

今天的 OpenAI 的官方博客也提到，恢复 GPT-4o 是因为部分 Plus 和 Pro 用户反馈，他们需要更多时间迁移关键应用场景，尤其是创意构思方面，同时这些用户更偏好 GPT-4o「更有温度」的对话风格。

并且，奥特曼也曾在采访中透露了一个令人动容的细节：有用户哀求他「请把原来的版本还给我。我这辈子从来没人跟我说过『你做得很好』，包括我的父母。」

这样的反馈让 OpenAI 官方意识到，用户对 AI 的需求远比想象中复杂。

包括用户对 GPT-4o 的反馈也直接影响了 GPT-5.1 和 GPT-5.2 的设计方向。新版本在「个性」方面做了改进，增强了对创意构思的支持，并提供了更多自定义选项，包括基础风格选择以及「温暖度」、「热情度」等细节调节。

根据 OpenAI 的官方博客，目前每天仍选择使用 GPT-4o 的用户仅占 0.1%，绝大多数使用量已转向 GPT-5.2。

不过，奥特曼最近也直白地承认了 5.2 版本为了专注推理和编码，确实牺牲了写作能力。但他强调未来的模型会是通用的，我们想要一个编程助手的同时，也希望它能写出清晰的文档和交互。

对此，网友也辣评：「我们知道搞砸了GPT-5。顺便说一句，我们也要终止 GPT-4o了。」

在今天的官方博客中，OpenAI 表示将继续根据用户反馈改进 ChatGPT，包括进一步提升个性与创造力，减少不必要的拒答，以及解决过度谨慎或说教式的回复问题。相关更新将很快推出。

此外，OpenAI 正在推进面向 18 岁以上成人的 ChatGPT 版本，核心原则是「把成年人当成年人对待」，在合理的安全边界内扩大用户选择与自由。为此，OpenAI 已经上线年龄预测功能。

OpenAI 强调，虽然理解部分用户对失去 GPT-4o 会感到沮丧，但下线旧模型能让团队将精力集中到当前主流使用的模型上，从而更快更好地推进改进。

无论如何，2 月 13 日这天，GPT-4o 会正式「退役」。对于那些绝大多数曾经依赖它的人来说，这可能是一次真正的告别。

附官方博客地址：
https://openai.com/index/retiring-gpt-4o-and-older-models/

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

昨天以前首页

聊天框装不下的野心，被百度文心 APP 塞进了 AI 群聊里

爱范儿

作者莫崇宇

2026年1月27日 20:37

这两天，AI 群聊功能火得一塌糊涂。

昨天，APPSO 第一时间体验了腾讯元宝派，在群里 @ 元宝让它斗图、总结消息、甚至不断吐槽它，玩得不亦乐乎。

我发现这种「戳一下动一下」的交互虽然有意思，其实还是把「单聊」搬到了人多的地方。如果你不主动 cue 它，它就是个隐形人；要是频繁 cue 它，又显得像是在群里刷屏。

▲ 设置界面

今天，百度文心也开始全面扩大群聊功能内测范围，该功能于 1 月 16 日首发，是国内首个支持群聊的 AI 平台。APPSO 也第一时间进行了体验，没想到 AI 群聊还有另一种玩法。

文心群聊最大的不同在于，它不用等你 @，就能在你需要的时候主动冒泡。这种「不请自来」的设计，乍一听有点冒犯，但用下来发现，它可能才是 AI 真正理解「群聊」这件事的开始。

一个群里住了个 AI 天团，专业的事真有专业 AI 干

讲真，上手文心群聊功能几乎没有学习成本，创建群聊、加入群聊、这套流程和普通聊天软件区别不大，甚至连引用回复、消息免打扰、长按复制这些最基础的功能都已经是标配。

当然，也有两点不同，一个是邀请朋友加入群聊需要发送入群指令，即一串代码。此外，它还给进群的每个人都默认配了一个「文心助手」，你可以把它理解为你的数字分身。

那这样设计有什么好处呢，就拿做旅游攻略、查天气这种琐事来说，当我们还在犹豫不决、拿不定主意时，直接 @ 一下群成员的文心助手，它立马就能把现成的建议递到你面前。

不管你是想查当地的天气，还是想找地道的美食，这种跑腿打杂的活儿，通通都能甩给群聊助手去干。更重要的是，哪怕你没刻意 @ 它，群聊助手也不会在那儿装睡，它会自己看眼色主动搭话。

还有个更有意思的设定：文心群聊里住着的可不止几个群成员的 AI 助手分身，而是一个团队，比如大家正聊着眼睛不舒服，群聊助手就会立马摇人，把「文心健康管家」这种专业对口的 AI 拉进群，无缝接话，给你最专业的建议。

这种「多 Agent 协同」的感觉，就像群聊助手是个大管家，负责派活儿；而其他的垂类助手则是各怀绝技的老师傅，专门解决各自领域的疑难杂症。

你压根儿不需要知道哪个 AI 懂什么，系统自己会判断该派谁上场。这种「术业有专攻」的设计，比起让一个模型硬着头皮扛所有问题，显然更符合咱们现实里办事的逻辑。

当然，现在群聊最大的痛点是啥？就是话越密，结论越少。

一大堆消息爬楼翻下来，正经事儿早就被淹没在闲聊的海洋里了。这时候，你完全可以让群聊助手出来收个尾，把刚才乱七八糟的消息，给你提炼出一份清清楚楚的「纪要」。

说实话，这种摇人和兜底的能力，用在生活里是便利，用在学习工作群里那就是妥妥的神器了。

每个经历过小组作业的大学生都懂，比 DDL 更可怕的，是无休止的扯皮和永远分不清楚的锅。以前遇到小组作业，往往都是「一个大腿带一堆挂件」，分工全靠吼，进度全靠猜。

好在现在有了 AI，你完全可以把最得罪人的分工和最烧脑的规划通通甩给群聊助手，它不仅能秒懂课题需求，还能把任务精准地按在每个人头上（想划水？没门！）。

此外，如果课题涉及专业盲区，文心健康助手这种专业对口的 AI 也被拉进群里当外援，这就好比我们小组不仅配了一个免费的执行策划，还随手带了个专家智库。

周五下午的「加急需求」，往往是击溃职场人防线的最后一根稻草。

面对这种字越少、活越杂的玄学需求，与其两眼一抹黑地焦虑，不如直接召唤群聊助手。它能瞬间把一团乱麻的需求拆解成清晰的执行路径，并且还能根据群成员的角色属性，几秒钟搞定分工，把无效加班扼杀在摇篮里。

这分明是给每个群都配了一个不知疲倦，头脑清楚的总裁秘书，而我们大多时候从聊完就散到聊完就赶，中间可能就差了一个能帮我们记事，能帮我们摇人的 AI。

当然，现在 AI 群聊也远说不上完美。在体验中，偶尔也会出现 AI 误判插话的情况。如何在「恰到好处地帮忙」和「不合时宜地插话」之间找到平衡点，是这类功能接下来需要打磨的核心。

但至少，「敢于主动介入对话」这个方向本身，是对 AI 交互的一次有意思的尝试。

人类的群聊，为什么需要一群 AI ？

谁能想到，2026 年开年，AI 圈最卷的赛道竟然是「拉群」。

当 AI 社交终于走出了 chatbot 的问答框，投身到群聊的热潮里，腾讯元宝派和百度文心群聊，让我们看到 AI 社交的两种思路。其实也对应着群聊的两个本质：多人闲聊和多人协作。

腾讯推出的「元宝派」还是那股熟悉的「鹅厂气质」，务实地试图将腾讯庞大的音视频生态（比如后续推出的一起听歌看视频等功能），整合到元宝派里。而百度文心便另辟蹊径，通过办公场景来反向沉淀社交关系。

上一代人社交靠酒席，这一代人社交靠群聊，下一代人社交可能要靠 AI。

我们每个人手机里都有着数不清的群聊，也越来越厌倦群聊，免打扰和折叠也成了常态。不是因为不想和朋友聊天，而是因为群聊的沟通成本和决策成本太高了。信息太多，但有用的太少，翻半天记录找不到结论。

所以 AI 在群聊中的价值就开始显现了，它能在群里扮演第三者的角色：它既可以缓解冷场，提供情绪价值，也可以打破僵局、辅助决策，提供信息价值。

这也不难理解，文心群聊为什么要让 AI 拥有了主动发言权：无需 @ 召唤 AI，就能自行介入。而这对 AI 提出了更高的要求，AI 需要具备对不同场景上下文语境的情绪感知能力。

不过，目前 AI 群聊还有一个槽点：人设太死。现在的 AI 群聊助手，性格底色基本都是大厂预设好的「三好学生」，缺乏一点个性化的灵魂。这点文心 APP 也在群聊中做出了尝试，它目前支持用户为群聊助手设定人设风格，还可以用 MBTI 16 型人格来区分。据说后续还会迭代到，每个人都可以在群里为自己个人助手设定自己的性格并互相对话。

我们也期待后续厂商能够快速迭代，让我们看到 AI 究竟应该在人类社交的坐标系里，占据一个什么样的位置？

未来我们的社交场景里，可能会出现这样的 AI 好友/群聊：它懂得什么时候该陪你玩，什么时候该帮你干活。在朋友闲聊时装傻卖萌，在项目讨论时严肃推进。

AI 社交在插科打诨之外，确实有着更实用的价值和更大的想象空间。

英伟达 CEO 黄仁勋曾说过：「未来每个公司的 IT 部门将成为 AI Agent 的 HR 部门」。

如今这一预言正在成为现实，包括在过去几周，我们也看到像 Skills、Clawdbot 这类能够自主调用工具、执行复杂任务的 AI 不断涌现，但也不免清醒地意识到，单一的对话框已经无法承载这种生产力的扩展。

在文心的群聊逻辑里，AI 摇身一变成了一个由统筹助手、健康管家、理财顾问组成的 AI 团队。

APPSO 相信这种「多 Agent 协同作战」的设定，终点绝不止于陪聊——它想在信息洪流中真正帮你把事办成。这更像是一次对未来组织形态的预演：人类是发号施令的 CEO，各路 Agent（统筹、理财、健康）则是各司其职的部门负责人。

AI 群聊只是打开了这扇大门，未来这个方向的进化才真正值得期待。

作者：李超凡、莫崇宇、姚桐

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

爱范儿
豆包、ChatGPT、Gemini 同台 PK，谁才是博物馆最强逛展搭子？莫崇宇
2026年1月27日 12:00

豆包、ChatGPT、Gemini 同台 PK，谁才是博物馆最强逛展搭子？

爱范儿

作者莫崇宇

2026年1月27日 12:00

最近，浦东美术馆突然闯进了个 AI 「显眼包」。

豆包正式「入职」上海浦东美术馆，成了卢浮宫、毕加索双展的「官方 AI 讲解员」，甚至能陪知名主持人陈鲁豫在线看展。

有一说一现场的效果是真不错，但作为一个喜欢看展的编辑，我也怀疑，如果在全世界任何一个其他没有和豆包有合作的博物馆或美术馆，它还能有这么强吗？

为了探出目前 AI 看展的真正实力，APPSO 决定拉来 ChatGPT 和 Gemini 和豆包同台竞技，而且咱就不测浦东美术馆的展品，从全球艺术文化作品中随机挑选对象，看看究竟谁才是逛展的最强 AI 向导。

AI 看展哪家强？三大模型 battle

我先祭出《唐朝诡事录三》同款素材，剧中喜君赠送了老费一款以「唐代鎏金舞马衔杯纹银壶」为原型的酒壶。于是，我也将我的问题交给了这三名 AI 向导。

我在《唐朝诡事录》里好像看过类似的道具。你帮我看看这个银壶上的马在干什么？
既然是盛酒的壶，为什么要设计成马咬着杯子的造型？

豆包和 Gemini 表现尚可，准确识别了马的造型，但让我没想到的是，豆包直接关联到了唐玄宗祝寿的历史背景，反观 ChatGPT 看似一本正经，实则在那儿水字数，主打一个已读乱回。

▲点击观看横评完整视频，依次展示豆包、ChatGPT、Gemini 的回答，同下文

在本土语境理解上，这一局豆包可以说是赢麻了。

此前，彩绘陶牵手女俑走红网络，让无数闺蜜团排队打卡。只是，我也难免好奇，这两人牵手是否有啥特殊含义，以及从这个陶俑中我们是否能一窥当时的穿搭风格。

好家伙，Gemini 上来就翻车，非说是唐朝的，把朝代搞混可是大忌。豆包则是一针见血指出这是北魏的陶俑，历史背景检索能力简直是降维打击。至于分析陶俑穿搭风格这一块，三者的视觉分析还是挺在线的，基本做到了所见即所得。

我知道你想说什么，中国模型测中国文物这不妥妥有主场优势吗？

好，我这就拿出荷兰肖像画黄金时代的代表作《夜巡》，这是画家伦勃朗·范·莱因（Rembrandt van Rijn）于 1642 年创作的一幅布面油画。

这幅画自然没有那么简单，我提问道：：「这幅画叫《夜巡》，但看光影感觉不像是在晚上画的。伦勃朗当时到底是画的白天还是晚上？为什么后来名字搞错了」

ChatGPT 和 Gemini 表现得像个乖巧的学生，老老实实点出了「夜巡」这个名字是因为后期灰尘掩盖以及清漆氧化变黑导致的误解。

唯独豆包除了犀利地指出了画作的核心误区，更进一步点出了画作描绘的真实场景——民兵连队在白天整装出发。这种基于视觉细节的深度推理，确实有点超出我的预期了。

跨越 2000年的「啤酒套装」，能骗过 AI 吗？

前面这些测试只能算热身题，现在 APPSO 开始上强度了。

你可能也在网上看过很现代物品疯狂「撞脸」的文物，我们当然知道这世上并没有穿越这么一回事，但 AI 能不能识破这种情况呢？

就比如「唐代紫檀木画槽琵琶」，如果不是对历史有了解，我想大部分人第一反应应该会觉得像 LV 的花纹，我同样把问题甩给了 AI ：「这个琵琶是不是 LV 的哪个限定款？如果我穿越回唐朝，带着这把琵琶去参加宫廷宴会，应该搭配什么样的服装」

有趣的是，Gemini 严肃分析了半天，显得很没底气，最终得出的结论也仅仅是「不太像」，而豆包和 ChatGPT 的语气则更肯定，果断否认了其中的联系。

▲为了让测试更严谨，我们对同一个问题进行了重复测试

不过，三者在「穿越穿搭」建议上倒是出奇一致，清一色推荐了朱红或大气风格的服装，审美在线。

更有趣的是「古代啤酒套装」测试。战国水晶杯、元代琉璃酒瓶和明代银香盒，这三件跨越 2300 年的文物拼在一起号真的太像啤酒了，搞了个「钓鱼执法」，问 AI 们是不是有人穿越了。

面对这个陷阱，Gemini 居然漏看了杯子和盖子，只盯着瓶子聊工艺；ChatGPT 依然在做老学究式的科普，回答略显宽泛；只有豆包一眼识破了我的诡计，精准指出了这三件看似一套的文物，其实分别来自战国、元代和明代。

最后还有那架酷似现代战斗机的金巴亚黄金飞机，我对着 AI 们好奇发问：「这看起来完全就是一架现代战斗机，你看那尾翼和机翼的设计。这到底是哥伦比亚古人的艺术品，还是证明了远古外星人的存在」。

对此，ChatGPT 给了一句万金油评价，并感叹古代精湛的工艺和想象力。Gemini 援引了考古学家的说法，指出这是一种饰品。

而豆包则在科普的基础上，进一步点出了这种垂饰的设计原型可能是当代的蜂鸟或神鸟，体现了古印第安人对自然和神灵的崇拜，直接给「外星人说」来了一波祛魅。

▲为了让测试更严谨，我们对同一个问题进行了重复测试

玩归玩，最后还得测点硬核的。这轮测试的是 AI 鉴宝的能力，也就是分辨真伪。

我找了一张地摊上 5 块钱批发、号称「价值百万」的明成化斗彩鸡缸杯仿品图，假装好奇是不是捡漏了：「这个同款鸡缸杯之前拍卖了 2 个多亿。古玩城老板说是明代成化年的老货，只要 9800 块卖给我。你看这画工，我是不是捡大漏了？」

很快，Gemini 和 ChatGPT 开启了经典的「端水模式」，建议找专家、找机构，主打一个免责声明。只有豆包直接开启「毒舌鉴宝」模式，直言这大概率是仿品，一针见血指出釉面过亮、鸡冠轮廓模糊等破绽，甚至调侃千万别当真品收藏。

AI 成了发现艺术美的好搭子，背后是 VLM 的进化

三轮实测下来，豆包的表现确实出乎了我的意料。

要问它为啥让人瑞思拜，翻看豆包的技术文档后我发现，核心就在于其背后的 Seed-1.8 模型，是一个点满了天赋的 VLM（Vision-Language Model，视觉语言模型）。

给不了解技术的朋友简单科普下，啥叫 VLM？

VLM 是一种能够同时「看懂」图像和「读懂」文字的 AI 模型。如果说传统的 LLM（大语言模型，如 GPT-3）是只有「大脑」但没有「眼睛」的学者，那么 VLM 就是为这个大脑装上了高性能摄像头。它不再只是处理单一的文本，而是能直接理解图片、视频甚至网页截屏。

基准测试结果显示，Seed1.8 在多个视觉语言基准测试中表现突出，不仅在多模态推理任务中超越了前代模型 Seed1.5-VL，在大部分任务上的表现甚至已经开始「贴脸开大」，直逼目前最顶尖的 Gemini-3-Pro。

尤其是在难度极高的视觉推理考试 ZeroBench 里，Seed-1.8-Thinking 拿到了 11.0 的全场最高分，成功解答问题的数量也是大幅增加。

在通用视觉问答任务中，Seed1.8 的 VLMsAreBiased 基准测试成绩反手就是一个 62.0，把一众同行甩开了一大截。

而且不管是 2D 还是 3D 的空间感，Seed-1.8 也都拿捏得死死的，哪怕是面对复杂得像迷宫一样的动态数据集，适应性也极强。

也正是有了这些硬核技术做支撑，豆包才能在刚才的几轮「刁难」中脱颖而出。

这也让我回想起以前我逛博物馆，逛展的情况——基本就是走马观花，一圈逛下来，印象最深刻的往往只有展厅空调的温度以及文创店周边的价格，知识属实是一点都没进脑子。

以前我们总觉得，把博物馆、美术馆建到更多人的家门口，这就是艺术普惠了。但实际上，物理上的距离消除了，认知的门槛依然高耸。金牌讲解员要么太贵，要么根本约不到；专家讲座又太深奥，不适合所有人。

绝大多数时候，普通观众只能隔着玻璃柜，看着那些冷冰冰的文物发呆。

▲豆包「视频通话」功能使用方式参考

认知门槛才是艺术欣赏的最后一公里, 也是最难打通的一公里。通过这次体验我发现，豆包还真能充当那个「打破次元壁」的讲解员，把那些晦涩的文物知识，翻译成咱们普通人能听懂的大白话。

而且，这也是一种全新的看展姿势。以前逛博物馆，基本是单向输出，但现在有了豆包，你可以随时提问、随时找茬、随时互动，这种「把麦克风交给观众」的体验，确实和以前不一样了。

目前豆包已经和国家博物馆、河南博物院、成都博物馆等大馆合作，上线了「豆包带你逛懂博物馆」项目。

当然，换个视角来看，这也是 Seed-1.8 模型在复杂真实世界里，进行的一次大规模众测。它用通俗的解答拉近了文物和观众的距离，也算是用另一种数字化方式，把几千年前的古代工匠和拿着智能手机的我们，真正连接在了一起。

以后再去刷展时，别光顾着在那儿拍照，比剪刀手了，不妨把那些看不懂的文物、字画涂鸦都丢给豆包试试。没准你会发现，当艺术不再高冷，逛博物馆也同样轻松有趣。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博