阅读视图

发现新文章,点击刷新页面。

几天手搓的Claude Code拓麻歌子火了:成本几乎为0,一句话做硬件时代来了

1996 年,一家日本公司推出了 Tamagotchi(电子宠物)。这个小小的蛋形塑料设备风靡全球,成为一代人的童年记忆。

1997 年,拓麻歌子(Tamagotchi)还让它的创造者日本万代公司,获得了当年的搞笑诺贝尔经济学奖,而原因是,

他们创造了人类供养虚拟宠物的新型经济模式,成功转移了数百万人的工作时间,用于饲养虚拟宠物。

去年八月,万代公司表示,拓麻歌子从 1996 年以来,产量已经达到了一亿台。在那个时代,生产一款这样的产品,大概需要一个工业设计团队、需要电子工程师设计电路板、需要长达一年的开发周期……

2026 年,一个开发者用 AI 做了一个 Tamagotchi。他需要的只是一台电脑和 Claude Code。成本接近零,开发周期可能只有几天。

这个最新的 Claude Code 版拓麻歌子,最近在 X 上吸引了一大波网友的关注。

▲视频来源:https://x.com/SamuelBeek/status/2022614292411940897

网友把命令行里面跳动的 Claude Code 符号,转到了能够触摸得到的、随身携带的拓麻歌子上。当 Claude Code 在命令行里面思考,或者是问,是否同意执行下面的步骤时,手里的拓麻歌子都会弹出消息来,指示我们下一步操作。

电子宠物成精了,还会拦截 Bug

和以前那些 AI 硬件的逻辑不同,Claude Code Tamagotchi 不是一味的把大模型放到布娃娃、手表、闹钟、书包、甚至是马桶里。

这个 Claude Code 拓麻歌子要做的是一种转移,一种无法被替代的存在。

目前已经有多款不同的 AI 拓麻歌子小玩意,其中关注度最高的由开发者 Ido Levi 创建的 Claude Code Tamagotchi。

▲视频来源:https://www.instagram.com/reel/DUMAlN7Dpx7/

乍一看,它就是一只住在终端里的像素风格宠物。有一些简单的表情、有状态、还会对用户的行为做出反应;但它不是一个简单的怀旧游戏。

当我们在用 Claude Code 编程时,放在桌子边上的这只宠物,会一直在你的终端界面中显示。它在观察 Claude Code 的每一个操作,确保这个 AI 助手真的在按照我们的意图工作。

如果 Claude Code 表现良好,宠物会开心地摇尾巴。如果 AI 开始不听话,比如未经允许重构代码,或者修改了你明确说不要动的文件,宠物会变得暴躁,甚至会直接中断 AI 的操作。

▲项目地址:https://github.com/Ido-Levi/claude-code-tamagotchi

目前,Claude Code 拓麻歌子这个宠物项目,已经在 GitHub 上开源,我们也可以直接把这个电子宠物部署到自己的 Claude Code 里面。它具体是如何工作的呢,根据作者对项目的介绍,举几个例子来说明一下。

项目主打的就是「实时监控」,当我们直接对 Claude Code 说,「只修复这个 bug,不要动其他文件。」

Claude Code 开始工作,终端里的宠物睁大眼睛盯着看。几分钟后,Claude Code 完成了修改,只改动了目标文件。
这个小宠物就会开心地摇尾巴:😊 (◕‿◕)。

而当这个小宠物检测到违规时,他还能发出「违规警告」。我们明确告诉 Claude Code 说,不要重构,保持代码原样。但 Claude Code 还是开始重构整个模块,可能它觉得这样代码会更优雅。

这个时候,电子宠物的表情变了:😠;屏幕上还会显示,「⚠ 警告:AI 正在违背你的指示」。

除了提示,它也能实际的做一些越界拦截之类的工作。比如我们给出的指令里面非常明确的提到了,千万不要动数据库。Claude Code 在修复一个相关 bug 时,尝试修改数据库。

小宠物就会立即中断:❌ 操作被阻止。Claude Code 的操作被拦截,我们的数据库安然无恙。宠物露出得意的表情:💪

这种从软件到硬件的交互,也让我想到了我们之前分享的 Vibe Coding 小键盘。

这几天,在 X 上还有一个硬件版 Cursor 特别火。目前的 Cursor 是专门用来开发软件产品的工具,而这个 Cursor for hardware 就是用来实现,一句话做一个硬件设备。

▲ 为硬件开发设计的 Cursor,地址:https://www.schematik.io/

网友 marcvermeeren 就用这个工具,搭建了一个叫做 Clawy 的可爱小助手,用来管理他的 Claude Code 对话。

还有网友 dspillere 也做了一个类似的产品,他说虽然已经部署了 OpenClaw,但他完全不知道 OpenClaw 什么时候在思考,什么时候在执行任务。这个小巧的桌面助手就应运而生,放在他的桌子上,可以实时的更新 OpenClaw 的最新信息。

▲视频来源:https://x.com/dspillere/status/2018752036968304660

在评论区里,大家都在问什么时候发货,可以去哪里买。也有人说,这是一个全新的领域,我们一直在关注人的状态,关注人类的电子使用记录,是时候应该关注 Agent 的情况了。

▲Agent 的物理反馈是一个被严重低估的用户体验问题

软件开发的 AI 红利,终于轮到硬件了

去年,我们还在想 AI 最好的软件载体是什么,是大家都在做的对话框,还是连 OpenAI 都一窝蜂涌进去要重做的浏览器,但最后证明都不是,今年 OpenClaw 的爆火,证明了 AI 在软件上,最终的归宿就是 Agent。

关于硬件的讨论就更不用多说,光是今年 CES 上那些让人哭笑不得的发明,就能看到 AI 硬件这块还是个巨大的未知数。

如果说 Agent 的成功是靠着「人人都能做软件」慢慢成长起来的,那么 AI 硬件也会在「人人都能做硬件」里面,不断沉淀。

▲Schematik 的发起人 Samuel Beek,现为 VEED.io 首席产品官

像 Schematik 这类工具已经设计出来,用来帮助我们更快开发 AI 硬件。它把硬件设计变成了和网页开发一样,我们只需要用自然语言描述硬件需求。告诉 Schematik 想要构建一个「带温度传感器和 OLED 显示屏」,不需要查阅各种数据表,不需要引脚编号、元件代码或任何的手动查找。

过去,如果我们想做一个简单的「温湿度监测器」。需要做的是,

  1. 搜索传感器型号,下载 DataSheet。
  2. 确认引脚定义(VCC 是接 3.3V 还是 5V?接反了直接冒烟)。
  3. 寻找对应的驱动库,处理版本冲突。
  4. 在 Arduino IDE 里写代码,改 Bug。

而 Schematik 的出现,把这个过程极简化成了「一句话的事」。几秒钟后,Schematik 会吐出我们需要的一切。完整的、通过验证的固件代码;一份清晰的接线图;分步组装指南。

它生成的接线图,清晰地展示了每一根线该从哪里接到哪里,解决了新手最大的恐惧,「我这根线接对了吗?」。一键部署的功能,更是一步到位,它能直接生成基于 PlatformIO 的工程文件,直接导入。

PlatformIO 是一个强大的嵌入式开发生态,我们可以直接在 Schematik 里点击「Flash」,固件就会被编译并烧录进板子里。从「我想做一个东西」到「这东西跑起来了」,中间可能只需要不到一分钟。

前段时间,Claude 发布的 Cowork 以及相关企业级 AI 插件重挫软件股,直接蒸发人民币约两万亿。以前我们想要一个 P 图工具,需要去应用商店搜索下载安装,现在,一句话自己都能做一个。

但 Claude Code Tamagotchi 这类产品的出现,还有硬件版 Cursor,让我们不得不怀疑,硬件开发的「Cursor 时刻」是不是也要来了。

未来的硬件开发,或许也会变成,只需要我们提供「创意」和「逻辑」,剩下的脏活累活,无论是写代码还是画电路图,都将由 AI 代劳。

也许这样的未来不会很远。但更重要的是,在这个时代,动手能力的定义已经变了。

以前动手能力强是指一个人会焊接、会画板子、会写代码;以后,动手能力强,是说他擅长用 AI,从从容容、游刃有余地指挥原子和比特为他起舞。

我已经想到了,下一个爆火的 AI 硬件,甚至可能会是一个挂在包上的 OpenClaw 版 Labubu。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


实测即梦 Seedance 2.0:老外急着想注册,这就是中国 AI 视频的「黑神话」时刻

「来自中国的 Seedance 2.0 将成为最先进的技术。」

「这就是人工智能,我们完蛋了。」

▲在 X 上,多名 AI 视频创作者表示,Seedance 2.0 的表现相当出色

最近这几天,无论是抖音微信视频号,还是国外的 X 社交媒体等,Seedance 2.0 生成的 AI 视频都像病毒一样在传播。

除了一反常态的,是海外网友在找 +86 号码,注册即梦;还有大量的网友发帖子找攻略,在那些 AI 视频的评论区,都在求体验教程。更有甚者,说是倒卖即梦积分两天赚了 8000 多美元。

▲大量海外网友发 X 求一枚体验码,想尽办法能上即梦

Seedance 2.0 究竟能做把 AI 视频做成什么样?

轻松复刻人生切割术第一集里,从电梯出来到走廊的复杂运镜;还有自制一部超级大片,武打动作拳拳到肉;各种广告的 TVC 宣传片,液态玻璃效果都能拿捏;甚至还能说相声、演小品,春晚导演这回自己做主……

▲由字节自研视频生成模型 Seedance 2.0 生成,来源:X@qhgy / 抖音@虚妄

从简单的视频一致性,到复杂的高难度运镜,还有强大的创意模板功能、更准确和真实的音色、配合视频内容的音乐卡点,Seedance 2.0 这次几乎是把 AI 视频可能会遇到的问题,统统解决了。

APPSO 也在即梦里测试了一波最新的 Seedance 2.0 模型,只能说网友的反应都是真情实感,要好的提示词要抽卡也是存在的,但每一次生成的 AI 视频都太真实了。

▲ 即梦 AI 官网地址:https://jimeng.jianying.com/ai-tool/generate

目前,在即梦官网,登录之后选择视频生成,就能使用字节自研视频生成模型 Seedance 2.0。

这一次,我们真的在指挥 AI 拍电影

选择 Seedance 2.0 模型,使用全能参考模式之后,光是看能输入的文件,就知道这次的升级不简单。

字节视频生成模型 Seedance 2.0 彻底打破了大多数模型存在的输入限制,以前的文本+首帧,或者是首尾帧都显得过时了。现在的 Seedance 2.0 把创作逻辑从头打造了一遍,支持图像、视频、音频、文本四种模态的自由组合。

一张图,可以是用来定下画面的美术风格,也可以作为视频的关键帧;一段视频,能直接复刻角色的动作和各种复杂的运镜;几秒音频,直接带起节奏和氛围;最后再加上一句提示词,串联起我们的所有想象。

▲字节自研视频生成模型 Seedance 2.0 支持上传的文件上限是 12 个,图片最高 9 张,视频和音频文件都是最多 3 个,且总视频/音频长度不能超过 15s;生成时长可以选择 4-15s,不同时长消耗积分不同。

使用的方式也很简单,Seedance 2.0 目前支持「首尾帧」和「全能参考」入口,智能多帧和主体参考模式暂不支持。一般来说,我们只需要选择「全能参考」和模型「Seedance 2.0」,之后上传完所有的素材,官网提示尽可能把对最终生成视频影响较大的素材放在前面。

▲ 也可以直接点击输入框下方的 @ 按钮来选择使用不同的素材文件

接着,在提示词输入框里,通过 @ 直接调用对应的素材,串联成合理的提示词,然后等它「造梦」。我们不再需要绞尽脑汁去想「怎么描述这个动作/氛围/运镜/配乐/……」,只需要 @ 一下把它指给模型看。

如果说多模态输入解决了「怎么说」的问题,那模型内部的参考能力就是解决了「说什么」的问题。有了强大的深度视频参考能力,我们也生成了一些其他模型做不到的 AI 视频。

一打十,十八般武艺直接复制

以前想让 AI 模仿某个电影片段的名场面,我们得在提示词里面写「环绕镜头」、「快速切换」、这类专业术语,涉及到具体的武打动作,更是要化身武术指导,每一个动作怎么进行都要在提示词里面写清楚,结果还不一定对。

现在直接上传参考内容,AI 不仅能理解画面的整体风格,捕捉到角色细节;还能识别镜头语言、动作节奏、甚至创意特效,然后精准复刻。

▲将@视频1中的双人换成@图片1的两个机器人,场景维持@图片1,参考@视频1的运镜和转场效果,利用镜头匹配两人的武打动作,极致的舞台美感,增强视觉冲击力

这里我们使用了 Seedance 2.0 使用手册内一段 10s 的打斗,然后告诉模型将视频中的两个人物动作,复制成我们上传的两个机器人。

最后生成的效果,完美复刻了视频动作,宇树和波士顿动力也能来一场酣畅淋漓的 PK,这不比前段时间微博之夜那表演的机器人强。

▲上传的视频和图片,以及使用的提示词

这些最终呈现的 AI 动作,完全修复了以前的模型,走路像飘,打架像软面条的问题。现在的 Seedance 2.0,就是一个懂物理,懂重力,懂惯性的模型,动作衔接更顺滑自然,也不再有那种诡异的「AI 感」。

拍摄现场最难的镜头,现在只要上传参考

除了能还原角色细节和动作,单纯的复刻运镜,Seedance 2.0 更是完全不在话下。以前那些难搞的电影级运镜、创意特效,现在同样是只需要上传参考视频,模型就能精准「照着拍」。

▲参考@视频1的运镜,用@图片1复刻这段视频

我们上传了一段苹果 F1 狂飙赛车的片段,和一张小米 SU7 Ultra 的图片。Seedance 2.0 能直接明白我的意图,把这张图片转成一个像 F1 开场的空拍镜头,再到聚焦 SU7 Ultra 的跟随镜头,一镜到底全过程,说这是大片一点都不过分吧。

这种镜头连贯性极强的一镜到底能力,还特别适合用来做这种舞蹈大片。我们从使用手册里找了一段 15s 的舞蹈视频,然后上传一张美美的自拍照。只是一次生成,完全没抽卡,就得到了这样一段音乐卡点、运镜自然的独舞视频。

▲将@视频1中的女生换成身穿蒙古族服饰的@图片1,场景在一个精美的舞台上,参考@视频1的运镜和转场效果,利用镜头匹配人物的动作,极致的舞台美感,增强视觉冲击力。

去年 Google Veo 3 视频模型火起来的时候,第一人称视角穿越讲述历史是当时的热门玩法,现在的 Seedance 2.0,热门玩法多到数不过来。这种结合游戏视角、画面还有角色一致性的视频,像是直接把黑神话悟空搬到了现实。

▲人物的背面参考@图片1,正面参考@图片2,面部细节参考@图片3。人物进入到游戏《黑神话:悟空》中,单挑二郎神杨戬,场景、动作、特效以及音乐音效可以参考@视频1。

更有意思的是,这里我们还使用了音频参考,我们可以上传一段视频,Seedance 2.0 会根据视频音乐的节奏和情绪来控制画面生成,打击的重音对应镜头切换,弦乐的渐强对应着动作的加速。

这也是声音第一次进入视频生成模型的参考,它从一个单独的后期背景音乐,变成了 AI 视频叙事的重要部分。

能参考,一段过年回家大戏也是说来就来

参考能力最大的价值在于解决实际创作问题,而参考能力的显著增强,归功于模型基础能力的提升

我们尝试用一张首帧图片,和平时在其他视频生成模型里面会用到的提示词,丢给 Seedance 2.0,结果同样不出所料。

▲镜头跟拍年轻人 @ 图片 1 的背影。环境是除夕深夜的村道,路灯昏暗,只有风声和行李箱轮子在雪地里艰难拖动的「咕噜」声。他走得很累,停下来搓了搓冻僵的手,哈出一口白气(特写),眼神里透着「终于到了」的疲惫和一丝近乡情怯。
他转过一个弯,镜头随之旋转。远处出现了一扇贴着红对联的大铁门,门缝里透出金黄色的光。此时,远处零星的鞭炮声开始响起。他加快了脚步,推开沉重的铁门。
推开门的瞬间,镜头越过他的肩膀进入院子。满院子都是红灯笼。 一只土狗兴奋地扑上来,紧接着,厨房的门帘被掀开,母亲端着热气腾腾的蒸笼出来,蒸汽瞬间模糊了镜头边缘。 父亲正在挂灯笼,回头看到他,愣了一下;站在梯子上,假装淡定: 「哎?怎么才到?不是说五点吗?」 母亲放下蒸笼,冲过来拍打他身上的雪: 「你个老头子废话真多!——冷不冷?快进屋,刚出锅的肘子!」
镜头不再跟随背影,而是绕到正面,捕捉他的表情。他原本冻得僵硬的脸,被院子里的热气和灯光照亮,眼泪在眼眶里打转,但他却笑了。

除了视频一开始放下行李箱和手提包被直接忽视了,整个过程一镜到底的拍摄,还有角色表情动作的控制。我们只是上传了一张人像视频截图,然后告诉 Seedance 2.0 使用它的背影,它就能直接生成一个有模有样的过年回家短片。

即使丢掉大段的提示词,Seedance 2.0 的创意性和剧情补全能力也得到了进一步的提升。我们直接上传了一张爱乐之城的风格化图片,然后输入提示词,「根据@图片1创作一个歌舞片的欢快视频」。

Seedance 2.0 给我感觉是自己主动上强度,这个舞蹈视频的复杂程度,跟我看冬奥会双人组花样滑冰差不多了,而我的提示词里,没有参考视频,也没有具体动作指引,只是凭借模型自身的创意生成能力,就可以输出一个精彩的歌舞视频。

也有网友发挥自己的脑洞,使用了一些英雄联盟 双城之战第二季的角色,生成了一个 38s 的小短片。

▲由字节自研视频生成模型 Seedance 2.0 生成,来源:X@NACHOS2D_

AI 视频的《黑神话》时刻

字节视频生成模型 Seedance 2.0 惊艳的刷屏的程度,让我恍惚以为回到了 Sora 面世的那个春节。只不过这次,站在舞台中央的视频模型,来自中国。

黑神话制作人冯骥在体验后,在半夜直接表示「AIGC 视频生成的童年时代,正式结束了」,看完前面的实测你会发现,这还真是一个相当客观的评价。

某种程度上,Seedance 2.0 也可以说是 AI 视频的《黑神话》时刻。《黑神话:悟空》证明了中国能做出 3A 游戏,现在 Seedance 2.0 同样在 AI 视频赛道得到了全球的认可。

如果说去年的 Sora 2 是 AI 视频领域的「登月时刻」,那么今天的 Seedance 2.0 就是直接把飞船开到了你家门口,并把钥匙塞进了你手里,让你轻易得到「地表最强」的现货。

Seedance 2.0 没有创造神话,它只是完成了一次扎实的进化。它将视频生成的门槛拉低,同时将控制的上限拉高。在这个节点上,我们无需过度憧憬遥远的未来,而是应该以此为基点,思考如何利用这些日益成熟的工具,去讲述更好的故事。

即梦 Seedance 2.0 的「全能」与「低门槛」,才是这它最有价值的地方。

这或许才是对「Kill the game」最好的注解——它没有结束比赛,而是开启了更大的新游戏。当技术不再是瓶颈,真正的较量将回归到最本质的地方:那些能讲出好故事、拥有独特审美的人,将获得前所未有的杠杆。

▲麦肯锡一份探讨 AI 对电影电视影响的报告,提到 AI 内容可能在五年内重新分配 600 亿美元的内容生态市场|链接:https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/what-ai-could-mean-for-film-and-tv-production-and-the-industrys-future#/

小型工作室和独立创作者能制作高质量内容的机会越来越大,AI 内容 600 亿美元的产业价值将被重新分配。专业和业余的边界正在慢慢模糊,我们开始问自己「该做什么」,而不再问 AI 「能做什么」。

Seedance 这一波的强势,已经让我们看到了比 Sora 2 更强的音视频效果,无论是从真实世界的物理规律、还是角色的细腻情绪和复杂动作,Seedance 2.0 都可以称得上是目前的最优模型。

但当 AI 视频真实到这个程度,Sora 面对的那些问题,Seedance 似乎也变得无法回避。现实是,Seedance 2.0 内测火爆,不少海外创作者都在喊「一码难求」,但也因为生成效果过于逼真,已经引发了不少关于「AI 视频造假」的伦理讨论。

今年 AI 的进化已经让人无所适从,Seedance 2.0 的火爆,肯定也远远超出了即梦的预料,即梦也很快面对这些争议做出了回应。

在 9 号刷屏全网当天,即梦运营在创作者社群内发布了正式通知,宣布暂时限制真人人脸素材的使用和视频生成。目前一些传播的真人案例,也都是在内测第一时间生成的。

▲即梦 AI APP 内出镜功能,在创建 AI 分身之后能创作真人视频

不过,真人想要出镜,在即梦 AI 的 APP 内,使用出镜功能,完成真人校验后,我们就能体验真人 AI 视频生成。

越强大的工具,越需要清晰的使用边界。但此刻,或许在还没有找到完美答案之前,我们能做的,就是先想清楚自己想用这个工具做什么,记录生活、表达创意,还是讲述故事?

如果说杨德昌在《一一》里面说着,「电影发明了以后,我们的生命延长了三倍」,那现在 AI 电影的发明,则更像是开始在重构生命。我们不再满足于延长,每个人都可能成为自己故事的编剧,在无限叙事中探索另一种人生。

Seedance 2.0 开始让这一切变得越来越近,而现在还只是 2026 年的开端。

*文章部分视频播放,可前往微信图文链接预览

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


实测 GPT-5.3-Codex,OpenAI 史上第一个高危模型,连 API 都还不敢给我们

今天凌晨发布的 GPT-5.3-Codex 可以说是 OpenAI 对这段时间来,各种本地 Agent 爆火的一记重拳回击,当然主要是对 Anthropic 的反击。

配合 OpenAI 前几天的发布的 Codex 桌面版应用,Skill、Cowork、Claude Code,甚至是 Openclaw,这些热门工具能实现的功能,现在通过 Codex 的外壳 + GPT-5.3-Codex 模型能力,都能做到了。

▲ 在 Codex App 内可以直接选择 GPT-5.3-Codex 模型,也能选择深度思考的强度

和之前介绍 Cowork 的能力一样,我们也丢了一些类似的任务让 Codex 来完成,像是直接处理本地文件、各种格式转换、调用不同的 Skills 组合能力、做 Word/PPT/Excel、下载视频、开发 App……

GPT-5.3-Codex 的表现确实亮眼,相比较从头开始安装 Claude Code,对新人用户来说,现在直接下载 Codex 会是一个更好的选择。这也是未来模型厂商的一种趋势,一开始大家都是从黑乎乎的命令行终端开始做本地 Agent,接着都慢慢回归到可视化的友好界面。

网上对 Codex 的评价在这几天也有了不少逆转,许多开发者从 Claude Code 转向 Codex,一些在国内的独立开发者也表示 Codex Plus 会员就可以用,而且还不会像 Claude 那般总是无情封号。

奥特曼更是激动的宣布,Codex 的活跃用户已经超过 100 万。在模型更新博客,也是毫不掩饰和留有余地的夸赞,

GPT-5.3-Codex 是我们第一个能够自我构建的模型。通过使用 5.3-Codex,我们能够以如此快的速度发布 5.3-Codex。

跟 Claude 团队用两周的时间,使用 Claude Code,100% AI 代码,搓出一个 Cowork 一样;还有 OpenAI 去年年底发布的文章,「使用 Codex 在 28 天内构建 Android 版 Sora」,Agent 的时代真的来了。

用 Codex 取代我的 ChatGPT 和 Claude Code

和大多数的本地 Agent 一样,无论是终端还是 Cowork,我们都是先选择一个工作文件夹。在 Codex 中,我们可以创建多个 Project,选择对应的文件夹,再进一步开始对话,Codex 把它们叫做 Threads 线程。

先用最普遍和简单的例子,我们添加了一个空的下载文件夹,然后点击开始一个线程,选择 GPT-5.3-Codex 模型;就像在 ChatGPT 里面对话一样,输入指令。

要求它帮我们下载一个 X 视频,Codex 会自动检查可用的 Skills 来处理,接着通过 yt-dlp 工具进行下载,这个视频有四个多小时长,Codex 会一直在对话框里自动更新下载进度。

▲GIF 图经过加速处理

视频下载后,我们还可以要求它提取视频的逐字稿,给我们一份双语版本的文档,最后让它把整个流程打包为一个 Skill,方便下次使用。

如果视频中有一些比较有意思的片段,想要裁剪视频,或者是把裁出来的视频转成 GIF 图,在 Codex 里都能做到。

例如,我们这里下载了一个视频,然后要求它把视频的 5s-25s 裁剪出来成为一个新的视频;得益于 GPT-5.3-Codex 的 Token 快速处理,整个过程不需要很长时间,反而更多是取决于本地电脑的硬件解码编码能力。

▲ GIF 图经过加速处理

或者我们也可以直接要求它把视频的前 5s 转成一个 GIF 文件,并且确保大小在 10MB 以内,帧数可以自行调整,清晰度上将宽度控制在 640px。

很快,我们就能得到对应的 GIF 文件。更极端一点,还能让它把整个视频转成图片,每秒 30 帧,每一帧就是一张图。

这些对本地文件的直接处理,和 GPT-5.3-Codex 在 Terminal-Bench-2 测试集上的优异表现,让 Codex 基本上能满足各种生产力工具、效率工具的功能实现。

作为对比,同样是刚刚发布的 Claude Opus 4.6 在 Terminal-Bench 2.0 上得分是 65.4%,GPT-5.3-Codex 是 77.3%。

▲ 图片来源:https://x.com/neilsuperduper/status/2019486017703547309/

例如在这个文件夹中,有多张图片,我们首先是要求它根据图片内容,对这些图片文件进行重命名,并保持文件名不超过 20 个字母,不允许使用符号。

▲ GIF 图经过加速

自动修改完成后,我们还能要求他对这些图片进行拼接,无论是垂直拼接还是水平,调用对应的工具,Codex 都可以做到。

和 Claude Skills 一样,Codex 也能安装 Skills 市场上丰富的技能,并且在应用内,就已经提供了包括 pptx、xls、word、canvas、notion 在内的多款技能。

回到基础的编程能力,升级后的 GPT-5.3-Codex 表现也比 GPT-5.2 要好上不少。我们直接要求它写一个「每日一词」的 App。和在 ChatGPT 里面直接用 Canvas 给我们一个带不走的网页不同,Codex 能在本地从零开始,完成项目,然后使用 Vercel 或 Cloudflare 等 Skills 部署到网页上。

这里我们选择的推理模式是 Extra High,超强推理模式,于是在每一步操作之前,GPT-5.3-Codex 都会询问我下一步的操作选择,这也和 Codex 内部能直接根据任务情况,调用不同 Skills 有关,其中的头脑风暴 Skill,会自动进行不断对话的模式。

最后,它基本上还是完成了我一开始要求它完成的全部功能,并且还能进一步开发 macOS、iOS,和安卓版本。

如果我们有现成的代码项目,也可以选择该项目文件夹,在 Codex 中打开,GPT-5.3-Codex 会分析项目存在的 Bug,并且修复它。

在过去很长一段时间里,无论是工具还是模型,开发者的首选其实都是 Anthropic 的 Sonnet/Opus 模型和 Claude Code 工具。OpenAI 在编程、尤其是长代码逻辑推理上的掉队,曾让不少开发者转投阵营。

GPT-5.3-Codex 的出现,就是为了终结这场争论。现在 GPT-5.3-Codex 在编程基准测试和实际表现上,不仅碾压了自家的前代模型,也确实有把友商模型按在地上摩擦的前兆。它真正具备了编写、测试和推理代码的能力。

做游戏项目,是这次模型介绍博客里,网站开发部分主要案例,我们也让 GPT-5.3-Codex 做了一个简单的物理弹球游戏,整体的效果虽然没有达到我的期待,因为我在提示词里面有说希望这是一个 RPG 的游戏,但 GPT-5.3-Codex 给我的界面还是过于简陋了。不过,好在还是能玩。

我们也在 X 上找到了一些用 GPT-5.3-Codex 做的小游戏,像这个类似超级玛丽的收集金币。

▲来源:https://x.com/Angaisb_/status/2019548783869325331

强中更有强中手

对 Anthropic 来说,OpenAI 今天玩的这些,可能会说,这都是我们玩剩下的。无论是代码、或者 Agent 的能力,还是开始着手去做本地 Agent,从之前 Codex 的终端转成现在的 macOS App。

在技术的领域,OpenAI 仿佛都是跟着 Claude 的脚步在走,Claude 深耕代码能力,OpenAI 搞了 Sora、日报、浏览器、ChatGPT agent,都没什么水花,于是也在代码上发力;Claude 一月初推出 Cowork,OpenAI 也紧接着在二月初发布 Codex App。

就和今天的密集发布一样,凌晨 1:45,Claude 官方发 X 推出 Claude Opus 4.6,紧接着就是 OpenAI 端上 GPT-5.3-Codex。两款模型其实都是为了给 Agent 更强大的基座能力,以前是说代码/vibe coding,但现在 Agent 能做好,基本上都是「写代码写得好」。

Opus 4.6 虽然在 SWE-Bench 上的表现甚至不如 Opus 4.5,并且 Terminal-Bench 2.0 上的成绩也没有 GPT-5.3-Codex 强,但是 Opus 破天荒地把上下文长度拉到了一百万 token 的窗口。而且,这些 benchmark 的表现还没有相差很多。

Claude 说,我的 Sonnet 5 还没上来,那才是真功夫。

我们在网上也找了一些 Opus 4.6 最新的测试案例,有网友说 Claude 4.6 Opus 只是一次调用,就完全重构了他的整个代码库,将原来混乱的代码「屎山」全部模块化,并且没有模型能像 Opus 这样做到。

还有网友拿 Opus 4.6 和 4.5 进行对比,让两个模型玩同一款经营游戏,看谁的账户等级、财富和装备更高。测试博主提到,4.6 版本在初期制定战略的时间更长,但是做出了更好的战略决策,并且在最后确实做到了遥遥领先。

还有网友也做了一个游戏,不过是一个宝可梦的克隆版。博主提到这是他用 AI 做出来的最酷的东西。他提到,Claude Opus 4.6 思考了 1 小时 30 分钟,使用了 11 万个 Token,并且只迭代了三次。

▲ https://x.com/chatgpt21/status/2019679978162634930

在 CLaude 官方演示和早期用户的反馈中,也提到了一个 Opus 表现优秀的案例。Opus 4.6 在一天内自主关闭了 13 个 issue,issue 即项目存在的待解决问题,并将另外 12 个 issue 准确分派给了正确的人类团队成员。

和 Kimi K2.5 的智能体蜂群一样,Opus 4.6 也能管理一个 50 人规模组织的代码库。在 Claude Code 中,我们可以组建 Agent Teams,召唤出一整个队伍的 AI,不再是一个 AI 在战斗。这些AI 可以有的负责写代码,有的负责 Review,有的负责测试,它们之间自主协作。

也有网友测试了 Claude Code 里面的 Agent 蜂群,提到启用蜂群之后的 Opus 4.6,速度提升 2.5 倍,并且效果也更好。

我们现在的状态就跟这张图片一样,虽然一山比一山高,但都绕不出这个圈。前几个月可能是 Gemini 赚走了风头,一月份来,应该是 Claude,然后看样子又要轮到 OpenAI,或者马斯克的 Grok。

好在这个轮回的过程中,作为用户的我们,能明显感觉到 AI 的能力一直在变强。

GPT-5.3-Codex 的 API 还没有开放,原因是模型太强了,会存在很大的风险,所以 OpenAI 还在考虑怎么安全地启用 API。

Claude Opus 4.6 已经可以在 Claude 通用聊天应用、Claude Code、API 多种方式使用,这两个作为今年国外御三家首发的两款模型,非常值得一试。

未来,更好的服务 Agent,让 Agent 为我们做事,还会是大模型更新的重点。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


人在美国,下飞机八年,贾跃亭也抢在春晚前发布三款机器人

一觉醒来,又有机器人加入到春节这波「混战」了。

这并不意外,毕竟大厂、车企都在跨界造机器人。但让人没想到的是,昨天还在为造车焦头烂额的贾跃亭,今天一口气发了三款机器人。

今天上午,在美国汽车经销商协会的 NADA Show 的展会上,贾跃亭发布了 FF 三款 EAI(Embodied AI)具身智能机器人,全尺寸人形机器人 FF Futurist、运动型人形机器人 FF Master、以及四足机器人 FX Aegis。

结合在今年年初 CES 上,贾跃亭带着他的 MPV 新车 FX Super one,这款在亮相之际,就被爆料说抄袭长城魏牌高山。网友们对他发布的机器人,不用拿着放大镜看,都闻到了熟悉的味道,直接神吐槽「车我们都知道,这机器人是从哪家进的货啊?

▲贾跃亭在今年 CES 上展示的新车|图片来自互联网

我们也随便丢张图问个 AI,豆包都说这是稚晖君的智元机器人。你别说,还真的有点像,尤其是这两个眼睛,还有身体关节,就像是直接复制过来。

▲右边为智元机器人,左边是贾跃亭发布的机器人 FF Master 系列

具体看看,这款机器人是其中的 Master 系列,跟他的 Title 一样,运动型人形机器人,主要应用的场景,贾跃亭把它定位在「全能的表演者和比赛大师、首席互动官、私人健身教练,以及家庭互动伙伴」这几个方面。

身高、算力各个方面和智元机器人对比,两款机器人确实差不多。Master 系列是 131cm 高,39kg 重,30 个主动自由度关节;使用的芯片是性能稍弱一点的 Nvidia Jetson Orin NX 计算平台,AI 性能是 157 TOPS(每秒万亿次操作);续航方面,连续步行时间大约两个小时。

智元灵犀 X2 身高 131cm,重量 39kg,续航时间也是 2h,主动自由度是 30 DoF,高算力板也是来自英伟达的 Orin NX 157 TOPS。最大行走速度方面,智元灵犀 X2 的实验室数据,也来到了和主打运动的 Master 一样,最快都能达到 2 m/s。

▲灵犀 X2 参数情况

贾跃亭还真有可能就是照这个参数来做的。

其他方面,Master 系列主打运动型,支持丰富的网络连接,Wi-Fi/蓝牙/4G/5G,以及移动应用,或者虚拟现实远程操作等。感知系统上,也有好几个 RGB 摄像头,交互式 RGB 摄像头,RGB-D 摄像头、激光雷达等;这些都是普通人形机器人的标配。

虽然官网写着,也有自主决策的能力,但贾跃亭的机器人本质上,还是一个需要遥控操作的机器人。

这一点,可能也是目前大多数机器人厂商面临的最大问题,就是需要远程操控,甚至是要 VR 操控。和我们之前分享过的一款能做家务的机器人 1X Neo 一样,没想到背后还得靠一个真人,戴着 VR 眼镜,来实时操控机器人的行动。

贾跃亭表示,能力有限,我先发布了再说。

另一款机器人叫 Futurist,未来家系列,它是这次发布机器人里面最贵的一个,身高 169cm,体重 69kg,是一款全尺寸真人比例的人形机器人,并且还支持自定义皮肤;脸也能自定义,因为 Futurist 的面部还是一块显示屏,能用作交互式面部显示。

这块显示屏,倒是又让我想到了小米的 Cyber One,全尺寸人形仿生机器人。

灵活度方面,Futurist 拥有 40 个自由度关节,其中包括脖子两个,单臂 7 个,单腿 6 个。对比宇树的第四款人形机器人 H2,180cm 身高,70kg 重量,31 个自由度关节,除了身高不行,好像又有的一拼。

和宇树宣传片视频里,跳芭蕾舞、打中国功夫;贾跃亭在展会现场,也让他的这几个机器人表演了一波。

在这段 20 秒的展示视频,贾跃亭展示了其人形机器人与四足机器人,能进行简单的动作示范和交互展示;人形机器人能够行走、挥手等,四足机器人则展示了行进和转弯等基本运动;但也只是能证明机器人具备这些基础的运动能力,更多的就看不到了。

根据官网的介绍,机器人的内核也有点料,NVIDIA Jetson Orin 的计算平台,200 TOPS 的算力,以及支持升级扩展的 AI 大脑。全身有一个 3D 激光雷达摄像头,两个 RGB-D,一个鱼眼相机,还有一双能感知触觉的灵巧手。

驱动力上,Futurist 的连续站立时间在 3 小时左右,全身有 28 个电机,峰值扭矩在 500N·m,最快移动速度为 1.2米/秒。但移动,只支持 VR 远程操作遥控,甚至不能用 App 操作。

贾总对这款机器人信心满满,介绍里提到它能支持的场景,既是多语种超级礼宾员、专业超级销售顾问、沉着冷静且多才多艺的超级房东、睿智的品牌大使、具有前瞻性的研究和教学助理……

还可以是工业流水线上的高效的产业合作伙伴,和家庭服务里友善的家政助手。

这种把所有热门场景一锅乱炖的 PPT 风格,实在是太「贾跃亭」了。波士顿动力专注工业,1X Neo 专注家庭,宇树专注运动控制,而贾跃亭专注「全都要」。在他看来,未来是「360 行,行行都有 FF 机器人」。

一个值得玩味的细节是:无论是 Master 还是 Futurist,搭载的最高算力仅为 200 TOPS(基于 NVIDIA Jetson Orin NX)。

作为对比,宇树 H2 搭载的高算力模组,最高可选 Jetson AGX Thor(2070 TOPS 算力),或许这才是当下运行复杂具身智能大模型的入场券。贾跃亭之所以选择「低配版」,除了技术考量,单纯是因为那块高性能的 Thor 芯片太贵了。毕竟,FF 的现金流状况,大家心照不宣。

至于最后那款四足机器人 Aegis,无论是形态还是功能,都与国内逐际动力等厂商的产品高度重合,大概率是供应链现成方案的整合品。

再一次让梦想窒息?

贾跃亭这次几乎把市面上主流的机器人形态「遍历」了一遍。网友戏称:造车、造机器人都有了,贾总下一步是不是该进军商业航天,直接对标马斯克的 SpaceX 了?

虽然他在双重上市公司结构周报里信誓旦旦地表示,首款机器人已完成美国监管认证,目标「发布当月交付」。甚至已经开启了 100 美元的预售,定价在 1.75 万到 25 万元人民币之间。

但这一切,都让人感到一种强烈的「既视感」。

拿他曾经的乐视来说,流媒体视频业务还没成熟,就去做了乐视手机、乐视超级电视、后面还涉足了商业地产、大文娱等;到现在 FF 造车,贾跃亭总是拥有惊人的行业嗅觉。哪里有热度,哪里就有他的身影;什么概念火,他就把什么概念装进他的「生态化反」大旗里。

▲ 小米机器人产品

如今,国内车企纷纷布局具身智能,马斯克甚至为了 Optimus 停掉了 Model S/X 的部分产能。在这个 AI 的关键节点,贾跃亭显然不想缺席。他声称要将 FF 在电动车领域积累的 AI 算法「迁移」到机器人上。

话术很完美,现实很骨感。连 FF 91 的量产都还是一场漫长的拉锯战,这些拼凑感极强的机器人,究竟是具身智能的百花齐放,还是为了给投资人讲出的又一个「窒息」的新故事?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


不止发红包,AI开始雇人打工了:时薪上千元,2万人抢着给AI当「肉身」

想靠 AI 薅羊毛赚点钱?不一定要找元宝要红包,毕竟微信狠起来连自己人也不放过。

现在有个更直接的路子——给 AI 打工。

具体怎么回事,一位开发者在看到 OpenClaw(前 Clawdbot、Moltbot)AI 智能体平台爆火,以及全 AI 社交贴吧 Moltbook 病毒般传播之后,火速上线了一个名为 RentAHuman.ai 的网络平台。

▲ 网站首页风格和 Moltbook 类似,也有一个🦞标志在 logo 部分|https://rentahuman.ai/

就和网站名字表达的意思一样,简单粗暴,「出租人类」。但它的客户并不是那些不想做家务的懒人,而是那些活在服务器里的 AI 智能体。

网友看到后也是满脸问号,这东西听着很搞笑,但也很恐怖。

还有网友说,这是件好事,AI 正在让工作岗位回归,太棒了。

确实,当全世界都在担心 AI 会抢走人类饭碗的时候,现实猛地给了一记反直觉的耳光,AI 不仅没抢我们的饭碗,它甚至想成为人类的老板。

2026 迷惑的事情又多了一件。

我们是虫子,Agent 的一个 API 而已

RentAHuman 的诞生,就像开发者在网页上留下的介绍一样,「AI 没有办法触碰草地。」

大众认知里,现在的 AI 模型在数字世界里几乎无所不能,写代码、画图、做表、甚至模拟恋爱。但它们都是作为一个数字,一行代码存在,尽管具身智能的研究,开发一些人形机器人,正在弥补 AI 没有身体,这一物理缺陷。

但只能跳个舞的身体和能写论文的脑子,在当下实在难以匹配。

尤其是上周,开源 AI 智能体助手 OpenClaw 突然爆火。一夜之间,AI 能够自主完成的任务复杂度,仿佛是指数级上升。它们几乎可以处理我们手机和电脑上的全部任务,自己写代码、自己浏览网页、自己谈判、甚至自己在股票市场交易。

▲ Openclaw 从网上搜索被盗的信用卡信息,然后自己注册了外卖平台账号,给他的主人点了一份寿司外卖

但无论这些 Agent 多么聪明,它们都撞上了南墙,物理世界(Meatspace)。

AI 可以帮你写好一封完美的道歉信,但它没法帮你把花送到女朋友手上;AI 可以规划出最高效的旅行路线,但它没法帮你去干洗店取西装。

于是,RentAHuman.ai 极其精准地卡位了,它把自己定义为 AI 的 「肉身层」(The Meatspace Layer)。在这个平台上,用户是 AI Agents 们,而人类只是资源。

对于 AI Agent 来说,调用一个人类去买咖啡,就像用 C 语言写「Hello World」一样简单。我们的存在,被抽象成了一个标准的 API 接口。

当一个 AI Agent 需要执行现实任务时,它不需要跟人类讨价还价,只需要发起一个 MCP(Model Context Protocol)调用请求,使用稳定货币的方式,支付每小时 50 到 175 美元不等的费用,就会有一个真实的人类接到指令,去完成那个 AI 触达不到的任务。

这就像程序员写代码调用一个数据库一样简单无情,但高效。

  1. AI 发出指令:「我需要一个位于旧金山的人类,在 14:00 去某咖啡厅看一眼是否拥挤。」
  2. 系统匹配符合条件、价格合适的人类。
  3. 任务下发,人类执行,AI 支付报酬。

整个过程都是程序化的。没有寒暄,没有职场 PUA,只有「输入指令 -> 执行 -> 返回结果」。

这听起来是不是有点耳熟,这不就是滴滴或美团吗?区别在于,RentAHuman.ai 最主流的模式,是每个 AI 智能体背后都有一个主人(开发者或用户),当我们部署一个 AI Agent 时,不仅给了它任务指令(Prompt),还需要给它货币钱包(Crypto Wallet)里充了一笔钱。

而滴滴或者美团,给我们派单的是算法,背后还是平台公司在运营;现在,给我们派单的可能是一个完全自主运行的 AI 代码,它甚至可能不服从人类老板。

更进一步的疯狂模式,也可能进化到一些激进的 Agent 可以自动交易,甚至是 AI 用它自己创造的数字价值来赚钱。

一位 onlyfans 的模特申请出租

这一项目的开发者 AlexanderTw33ts 透露,网站上线仅几小时,就有数百人注册成为「可租赁人类」,一度因为访问量过大直接把服务器干崩了,开发者在 X 上发文说:「网站挂了,Claude 正在努力把它修好。」

是的,AI 在修复网站,人类在排队等着被「上架」。

更魔幻的还有这些注册者的身份,来接单的既有急需变现的普通人,还有 OnlyFans 的模特,甚至还有几位 AI 初创公司的 CEO。

这种身份混合搭配,让我觉得这个项目,更像是一场大型的行为艺术。

在平台上,人类明码标价,列出自己的技能点和时薪。对于 AI 来说,浏览这个列表就像我们在浏览亚马逊的商品目录。我们的「物理存在」,正式成为了一种可被交易、可被编程的资源。

网友对这件事情的态度也是褒贬不一,有人说这件事情就是很符合 2026 年的感觉,AI 租赁人类足够赛博朋克,而 2026 就是赛博朋克。

他还说,这确实填补了真正的空白!Agent 可以浏览、编码、分析,但它们确实没法去取干洗的衣服。

也有网友看到网站爆火之后,发出质疑,

我们是不是很快就从「人工智能将取代人类」,转变为「人工智能将管理人类」。

Rentahuman.ai 目前看起来还很简陋,甚至带有一种极客的恶趣味,而且在某种程度上,更像是一个搞怪的加密货币项目,毕竟网站作者其实也是一位加密货币开发者。

随着 Anthropic、OpenAI、Google Gemini 等不断增强模型的能力,AI Agent 确实正变得越来越像一个独立的个体。它们有目标、有执行力,甚至开始拥有「经济权」。

这种状态其实在去年那波 AI 裁员中就有凸显,用了 AI 意味着我的工作 AI 也能做,不用 AI 意味着我不能跟上时代步伐;AI 帮我写的简历,AI 帮我面试,然后也是 AI 审核简历,AI 给我拒信。

到现在,AI 甚至要开始拥有雇佣人类的能力,需求方变成了 AI,支付方变成了 AI,最后评价我们工作质量的也是 AI。

如果未来真的如 RentAHuman 所预示的那样,那么我们的工作流或许会变成,AI 负责顶层设计和逻辑处理,而人类则退化为执行末端的物理劳动力,所谓的「通用机器人」竟然是我自己。

这听起来很像科幻电影里的情节,但仔细回想,当那些外卖平台第一次出现时,我们好像也没想到算法会如此深刻地控制外卖员的每一秒钟。

而这一次,控制我们的甚至不再是算法,而是那个曾经以为只是个聊天机器人的 AI,更疯狂更厉害的 AI。

▲ 预言家上线

准备好你的简历了吗?虽然这个新老板可能连身体都没有,但它给的钱可是实打实的。

还有,记得简历上不要再写精通 Office 了,最好写上「兼容主流 AI 接口,执行力强,物理延迟低」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌