普通视图
刚刚,马斯克二代星舰最后一飞成功了!彩蛋:黄仁勋亲自上门送超算
星舰 V2 的谢幕演出,来得比预想中更加顺利。
就在刚刚,星舰第 11 次飞行任务圆满完成——15 号助推器再次征战,8 颗星链模拟器完美部署,隔热瓦被故意移除接受极限测试,飞船在印度洋上空完成最后的爆炸溅落。
这是星舰 V2 版本的最后一飞,也是 SpaceX 迈向星舰 V3 时代的转折点。马斯克此前多次表示,星舰是一个持续迭代的系统,而 V3 则是未来实现登陆火星任务的关键版本。
插个题外话,英伟达 CEO黄仁勋也来到了美国德克萨斯州 Starbase 基地,把即将发货的 DGX Spark 个人超算交到马斯克手上,而早在 2016 年,马斯克就是首批从黄仁勋手中接过 DGX-1 的团队成员之一。
星舰 V2 的终点,V3 的起跑线
本次任务使用的是超重型助推器 15 号 (B15-2) 和星舰飞船 38 号 (S38)。
值得注意的是,15 号助推器是一枚经过飞行验证的飞行器,配备了 24 台来自先前任务的、经过飞行验证的猛禽发动机。此前在第八次任务中成功飞行,并完成了「筷子夹火箭」的任务。
此次测试的主要目标是验证一种新型着陆点火发动机配置,并将应用于下一代「超级重型」助推器。
让我们一起来回顾此次发射的全部过程。
位于星舰下方的超重型火箭助推器点燃了全部发动机,开始向太空爬升。
发射约 2 分半后,星舰成功完成热级间分离。上方的星舰飞船点燃自身的 6 台发动机并完成分离。据 SpaceX 介绍,这些火箭发动机产生的推力相当于 64 架波音 747 客机的总和。
而「超级重型」助推器开始执行返回推进,朝预定溅落点飞行,准备进行着陆点火实验。
具体来说,当星舰 (上级飞船) 和助推器分离后,助推器需要返回地球并尝试着陆。第一步是进行姿态翻转,让发动机朝向正确方向,以便点火减速。
翻转后,助推器点燃发动机进行反向推力。这相当于制动,让助推器逐渐脱离上升轨迹,转向预定的下降轨迹。
在此次助推器着陆点火阶段,首先点燃 13 台发动机,随后切换为 5 台发动机进行转向。此前这一阶段使用 3 台发动机,而下一代 V3 版「超级重型」计划使用 5 台发动机,以增强在发动机意外关闭时的冗余能力。
此次着陆在美国墨西哥湾近海区域进行,不会返回发射场捕捉,实验成功,现场工作人员爆发出热烈掌声。
一次发射顶 20 次,马斯克押注星链 V3
星舰上级在太空中同样需要执行多个任务,包括部署 8 颗星链模拟器。这些模拟器大小与下一代星链卫星相仿,本质上也是为未来正式发射 V3 卫星进行的实战演练。
每个模拟器重约 2000 公斤,总载荷质量约 16000 公斤。这些模拟器将与星舰处于相同的亚轨道轨迹,并将随飞船一同再入大气层销毁。
整个部署过程非常顺利,每次部署耗时约 1 分钟。
飞船侧面的大型舱板——被称为「有效载荷门」的舱口打开后,开始释放模拟卫星。与其他火箭通常通过鼻锥释放卫星不同,星舰采用侧边舱门设计,必须打开这道侧门才能将卫星释放到太空。
如果看过之前的测试,会记得以前卫星释放时有些卡顿,但由于星舰团队对滑轨系统进行了改进,所以这次释放过程相当流畅。
按照规划,SpaceX 希望星舰能够尽快接手卫星发射任务,取代目前用于此任务的猎鹰 9 号,成为主力运载工具。
未来星舰将部署更先进的 Starlink V3 卫星,运载效率更高,每公斤货物入轨成本更低,每次发射能为整个网络增加 60 Tbps 的容量,以及是目前猎鹰 9 号单次发射容量的 20 倍。
除了卫星部署,本次飞行还成功完成另一项重要测试——在太空环境下重新点燃一台猛禽发动机。整个过程旨在模拟星舰如何执行「离轨点火」操作,也就是在完成太空任务后,通过机动将飞船引导返回地面的过程。
故意移除的隔热瓦,是对极限的最好尊重
星舰表面覆盖着数千块隔热瓦,它们彼此紧挨着排列,中间留有微小缝隙。
之所以要留缝隙,是因为下方的金属结构在受热时会膨胀和收缩,这样可以避免瓦片之间挤压碰撞造成破裂。但问题是,这些缝隙有时会让高温等离子体渗入,导致瓦片边缘和下方的金属区域被过度加热。
上次第十次飞行,星舰表面出现了局部烧蚀与表皮翘起。经查明是因为推进剂排放过程中有少量固体推进剂堆积,被静电放电或等离子体点燃,烧损了部分躯体和部分襟翼。
这一次,SpaceX 依然故意从飞行器的脆弱区域移除部分隔热瓦,使底层结构暴露在再入热流中。甚至,部分被移除隔热瓦的区域没有备用烧蚀层,也让测试风险显著增加。
基于第十次飞行中热量从瓦片间隙渗入的教训,此次飞行更广泛地应用了一种名为「Crunch Wrap」的材料,简单来说,这是一种耐高温毡材料,包裹在瓦片之间的缝隙处。
这样当瓦片排布在一起时,缝隙之间就有了一层保护,能够有效阻挡高温等离子体的渗透。
这些努力都是为了实现最终目标——打造一艘完全、快速可重复使用的飞行器。以前在多艘星舰上测试过这项技术,但今天可能是首次将其覆盖到整艘飞行器上,这也是本次任务的重要看点。
在未来星舰每天多次飞行的场景中,将需要成千上万块隔热瓦。
SpaceX 解说表示,目前美国佛罗里达发射场的全自动制作工坊每天能生产约 1000 块瓦片。
但其设计产能是每月为 10 艘星舰提供足够的瓦片,相当于每天生产 7000 块,或者平均每 13 秒就能下线一块瓦片,目标是朝着为火星任务甚至更远目标全面配备星舰隔热瓦的方向发展。
星舰的迭代哲学,就是用失败换进步
为了给未来的返回发射场着陆 (RTLS) 收集数据,飞船的再入剖面比以往的飞行要复杂得多。
在其轨迹的最后阶段,飞船将执行一次「动态倾斜机动」。
也就是说,在仍处于超音速甚至高超音速状态时,飞行器会故意进行一定幅度的侧倾偏航,模拟从海上再入后,为精准对准陆地发射场而必须执行的横向机动过程。
进入亚音速阶段后,飞船还会在「腹部着陆」姿态开始前,再次进行一次幅度更大的转向,以测试接近塔架着陆所需的最终修正能力。据解说表示,这一整套飞行路径,基本就是未来星舰完成降落时将采用的程序。
不过,由于本次任务不涉及回收,星舰最终还是按计划在印度洋溅落,并在触水后发生爆炸。
简言之,此次飞行是 V2 版本星舰的最后一次任务,但本质上都是在为 V3 乃至更远的版本铺路。
比如收集下一代「超级重型」助推器的数据、对星舰隔热瓦进行极限测试, 以及验证未来返回发射场时上级飞行器所需的机动动作。
此外, 本次发射是 Starbase 基地现有发射台在当前配置下的最后一次使用。之后该发射台将进行大规模改造, 以支持未来更大规模的 V3 和 V4 星舰发射任务。
这种「边飞边改」(即通过实际飞行来测试和验证技术, 而不是在地面进行漫长的模拟)的策略风险很高, 但效率也更高。迭代速度, 在传统航天领域也几乎是不可想象的。
这或许就是马斯克式创新的核心——用更快的失败和迭代, 换取更快的进步。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
阿里首款 AI 眼镜抢先体验:这个设计让我戴一天也不用「充电」,夸克 AI 真上头了
7 月的世界人工智能大会,阿里发布了首款自研 AI 眼镜——夸克 AI 眼镜的技术进展,在这几天的 NAB 中国赛现场,APPSO 终于首次体验到了。
AI 眼镜今年依旧火爆,Meta 不久前推出了首款带屏幕的 Meta Ray-Ban Display ,苹果的 AI 眼镜也在筹备中。不过目前为止这个品类更多还是极客们的玩具。
夸克 AI 眼镜看起来就是一副普通眼镜,平平无奇,那它在汇聚了阿里 AI 和应用生态,到底能带来什么新的体验?APPSO 带你看看。
第一印象:它首先是一副好戴的眼镜
前段时间在我们体验 Meta Ray-Ban Display 的视频里,引起用户互动最高的一个细节大大出乎了我们的意料:数主播扶了多少次眼镜。
这是因为 Meta 眼镜设计是根据欧美人的鼻梁设计的,加上比不带屏幕的 Ray-Ban Meta 还重了不少,所以出镜主播在视频里得频繁扶眼镜。
但夸克 AI 眼镜的佩戴体验让我有点惊喜,我平时并不戴眼镜,所以对鼻梁上多点东西还是比较敏感的,这次我戴着他逛了一段时间,第一感觉是非常轻,没太多负担。
可以看到,夸克 AI 眼镜的镜腿和镜框,其实已经和普通眼镜差不多,几乎在我们体验过的多款 AI 眼镜中最轻薄的。
我专门问了下产品经理,他们为了把镜腿和镜框做到极致纤薄,内部元器件和镜片采用了特殊工艺,让整个眼镜看起来就跟普通镜框一样通透 。
更巧妙的是,它的鼻托和镜腿末端的弧度都经过了特殊设计,能把重量均匀地摊开,戴久了也不会在鼻梁上压出印子 。
我甚至戴着它直接上场打了会儿球。你猜怎么着?跑、跳、投篮,这眼镜就跟长在我脸上一样,稳如老狗,这简直就是为第一人称 Vlog 而生的天选神器。
夸克 AI 眼镜随手拍出的视频画质已经相当能打,更「骚」的操作是,它还能通过云端部署的 AI 超分、插帧算法,直接把视频「一键开挂」到专业水准 。
即使是在光线昏暗的地方,它也能拍得清楚。据悉夸克 AI 眼镜团队专门研发了 Super Raw 暗光处理算法,有效抑制了噪点,显著提升了图像信噪比 。
这在智能眼镜上还是头一次见。
阿里巴巴智能终端负责人宋刚曾在采访中介绍,这种技术在手机行业属于常规操作,但受限于算力等各种原因,目前还没有一家眼镜厂商做到 。
AI 体验怎么样
当然,拍照录像对 AI 眼镜来说只能算是「基操」。
但真正让我直呼「好家伙」的,是夸克把自家大量 AI 能力塞进了这副眼镜里 。
我对着场边一件球衣随口问道:「夸克同学,这是谁的球衣?」
在它拍照识别后,镜片内答案很快浮现,不仅认出了球衣主人,连相关背景给你补得明明白白 。
这背后,是夸克多模态大模型结合百亿级图片检索能力在发挥作用 ,这种「所见即所得」的交互也更自然。
需要说明的是,由于屏幕内画面通过拍摄展示出来的清晰度有限,实际佩戴的显示效果会更清晰。
逛街看到心动的东西,也不一定得掏出手机查同款。
「夸克同学,这双鞋多少钱?」
型号、价格,一气呵成地出现在眼前 。
值得一提的是,我身处的 NBA HOUSE 现场是非常嘈杂的。但我也不用刻意提高音量,只是正常音量说出唤醒词,眼镜就能立刻响应。
更重要的是,它听得懂「人话」。我可以在一次提问包含多个指令,眼镜内置的大模型中控系统,就会自己琢磨我的需求,实现多意图、多轮对话 。
它没有机械地执行,而是像一个真正的助理那样理解了我的需求,再帮我完成任务。
简单有效的换电设计
续航,一直是约束智能眼镜全天候的佩戴最大的因素之一。夸克 AI 眼镜给出的解法堪称简单粗暴又极为有效:换电 。
镜腿本身就是一块电池,通过热插拔技术,用户可以像换笔芯一样,通过「一拔一插」的简单动作快速更换主电池 。即使在眼镜运行状态下也能直接更换电池,不会导致设备关机或数据丢失 。
夸克还准备了一个只有耳机盒大小的便携充电仓,可以随身携带备用镜腿 。
这还没完,他们也尝试从根源上就着手解决功耗问题,这款采用了双芯设计,这意味着眼镜在待机时会跑在低功耗的辅芯片上,只有在处理复杂任务时才会启动主芯片,从而大幅提升了能效 。
这一通操作下来,基本能实现全天候续航,再也不用把眼镜摘下来充电。
在现场体验了半天,我发现自己确实有几次没有下意识地去掏手机。我感觉夸克 AI 眼镜给自己的定位也很明晰:它首先是一副好看、好戴的眼镜,然后才是一个有用的智能终端 。
说实话,作为一家互联网巨头,夸克 AI 眼镜在硬件上花的心思有点超出我的预期。
因此我更期待的是,当它将阿里应用应用整合进来后,会不会给 AI 眼镜这个品类带来新的玩法。目前的大多 AI 眼镜买回来除了拍照、听音乐,很快就沦为吃灰的电子玩具 。
正如宋刚所说:「现在市面上的 AI 眼镜,用户买回去除了拍照、听音乐,真正的应用场景太少了。这不是硬件或者 AI 技术本身的问题,而是缺乏真正有价值的服务生态。」
夸克 AI 眼镜不一样的是,它天生就「含着金汤匙」你不能把它当作孤立的硬件看待。它是有机会整合用户的高频刚需场景,而非为了眼镜而眼镜的功能。
骑车时,高德地图的导航箭头直接投射在眼前。
逛街看到心动的商品,淘宝比价功能让你瞬间化身「行走的识货 APP」。
买单时,支付宝的「看一下支付」让你体验一把科幻电影里的无感支付 。
出差途中,飞猪和阿里商旅的行程提醒会适时出现 。
宋刚认为,AI 眼镜将成为人类另一双「眼睛和耳朵」 ,是继 PC 和手机之后,是手机之后下一个具有想象力的移动入口 。
想想看,现在能随时让 AI 见你所见、听你所听,随时跟你对话的设备,还真就是眼镜。这也是 Meta 苹果这些巨头纷纷布局的重要原因。
不说太远,AI 眼镜要是真能减少我掏手机的次数,将那些快速查看和即时交互的操作,都通过更自然、更直觉的方式在眼镜上完成,就是一个十分有价值的产品。
如果未来我们真的会拥有一个随身的超级 AI 助理,可能就从这里开始。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
我去看 NBA 中国赛,结果被阿里云 AI 变成了球队「第六人」
朋友们,以后谁再跟我炫耀他去看 NBA 比赛,只是晒门票和山顶照,我都会笑而不语。
NBA 中国赛时隔六年回归,作为一个老球迷,原本我只想一睹球星的风采,买几件球衣和纪念品在朋友圈炫耀一番。
但接下来发生的事,直接把我多年的观赛经验给「Duang」一下,干刷新了。
在比赛官方暂停,全场灯光一暗,大屏幕亮起。我跟周围人一样,下意识整理了下发型,以为是老套的 Kiss Cam 环节要来了。
结果,神奇的事发生了。
镜头先是扫过观众席,定格在一个穿着篮网队球衣的粉丝身上,马上AI 就把他变成了真人手办,出现在球场大屏幕上。
一样的发型,一样的球衣,连激动得有点傻的表情都神同步。全场先是愣了半秒,然后爆笑,接着就是此起彼伏的「Wow!」原来是阿里云和 NBA 在搞事情。
除了比赛现场 AI 的酷炫展示,球场外给球迷粉丝准备的 NBA House 展区更是人头攒动。
APPSO 在现场体验了一圈,我发现在这届 NBA 中国赛,AI 才是隐藏的 MVP。
说实话,虽然有着 AI 媒体编辑和 NBA 球迷的双重身份,但一开始我对「AI+体育」这概念是不太感冒的。
为啥?这些年见过太多为了 AI 而 AI 的东西——看着挺唬人,用起来嘛…emmm,你懂的。
不过在比赛开始没多久我就被惊到了。
球员一次突破抛投,全场沸腾!就在大家意犹未尽时,大屏幕突然回放了刚才的瞬间。但这不是普通的回放。
画面仿佛被凝固了,镜头 360 度环绕着空中的球员,他滞空的每一块肌肉线条、球衣的褶皱都清晰可见。
时间在这一刻被切片、被拉伸、被重构,那种视觉冲击力,让我起了一身鸡皮疙瘩 。
这就是传说中阿里云的「360 度实时回放技术」!
感觉就像《黑客帝国》里尼奥躲子弹的经典镜头。搬到了 NBA 现场:时间仿佛凝固, 镜头 360 度旋转, 你能从任意角度观察同一个瞬间。
当然,不同于电影里精心设计的特效,我在 NBA 赛场上看到的则是实时生成的比赛画面。
通过环绕赛场布置的多机位阵列,结合通义大模型驱动的空间智能算法,可以捕捉并进行云端三维重建。由此呈现出赛场球员们「时空凝结的环绕视角」和「时间切片的轨迹捕捉」的两种视觉效果。
从捕捉到大屏播出,整个流程只需 15 秒。换言之,你可能还没反应过来刚才发生了什么,回放就已经制作完成并播出了。
这是 NBA 中国赛首次应用此项技术,也是现场观众首次可通过大屏直观看到 AI 驱动的沉浸式赛事回放。有些平时在直播里被遮挡的细节,比如球员起跳前的蹬地动作,空中的身体对抗,这些都能通过 AI 重建清晰呈现。这对于篮球技术分析爱好者来说,妥妥的黑科技。
而最令我狂喜的,是我不仅能看比赛,甚至还有机会成为全场最靓的仔。
球场大屏还会通过现场摄像头捕捉身穿球衣的球迷形象,随后由阿里云 AI 生成专属「球迷潮玩」——穿着主队球衣,配合动作,以「球星收藏手办」的形式展现在屏幕上,并与真人同框对比。这是 NBA 赛场上呈现的的首个 AI-CAM Show,是将赛事观看与球迷互动的一次深度重塑。
基于阿里云强大的人工智能平台 PAI 与通义大模型算法,NBA 团队真正做到了让球迷成为主角表达心中热爱,让每个人都有机会拥有此生难忘的梦幻瞬间。
让我康康哪个幸运儿登上大屏幕了。
现场的氛围组直接拉满,每次大屏上出现球迷 Q 版形象,周围都会响起欢呼声。
以往的 NBA 那些游戏环节,大多数人都是看客。但这个 AI 手办不一样,它让我感觉自己不是观众,而是赛场上的「第六人」,每个普通球迷都有了成为焦点的可能。
这波操作,属实是把人性拿捏住了。
赛场外,NBA House 的互动区同样也布置了「AIGC 手办一体机」。我直接站到镜头前拍一张照片,十几秒钟后,屏幕上就会生成一个穿着主队球衣、脸和我高度相似的 Q 版手办形象。
操作简单到感人,就像拍大头贴。
这感觉,比我抢到限量版球鞋还满足,因为是真正属于我自己的、独一无二的 NBA 周边。
我在现场体验了好几次,发现基本不需要担心抽卡和翻车,通义大模型的精准控制、就像一个经验老道的画师,不仅能够保持 AI 手办风格生成的一致性,基本能做到精准还原,整个视觉效果,直接帅到没朋友。
在我回酒店的路上,我发现朋友圈和小红书开始被各种「脑洞大开」的 AI 手办刷屏了。各种「NBA 手办生成」、「我变成 Q 版球星啦」的帖子铺天盖地,网友们也是玩得不亦乐乎。
AI 手办就像一种新的社交货币,让每个球迷都能在自己的主场 C 位出道。
当然,好比赛得配好解说,但你有没有想过自己成为解说?
这不是开玩笑,还真能实现。同样在场外的互动区, 我就体验了一个名为「CosyVoice 2.0 X NBA 球迷 AI 解说体验」的项目:录制 10-15 秒的任意语音, 然后系统就能用我的声音给 NBA 经典瞬间配解说。
此外,系统还支持多语言切换,想用中文解说、英文解说、甚至地道的广东话解说都行,AI 全都能高保真模仿出来。好家伙,体验完 AI 解说的我,终于理解了张卫平的快乐。
现场突然人群骚动,原来是「马政委」马布里来打卡了。他也生成了的专属 AI 手办,老马笑得合不拢嘴,还当场打印出了一张实体闪卡,估计是他第一次亲手给自己做「球星卡」 。
那表情,就像个拿到新玩具的大男孩。
你的「高光时刻」,才是 AI 给体育最好的礼物
从澳门回来路上,我一直在想一个问题,为什么这次 NBA 中国赛给我感觉这么不一样?
表面上看,是阿里云给赛事加了一堆炫酷的 AI 特效。但实际上,它是在重新定义「观赛」这件事本身。
以前,看球是单向的。我们坐在看台上或屏幕前,球员在场上挥洒汗水,我们在场下呐喊打 call。中间隔着一道无形的墙,你是你,比赛是比赛。
但现在,AI 把这道墙打破了。
比方说 AI 手办让你不再只是观众,也成了「赛场的一部分」。你的形象出现在大屏幕上,你的手办被打印成实体卡,你的创作在社交网络上传播。
这种参与感,是前所未有的。
而「360 度实时回放」带来的沉浸感,也是传统转播无法比拟的。通过 AI 解说,你甚至可以成为比赛的「叙述者」。
这才是这次 NBA 中国赛最有意思的地方:AI 不只是提升科技感的气氛组,而是在改变「人与体育」的关系,让它变得更可触摸、可互动、可分享。
你不需要懂什么是「通义大模型」,不需要知道什么是「三维重建」,你只需要拿起手机拍张照,或者抬头看看大屏幕,就能享受到 AI 带来的体育乐趣。
NBA 有句经典的广告语:Where amazing happens(奇迹诞生之地)。在 AI 时代,能够给体育赛事创造奇迹的,可能不再只是那些球队和球星,它会变成一个巨大的、开放的、可参与的「数字游乐场」。
每个人都能在其中找到自己的位置,创造自己的故事,留下自己的印记。
回想起大屏幕上那个酷炫的「我」,我突然开始想象:
未来的某一天,我们是不是可以戴上 AR 眼镜,和 AI 生成的艾弗森一对一斗牛? 我甚至不只能把这个过程制作成 AI 手办图片,还能 3D 出来珍藏。
是不是可以让 AI 分析我的投篮姿势,然后生成一套专属的训练方案?是不是可以在虚拟的球馆里,和全世界的球迷一起「云观赛」,每个人都有自己的专属视角?
这些听起来像科幻的场景,在看过这次 NBA 中国赛之后,我觉得并不遥远了。
好了,不说了,我得去朋友圈更新我的 AI 手办九宫格了。
作者:李超凡、莫崇宇
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
苹果截胡马斯克抢到 AI 人才,想给 HomePod 加个「智慧眼」
没想到在 AI 上慢半拍的苹果,最近也加入到了如火如荼的「AI 抢人大战」中,还抢到了马斯克的头上。
CNBC 报道,苹果正在收购视觉 AI 初创公司 Prompt AI 的工程师和技术,目前已经推进到后期谈判,而这家公司此前也曾与埃隆 · 马斯克旗下的 xAI 和 Neuralink 接触。
▲ 苹果 CEO 蒂姆 · 库克
Prompt AI,什么来头?
一段内部录音显示,Prompt AI 的领导层在一场全体会议上通报了这次收购交易,并表示那些没有加入苹果的员工将会被降薪,鼓励他们去申请苹果的空缺职位。
这些小型 AI 初创公司一直是科技巨头这几年青睐的收购对象,既能避免反垄断审查,也能有针对性地快速补充公司本身的 AI 和技术积累。除了苹果,公司员工仅有 11 人的 Prompt AI 此前也接触了像埃隆 · 马斯克旗下 xAI 和 Nerualink 公司这样的潜在买家。
对于当初的投资者,Prompt AI 也表示会在交易完成后提供一部分资金回报,但不会全额返还投资。
那么,这家公司究竟是什么来头?
Prompt AI 于 2023 年在旧金山成立,当年获得了 500 万美元种子轮融资,创始人包括现任 CEO,北京大学和加州大学伯克利分校毕业的博士 Tete Xiao,以及伯克利 AI 研究实验室创始人 Trevor Darrell。
值得一提的是,从公司展示的团队页面来看,除了 CEO 之外,Prompt AI 还有不少成员也是华人。
这家公司的旗舰产品名为「Seemour」,官方称其为「具有家庭空间理解能力的环境人工智能(Ambient AI)」。
具体来说,Seemour 是一个智能安防摄像头 AI 系统,能够智能识别家庭中的特定成员、宠物和其他物体,针对他们的具体行为生成文字提醒,还能用于警告用户潜在的可疑人员和野生动物,也可以用在办公室来识别员工的上下班情况。
Prompt AI 的核心技术就在于这个识别系统,能够在一秒不到处理数千万像素,从中获得多特征的视觉线索,因此能实现相对可靠的人物和动物识别,系统还会在不同的条件下不断提升识别准确率。
除此之外,Prompt AI 还有专门用来处理复杂视频的多模态大语言模型,摄像头会记录大量的日常生活视频素材,但用户不需要逐个点开查看,Seemour 能够理解这些视频中的行为和背景,选出其中需要用户注意的可疑片段和人物。
很明显,苹果收购 Prompt AI,就是在为自己的智能家居战略「招兵买马」。此前彭博社已经爆料了一系列苹果正在酝酿的智能家居新品,其中有一个就是「智能安防摄像头」,能力和 Seemour 高度重合——精确识别每个进入房间的家庭成员。
在被苹果收购之前,Seemour 就一直支持与 Amazon 的 Ring 智能摄像头和门铃配合使用。
和 Seemour 这种相对孤立的家庭安防解决方案不同,苹果拥有一个更加完整的 HomeKit 智能家居生态,因而能实现更丰富的自动化功能:如果摄像头检测到你回家,它会自动点亮你喜欢的灯光、播放你常听的歌单,或者给你推荐喜欢的剧;但如果是家里的小孩开电视,那么 Apple TV 可能就会播放适合儿童观看的内容;要是空无一人的时候,家里的灯还亮着,那么它也会贴心地帮你关掉。
▲ 传闻苹果正在打造带屏幕 HomePod 家庭中枢
视频识别的大模型能力,也有望能整合进苹果的「视觉智能」功能之中,增强 Apple 智能理解视频的能力。
Prompt AI 内部表示,Seemour 的整个方案以及公司的技术都运行良好,但他们只负责为摄像头提供 AI 方案,Seemour 不向用户收取授权费,很难形成良好的商业模式,被苹果这样的大公司吸收,或许是更好结局。
至于他们的 Seemour 应用,目前已经从 App Store 下架,Prompt AI 也已经通知用户相关数据将被删除,确保隐私安全。
苹果瞄准「小而美」AI 公司
比起 AI 巨头们动辄数十上百亿美元的大规模并购,苹果则更青睐小型化的 AI 初创公司。去年苹果也收购了一家很小型的 AI 初创公司 Dataklaba,同样聚焦在 AI 面部识别和情绪捕捉技术,相关技术很可能也将用于新的屏幕版 HomePod 以及家庭摄像头。
面对目前在 AI 方面持续落后的局面,苹果正在不断从外部引入一些新的技术和团队,以实现快速的补强,聚焦在小型公司上则是其一贯的做法:规模太大的公司买回来总是需要磨合很久,像是 Beats 和英特尔的基带团队,苹果都花了相当一段时间整合新的技术,和解决新员工带来的文化冲突问题。
苹果更喜欢根据公司产品功能上的需要,有针对性地采购已经成熟的技术,并整合进公司的产品之中。
比如当年的 iPhone X,苹果为了实现 3D 结构光的人脸识别,收购了 PrimeSense 这家 3D 测感技术和解决方案公司,最终成就了 iPhone 沿用至今的 Face ID 。
近期苹果关于苹果收购 AI 公司的传闻,最引人关注的还是 Perplexity 。
根据彭博社,苹果内部正在构建一个名为「答案引擎」的聊天机器人,能够爬取网络数据来回答常识性问题,不仅会有一个独立的 app,还会作为基础技术,为未来的 Siri、Spotlight 聚焦搜索以及 Safari 浏览器提供搜索的功能。
这刚好也是 Perplexity 所擅长的,苹果服务高管 Eddy Cue 在 Google 反垄断的证词中已经公开表示了对 Perplexity 「印象深刻」,而彭博社爆料称苹果内部已经讨论过收购 Perplexity 是否合理,并且约见了其领导团队,不过目前两家公司还未展开正式谈判。
▲ 用 Perplexity 搜索 Prompt AI
Perplexity 估值 140 亿美元,只有约 250 名员工,比起 OpenAI 和 Anthropic 这样估值几百甚至上千亿美元的巨头,收购难度会更低,也不用担心严格的反垄断调查。
不过,即使在 AI 初创公司中属于中型体积的 Perplexity,如果最终真的被苹果收购,也将会超越 Beats 成为苹果史上最大的一笔收购交易,妥妥也属于一次大型的收购,苹果内部当然会谨慎评估各种风险和可能性。
在上个季度的财报会议上,CEO 蒂姆 · 库克表示公司接下来会加大 AI 支出,并且会收购更多的大型 AI 企业,AI 布局将会进一步积极扩张。
Perplexity 的收购八字还没一撇,但我们接下来肯定会看到越来越多像 Prompt AI 这样的小型公司不断被苹果收入囊中,他们的技术将成为苹果正在重点发展的 AI 以及智能家居下一块拼图。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
对话 vivo OS 产品副总裁:AI 不会产生新的需求,通往远方是马车还是蒸汽机是产品形式问题
如果说智能手机操作系统的上半场,是把功能装进一个个按钮、一个个 app,那么在今年 vivo 开发者大会亮相的 OriginOS 6 则再一次印证,AI 和 OS 不可逆转的融合趋势。
除了 PPT 上多模态、推理能力、长文本处理这些热词,AI 已经不甘于成为手机系统的「功能清单」。
vivo 提出要做 UI Agent,试图让 AI 真正理解用户意图,用一次自然的请求,完成跨 App 的整场协作。
巧合的是,几天前的 OpenAI DevDay 也在谈同一件事:宣布把 ChatGPT 变成一种「操作系统」。一句话,Spotify、Canva 在对话里自动唤起;一个面板,交互就地完成。对话即应用,应用即接口。
当 OS 学会理解人,当模型学会调度应用,AI 与 OS 的边界开始变得多余,是殊途同归,还是将分岔出全新的生态?
在开发者大会演讲后,爱范儿与媒体专访了 vivo OS 产品副总裁、AI 全球研究院院长 周围,以及 vivo AI 产品总经理 关岩冰 和 AI OS 产品总监黄梓勋。
AI 与操作系统:趋势与分歧
Q:今年各家厂商都在谈「AI 手机」,但概念众多——AI 原生、智能体、AI 操作系统。你怎么看当前行业在 AI 手机方向上的探索阶段?
周围: 其实 AI 和手机一直是三个问题要解决的。
第一,一定要有大模型的能力,而且我们比行业大模型还要多一个,就是一定能够端侧化,如果不能端侧化就跟行业里用云服务没有什么区别。而且你用云能力或者是端侧化能力一定要个人化,如果不能个人化就跟通用能力没什么区别。恰恰个性化和个人化还是有价值的,因为我们每个人希望这个手机在身边能不能做做助理,管管日程。所以你会发现一定要建模型相关的能力,这是第一层,vivo 在这方面做得很扎实。
第二,AI 和手机的结合,我以「理工男」的角度是做两件事情:1. 手机系统能力的 AI 化,去年我们也做了 Writing to Ask、Image 这些公共的能力(系统的能力),你一定要有这样的能力才能给上面做应用。2. 除了这个能力外,我们厂商能做很多部分,手机用户能够感受到的也有 100 多个模块,这些能力肯定要自己先做,我们把它做一个「通控设施组」(通知中心、控制中心)我们自己有一个口诀。但是用户用手机,手机厂商只占了 15% 的时长,还有 85% 的时长是由开发者给我们的服务和能力提供的,特别是头部的互联网厂商又在这 85% 中占了 80% 或者是 70%,他们的参与度还是非常重的。
所以,第三个问题是对于上层的服务中还有 85%,这些事情应该怎么做?我们在这里面要分两件事情来做:第一是愿意跟我们握手,一起的就坐下来商量来做。第二是 AI 时代到来了,是不是需要有一个全新的江湖地位和影响力,这个就留给时间晚一点来回答也可以。
我们觉得 AI 和手机的融合,我大概把它分成这三层:下面的是大模型和能力,中间的系统基础能力建设,基础能力建设。真正到上层的应用,我们做厂商的和三方的就分成两块来做,像阿里愿意做的就坐下来做,还有一些不愿意做的就留给时间。这些是 AI 和手机融合以及 Agent 相关的问题是这样来对待和处理的。
Q:前几天 OpenAI 宣布要做操作系统,一个很大的变化叫作「对话即应用」,我们可以直接在 ChatGPT 上调用 figma、spotify 这种应用的功能。我们知道手机是是互联网时代很重要的入口,现在大家就觉得未来会不会直接在巨大的 AI 对话中就成了一个关键入口,作为手机厂商 vivo 怎么看这个趋势?
黄梓勋: 我们作为手机厂商确实跟 ChatGPT 这样的公司有不同的角度,一方面我们有蓝心小 V 这样的 AI 助手,它确实是对话式的调用应用和能力,这方面要持续建设的。
另一方面是用户使用手机的时候,比如说该打电话的时候会打开电话应用,打车的时候会打开打车应用,这方面不会刻意的一定要用对话去解决,比如说整个系统的意图框架能够更快满足用户对于应用的调用,甚至是对于三方 Agent 的调用,这是我们认为最合适的方式。
比如说大家现在看到通过原子岛推荐出来的可能是一个服务的接口、服务的入口,但是也可能逐渐推荐出来是三方的 Agent,你要用对话去推进 Agent 吗?也不一定,因为现在对 OS 的使用上,用户比较依赖 GUI 的界面手势交互会比较多。所以在 OS 的角度上还是考虑用户在不同场景下怎么样更快、更便捷的获得服务,无论这个服务是接口式的服务直达还是 Agent 的服务推送。
确实我们在蓝心小 v 方面也会加强以对话式的方式,甚至是结合界面的主动交互的方式能够更快让用户获得。
关岩冰: 我认为国内外生态有一定的差异,ChatGPT 支持 COS、Spotify,包括还有 figma 这些作图软件,在海外有生态的基础,在国内确确实实有一点不一样。
第二,我认为它不是非此即彼的绝对的 0 或者是 1 的问题。举个例子,类似于蓝心小 v 这样的 AI 助手,早上发布会也讲,它善于解决的是用户个性化的需求,在传统的 APP 或者是互联网生态,比如说传统 APP 一个界面就是手机尺寸的大小,一个界面能放 10 个按钮或者是 15 个按钮,但总有大量的用户的需求不是这 10 个按钮或者是 15 个按钮,他找不到这些需求,其实这些需求是很长尾的很个性化的,这些需求适合用 AI 助手来解决。
今天上午有一个 demo 的例子是「你把这张图片转化成皮克斯风格,并且设置为壁纸」,这种长尾性的需求在传统的 APP 是不会做的,但是非常适合 AI 助手,因为非常个人化和非常个性化。
未来我们觉得这个生态可能有一个阶段,它不是说要不就是 APP 生态,要不就是流量入口,这不绝对。还是要回到用户需求,有一部分用户需求在这个阶段更适合用 AI 助手和 Chatbot 的方式来解决,对用户需求会更好。
周围: 其实用大模型做应用现在百花齐放,我们更关注的还是既要做能力的建设,同时也要很克制在面对这样的情况。我们不能避免的是在做用户习惯和服务的分发,接下来的策略可能是第一建好能力,第二是需要合作伙伴跟我们一起来做这件事情,对于有疑虑的服务的提供商可能还是希望大家观望一下,克制一下。
端侧模型与能力建设
Q:现在每个厂商都要做端侧大模型,也基本上每个厂商都说要做个人助理。vivo 提出的「UI Agent」概念,与其他厂商的 AI 助手有什么不同?
关岩冰: 今天上午讲到我们的选择是个人化智能,并不是所有的厂商都是个人化智能。我们觉得个人化智能就有几个特性:
第一,它像你身边的朋友或者是一个伙伴,所以我们有一个很核心的能力就是端侧,因为只有端侧才能无时无刻在分析你的数据、洞察你的需求、感知手机上的屏幕等等。其实并不是所有的手机厂商都具备端侧的能力,就像刚才周围总讲的我们在端侧的能力上还是比较出色的。
第二,真正多模态的自然交互,它包括语音上的交互,包括 UI Agent 所带来的我们对屏幕、图像感知上的交互,这也是一种交互,包括我们在文本上的交互。因为有多模态的交互所以才能保持交互会更自然,就像一个人一样跟你交互。这是我们两个核心的差异化的点或者是优势,相对于其他的厂商而言。这两个优势才能保证我们做的东西无时无刻在手机上,而且无时无刻给你提供符合你个人的个性化的服务。
Q:理想的 AI 智能体需要哪些条件?哪些已经具备?
周围: 以前手机是 APP 应用分发的渠道,其实整个行业对于软件商店的分发的权限在哪里,边界在哪里我们是很敏感的。其实智能体时代的分发也是同样敏感的问题,vivo 的企业文化是希望共赢共建的,所以对未来 AI 智能体的分发我们作为一个手机渠道,我们还是希望克制和共建。
哪些能做哪些不能做呢?第一,我们希望智能体对于手机本机的功能和系统能够做到的我们都做了。第二,同样这些智能体的 Agent 商店、包括个人化智能要搭载的框架,这是平台厂商要做的,所以这些工作都就绪了。
但是在跨 Agent,Agent 之间通信的时候是整个行业共建的事情,还有一个重要的参与者是「开发者」,主要是互联网的厂商。面对这个问题时,我们希望是一起商量着来建的,所以还有哪些做不到的就希望在互联网应用 Agent 的分发上,我们是希望「商量」着来、是共建的。不是说我们做不到,而是这件事情是行业共建利益的事情,vivo 还是有自己的本分需要坚守的。
Q:现在智能手机所谓 AI Agent 的能力,其实离广泛意义上定义的能力有点远,因为可能每个 app 的信息孤岛不会把底层数据给到手机厂商,有些厂商会通过无障碍功能识屏的方式曲线救国。这是主要障碍吗?
周围: 今天你的感受跟我们的感受是一样的,当智能体特别是手机的自动智能体要做任务的时候,我们只能做厂商自己的功能、自己的应用,比如说秀一下是否流畅、调一下亮度、连接一下 Wi-Fi 都没有问题,但是你想跨应用,对方目前是抓住安全授权的标准在和终端厂商有一个讨论的过程。
我们觉得作为一个终端厂商,第一是要积极推动行业标准的建立,第二是 AI 技术从现在到成熟还有几年的过程。今年我们也在大方宣布基于手机界面 UI 的自动识别和操作,这些能力会每年越来越成熟。而对于互联网行业他们哪天需要厂商一起服务用户的时候,我们自然就一拍即合。
我相信互联网行业里有很多这样的公司他们是很大方在做这样的事情,他们都在和我们做这样的事情。也有很多担心未来的界限在哪里搞不清楚的,有很多这样的公司,我们就觉得留给时间来回答。
Q:vivo 与国内大厂在 Agent 上的合作现状?
关岩冰: vivo 现在是以比较开放的心态跟很多大的厂商合作,包括高德、百度,包括蚂蚁的支付宝,我们今天已经有很多合作了,未来 OS6 在很多 Agent 在未来一个月内会逐步上线,我们以开放的心态来接受,我们认为不是非黑即白,不是说 Agent 做了之后传统业务就没法做了。
Q:去年 vivo 还在谈 175B 超大模型,如今重点转向 3B 的端侧 AI,为什么?
周围: 可以这么说,去年我们做了 13B 和 7B 的端侧模型的实现,最后发现其实只有 7B 堪堪能上线,但是 7B 的模型在手机上跑得不是太理想,它占的内存比较大。直到今年发现 3B 上得比较好。
为什么有这样的选择?因为我们没有打开这个盒子,我们要知道端侧模型在手机上要做哪些事情,先要把手机上做的事情识别出来。
第一,它一直在识别人在手机上做的各种操作,举个例子只有 vivo 手机能够做到的,如果你查一个图标,或者是滑动选择一行文字,或者在页面上做一个全选,你发现 vivo 的原子岛有一个东西下来接你,这就是意图识别,这是在端侧上能够做到的。而且只有我们在端侧上能够做到,因为我们有一个端侧模型实时分析你要做的事情,比如说这个地址存在便笺里是要做导航,还是做日程的添加呢?我们有端侧模型在实时识别你的意图。这意味着手机里有非常多的识别意图、拆解任务等一系列的工作在做。我们这个功能 2024 年对行业发布,我们希望有些事情是需要蹚过之后才有心得,才能做正确的选择。
今年我们旗帜鲜明做选择的时候,并不意味着 3B 是唯一做的,其实很多 1B 的模型其实也是一直在做的。刚才您的问题是不是 1750 的模型就不做了,1000 亿的模型就不做了,70B 的模型就不做了?NO,是因为当下今年的大模型比去年的大模型功能更强,去年的大模型比前年的大模型的功能也更强。我们发现云端的功能相对容易做,真正难的恰恰是端侧的能力比较难。
今年 70B(700 亿)参数的大模型比去年 175B(1750 亿)的参数还要强了,我们 3B 的模型比过去 10B 的模型还要强,已经比 2023 年 1000 多亿参数的模型还要强,已经能够满足今天端侧任务和复杂任务的拆解,不是因为我们放弃云端,而是分成了两个阶段,云端是云端,端侧是端侧,云端的能力已相对比较容易建立。
现在大模型有两个话题,一是满足日常推理和复杂任务的拆解;二是通用人工智能,现在媒体上吵的是通用人工智能时代还没有到来,其实复杂任务的拆解、知识的获取和提炼已经能够满足我们使用的。
作为手机厂商对于 AI 的探索和需求需要更前置一点点,就是需要在 1B、3B 对用户的意图和日常任务的拆解,中台、感知、执行都是用端侧模型在做。只是感觉今天外面的媒体在探讨大模型的时候很少触及这种归类,毕竟我们是制造终端厂商,很难在媒体上发起这样的探讨。
Q:3B 模型有哪些关键突破?
周围: 原来 7B 的时候最大的问题是需要 3.5G 的内存,8G 的手机是中高端机型的主要配置,包括旗舰机都有 8G 配置的,一个大模型端侧就占了 4 个 G,剩下也只有 4 个 G 的内存,4G 的配置是目前低端机的标准配置,它这样一下就把高端机变成了低端机。这是第一个要解决的问题。
第二个要解决的是 7B 模型只能做简单的任务拆解,不能做复杂的推理。比如说「帮我看一下今天下午 4 点北京到深圳的机票哪一个最便宜?」就这一句话你可能要下载 3-4 个卖机票的服务,还要去比价。
你会发现里面还有分析哪一个应用,查哪个 APP 的价格,还要看我坐哪个航司的习惯,这是一个复杂的问题。去年的 7B 就做不到。而今年的 3B 远超去年的 7B,而且所有的榜单里还有做 8B 的,8B 比 7B 强,我们几乎把全球能找到 8B 的推理模型做了评测,我们的 3B 要远超他的,从推理能力、归纳综合能力、复杂任务拆解能力都比它要强。
我们解决了两个问题:第一,3B 端侧模型内存只占 2G,其实不影响高端机的性能,我们解决这个第一号难题。第二,大幅度增强了推理能力,几乎可以把它放在手机做意图中控和任务拆解的中台,这两个问题都解决了
其实还有别的问题,比如说这次也非常在乎功能,今年做到 200 tokens,去年是做 80 几,今年直接做到 200 tokens,200 tokens 已经很厉害了,平时我们看一个屏幕吐词,基本上 26 左右你就觉得还行,我们直接干到 200 tokens,说明端侧的出词效能直接起飞的,这方面没有障碍了。
还有一个功能可能大家没有关注到的,其实是我们真正颠覆性的。在 DeepSeek 之前有一个月之暗面大模型,他最大的特点是长 tokens,我们这次也做到了。这个是巨大的突破,而且我们这一点也是做得极其优秀的,只是因为刚做出来,从做出来让用户感知到明显的利益可能还需要大半年来沉淀。所以您刚才的问题也问出了我们这一年做的一些东西,长 tokens 我们在端侧上做到了。内存直接把原来的 4G 做到现在的 2GB,出词速度做到 200 tokens,包括本身的推理能力也做得好,而且把它全部做到了手机上。所以 2025 年的原系统 6 给我们 3-6 个月的时间在功能体验上也许还有预期之外的意外的惊喜。
Q:DeepSeek 的开源对你们有影响吗?
周围: 对我们有影响。我们是 2024 年意识到这个问题的,当时我们做 1750 亿的模型,做出来之后往下卷,其实卷的是矩阵模式。但是我们马上就发现万卡集群都不够用了,我们要做两万卡以上的集群,两万卡和一万卡光设备就要加 20 几亿,而且这还远远不够。这样下去卷通用人工智能我觉得不太现实。
中国做大模型的行业,大家也知道很多创业公司也卷不动。因为募资几百亿,做个 4000 亿的参数,可能要花 50 亿买算力,而且这 50 亿里还要三分之一,差不多是 15 亿是电费,往后每年烧电还要烧这么多钱,所以就烧不起。
当 DeepSeek 出来之后,对于千亿大模型一下就把大家拉齐了,因为 DeepSeek 做了很了不起的事情是完全开源的,而且可以让我们满血部署。vivo 的蓝心小 v 中有深度思考的模式,其实它是一个满血版的 DeepSeek。这就让我们觉得可以一下拿到很好的大模型。
对于我们这种自己做模型的公司有什么好处呢?就是辅助我们的 7B 和 3B 蒸馏学习。我觉得 DeepSeek 对于我们这种又要做模型训练训练又要做优化的公司来说是极其巨大的帮助和提升。
Q:为什么还要做 1B?它在端侧体系中的角色是什么?
周围: 感谢 DeepSeek 这两年给行业的推理能力带来极大的提升,去年我们还做了一个 13B,是因为 7B 做不到很多复杂的推理,当时我们希望是 13B 上线。结果发现今年 3B 已经超过了原来我们对 13B 的定义,3B 能够实现很多过去对于稍大尺寸的端侧模型的预测。我们就想说拿 3B 努努力就够了。今天我也讲过文本的摘要、生成,3B 已经跟云端大概是 97%-98% 的能力,已经很难察觉到有太大的差别,这已经够用了。
为什么要用 1B 呢?我们发现手机里有很多是要常设的,端侧大模型对手机的应用远比我们想象要广得多,手机里永远有一个大模型一直在运行。
我前阵子去了国内几个知名的人形机器人的实验室,我们也做机器人,在具身智能方面有一个大模型永远在运行的,我上午也说 3B 的模型在运行时要 750 毫安(功耗),这其实是受不了的,用上这个之后还是耗电的。这怎么办呢?我们是脉冲式的,你一会儿用一会儿没用,用的时候把它唤醒,大部分时候是没有用,综合下来一天可能就个把小时完全能够耗得起,比打游戏和拍照要完全省得多。
但是还有一个 24 小时都在线的,比如说地址围栏、你的行为、系统的参数是永远都在线的,这就要 1B。这 1B 不是在于复杂的推理能力,而是对本机的实时监测和记忆,这是交给 1B 模型在做的。所以在 1B 我们做得也是比较激进的,只是这个东西只是为手机服务,很少「丢」出来或者是对外沟通。
体验与哲学
Q:X300 上云端的 AI 功能已经有一些开始收费的倾向了,云端 AI 收费会如何把握边界?
周围: 我们有一个原则现在 vivo 有大量的端侧化,图像识别、声音识别,包括未来的同传、方言识别全部都端侧化,端侧化肯定是免费的。但是端侧化有一个问题,就是平台的算力要够,内存配置要够,至少是 8G 以上的配置。马上就面临另外一个问题,如果只有 4G 的低端机器,如果用户也要用的话,这时候可能用的是云端的功能,云端的功能在某种意义上是要消耗大量的成本的,这时候就考虑可能在成本上要分担一下。我觉得大概有一个趋势。
Q:现在手机厂商做 AI 容易陷入成做 AI 功能清单,用户普遍反映 AI 功能太多、太复杂。vivo 如何判断一个功能是否真正有价值?
黄梓勋: 我们内部对于 AI 体验这件事情有一个名词叫「无感化」。因为现在 AI 看似很强大,但是现在 AI 在使用渗透上还不算特别全面,一定程度上比较考虑用户对于如何使用这个功能的认知有很大的挑战。所以,我们一定要尽量弱化一定要通过一个按钮才能激活 AI 的功能或者是使用到 AI,而是通过无感化的设计,比如说保存文件的时候,我开启了一个录音,这个录音暂停或者是掐断就能自动获取 AI 的能力生成一个命名,在我们的理解里就定义成「无感化 AI」。
它确实是调用了刚才周围总一直介绍的端侧 3B 的模型,我们也做了很多优化,让底层的性能调度也好,包括在工作过程中对功耗的调度也做了很好的调优。我们在设计上弱化了用户一定要通过必要性的交互才能获得这些能力,而是在原有的使用功能和任务操作流中自然而来到这个节点,用 AI 能力来替换它的它传统需要手动调用这个功能或者是手动编辑的过程。
去年提出了重构系统体验,我们重构系统体验并没有刻意改变业务逻辑,或者是重新教会用户怎么使用 AI OS 或者是 AI 手机,而是在用户原有的任务流中,到了某一个节点我们认为 AI 预判到用户到这个场景,需要用到这样的功能时,可以很自然而然完成这个结果,这是我们做 OS 设计时一直想要追求的是「无感化」AI。
因为我们也做过一些测试过,当有一个按钮上面显示了 AI 的功能,对绝大多数用户来说会陷入一个短暂性的猜想,到底这个功能是什么,它会不会抓我数据,会不会带来一些无预期的结果。所以,我们在这个过程中避免的是创造新功能,或者是打造新场景,做 AI 和 OS 融合的过程中尽量回归到用户原有的习惯,用户原有的任务流不变,用最自然的方式,无感化帮客户完成。这是我们在 OS 体验过程中坚持的「无感化」的基本原则。
Q:如何平衡操作系统的稳定性和 AI 的快速迭代性?
周 围: 大家都知道我们 AI 团队这么多年下来自然也会遇到公司内部管理层,包括交付的时候是有很大的压力的,沈炜总有一个对 AI 团队的指示我觉得做得非常对,他说:AI 它不会创造新的需求,像我们做手机的,就应该把用户怎么用手机通过 AI 把它做得更好用。如果回到这个初心去看,我们工作可能是比较好开展的。
回到团队,因为我们软件有两三千号人,AI 又有一千多号人,几千号人包括做认知和做规划的人,很多时候就认为进入到 AI 时代,在这个划时代的到来是不是要颠覆性搞一个全新的东西出来,我身边有很多朋友给我们的感觉就是 AI 要到来肯定是划时代的,跟蒸汽机和马车一样是划时代的。
我觉得系统的稳定性和 AI 的颠覆性,我觉得最大的问题是真正要回到坐马车到远方是一个交通工具,至于你用蒸汽机还是马车才是产品形式。
现在我们非常平常心是用 AI 和手机的结合,哪些是变的?哪些是不变的?不变的是 AI 和 OS 融合有一句话叫作「系统功能的 AI 化」,大量的打电话做电话秘书,我们看相册也好,做便签也好,原来的这些功能都会做 AI 化,这些是传统功能的增强。哪些是变的呢?我觉得也是原来要实现的需求的变更。
比如说查一段字、一个应用,为什么要去猜我们的意图,这个意图只会出现在原子岛,高德地图或者是便笺,是不是要传给我存,或者是存给拼多多或者是淘宝搜东西。你会发现原来用户的需求其实没有变化,我们只是通过 AI 做意图判断,做你行为的预测。假如你真的丢掉某个应用中,我们可能帮你直接跑了。我们只是通过 AI 让用户更便捷、更易用、更好用了。不变的还是原来的手机,没有新增任何的功能,变的是把原来的功能重新思考,做得更好用了。
这样思考之后,我觉得这两年我们的行为、思考和认知及产品规划都自洽了,2023 年我自洽,感觉全新的时代到来,我们要做一个划时代的颠覆性的东西,那时候极不自洽,无论是对外沟通还是对内沟通都是极不自洽的,我们迷糊了一年多,但从这一年以来我们是非常自洽的,非常清晰知道自己在做什么。
Q:你们整体的 AI 时代的战略怎么走,刚才您说战略重心往端侧转移,那么原有的云端这块的训力怎么拆解?
周围: 因为我们是做智能终端的,不是做一个通用人工智能的企业,我们的战略其实还是在做我们这个企业该做的事,AI 上的战略是符合我们企业的,还是要做个人智能。去年有一个品牌有一个完整的描述叫「蓝心智能」,蓝心智能就是个人智能,个人智能可能还是很迷糊和笼统,你可以想象成希望为用户做一个「VIP 的个人助理」。
要做助理的话,生活中可能有一个帮你管日程的助理,但是可能做不到法务助理、报税助理和炒股助理,这些人是谁在做?这其实是行业里的金融公司在做、法务公司在做。比如说专门写专利的助理,这些是「专属助理」。我们的定位是一定为大家把手机变成各位的专属助理,这个专属助理可能手机公司会帮你管跟你个人强相关的东西,但是一些「专属」的就要搭台子了。今天上午我也说希望给专属服务和用户之间做一个桥梁,把专属助理也和用户拉到身边,我们做通用助理那一部分。这是我们完整的战略。
Q:vivo 也在做 AR、VR 眼镜,MR/AR 与手机的 Agent 会不会打通?
周围: 说到 Agent 其实在行业内以前就有很多服务,不是今天才有的,为什么大模型来了之后突然把它叫成智能体了呢?是因为它能够感知到我们身边的变化、能够洞察我们的意图、能帮我们做决策,才能把服务自动连接起来,就是因为这个变化才把它叫作智能体。
原来的服务天然还在,是因为我们加了这 4 个环节的建设所以变成了智能体。但是这个智能体在整个行业目前已经很通俗化、很广泛应用了。为什么手机公司还要回答这个问题呢?因为手机公司是真正懂用户个人习惯的,把用户的这些个人化特征在用户的授权下给到三方的服务商,他们的智能体一下就会变得很强了。
所以手机厂商在这一点上是产生了价值的,我们在为行业做平台的建设和支撑框架的建设,只是手机厂商多了一个身份,既给行业提供服务,可能手机上面还有一些电话、日程、短信这样的功能,所以同时我们做这两件事情。
Q:所以咱们还会跟 MR 设备做一些跨设备打通的考虑吗?
周围: 其实 MR 设备和手机最大的区别就是你得用摄像头看真实的物理世界,还要把物理世界识别出来之后再和数字世界关联,这个应用其实跟现在推的 AR 眼镜是很类似的。看到什么要识别出来,这时候是要请求服务还是做介绍都有一个应对关系,因为也是 OS 团队做这些事情,我们把它统一归总起来做的。
Q:今年 AI 硬件这块很火,手机厂商在 AI 硬件上有非常强大的优势,vivo 未来有没有往这个方面布局的规划?
周围: 我们公司其实成立了人工智能终端事业部,他们也有新品的发布计划,但是时间不应该由我来公布,我们的确像 vision 这样的产品,眼镜,包括公司也正式对外公布家庭机器人,这些是在做的。我们准备的东西肯定比对外官宣的东西要多。
今天大家也看到了我们的蓝河操作系统,其实我们蓝河操作系统已经适配了很多的芯片,包 ARM 的芯片,有 5-6 个芯片的适配。我们自己私下也接到了电力行业的中国企业,包括做 AI 眼镜的企业也找到我们沟通。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
泰勒·斯威夫特再次陷入 AI 风波,但这次粉丝「倒戈」了
屡遭 AI 伤害的泰勒·斯威夫特,最近却因 AI 被粉丝「围攻」了。
起因是一场全球营销活动。
为了宣传她的第十二张专辑《The Life of a Showgirl》,泰勒·斯威夫特(Taylor Swift,昵称霉霉)在上周末联手 Google 策划了一次寻宝游戏,在 Google 上搜索这位歌手的名字,就会看到一条神秘提示:「12 个城市、12 道门、1 个待解锁的视频。」
接着,粉丝需要根据线索去世界各地找这 12 扇「门」,扫描门上的二维码,就能看到 12 个视频,每个视频里都有解谜的线索。当粉丝们集体解出正确答案并在 Google 输入那句话时,会出现一扇橙色的虚拟门。大家得一起疯狂点击这扇门 1200 万次,才能「敲开」它。
最终,门被「打开」,专辑曲目《The Fate of Ophelia》的歌词版 MV 将正式上线。
这本是一次充满仪式感的粉丝狂欢,直到有人开始逐帧拆解视频。
联手 Google 搞营销,却被粉丝扒出 AI 的「马脚」
一些忠实的粉丝注意到,宣传的视频里出现了许多诡异的画面:
- 长着两个头的旋转木马,酒保的手凭空穿过一张纸巾
- 一个小型摩天轮的辐条在转动时出现了模糊和不自然的形态变化。
- 挂在衣架上的两件外套的衣架似乎融合在了一起
- …
除此之外,粉丝们还指出了视频中普遍存在的其他视觉瑕疵和伪影,整体画面透着一股廉价 CG 的塑料感。而这些,都是 AI 视频生成的典型穿帮。
据连线杂志引用 AI 检测公司 Reality Defender 的结论:部分片段「极有可能是生成式 AI 制作」。
截至发稿前,Google 与霉霉团队都没有回应,但外界普遍猜测这些视频可能采用了 Google 刚发布的 Veo 3 AI 视频生成技术。
Veo 3 是 Google DeepMind 旗舰级 AI 视频生成模型,它能根据文本或图像提示,自动生成高清短片,风格从电影预告到 MV 都能自适应。
有网友猜测,Google 与霉霉的合作本身就是一个信号:巨头们急需为其 AI 工具寻找「杀手级应用」场景, 而娱乐营销正是最佳试验场。
传统制作一支宣传片可能需要高昂的费用和数周时间, 而 AI 可以不断压缩时间和金钱成本。对于需要持续产出内容的艺人团队而言, AI 是难以抗拒的诱惑。
伴随着相关报道的不断涌现,X 和 TikTok 等海外平台上掀起了话题 #SwiftiesAgainstAI,粉丝们不仅针对 AI 技术本身, 更指向一种对偶像的背叛感。
你被刺伤之后,怎么能反手拿起那把刀?
粉丝的愤怒,源于霉霉一贯的立场。
2024 年 1 月,大量由 AI 生成的、带有露骨色情内容的霉霉图片在 X 等平台病毒式传播 。其中一张图片在被删除前,浏览量就已超过 4700 万次 。她也因此成了 AI 滥用最著名的受害者之一。
面对这场恶意的网络攻击,霉霉的粉丝群体迅速组织起来。
她们发起了 #ProtectTaylorSwift(保护霉霉)等话题标签,用积极正面的内容冲刷和覆盖恶意图片的传播,并大规模地举报发布这些滥用内容的账户 。
除了色情滥用,霉霉的形象还被用于制造政治虚假信息——比如伪造她给特朗普「背书」的视频 。在回应这一事件时,霉霉发表了她对该技术最直接、最公开的谴责。
「这真的唤起了我对 AI 的恐惧,以及它在传播虚假信息方面的危险。」
如今,这句话被不少粉丝反复引用,成了「打脸」她的铁证。
许多粉丝认为,一个曾公开表达对 AI「恐惧」并亲身经历其危害的人,更不应该在自己的商业活动中采用这项技术。
更重要的是,霉霉从出道起就把「真实」和「创作主导权」当作事业的底线。比如她为了夺回自己前六张专辑的母带版权,不惜重新录制所有歌曲,那场「Taylor’s Version」圣战让粉丝们坚信:
她是站在创作者这一边的。
然而,生成式 AI 技术的一个核心争议点,恰恰在于它抓取学习其他艺术家海量作品时,往往未经许可、不付报酬。因此,在粉丝看来,当她(或者她的团队)用 AI 来生成视觉内容时,她其实是站到了创作者的对立面。
需要补充一个细节,多年来,泰勒·斯威夫特和她的团队刻意塑造了一种「亲力亲为」的创作形象。这种设定让粉丝更死心塌地,却也让她在争议面前失去了甩锅的余地。
当危机爆发时,「那是团队的决定」这类说辞就会彻底失效,因为粉丝不会相信一个全程操盘的大艺术家,会对宣传片的制作方式毫不知情。
于是,质疑的声音像潮水一样涌来。
拥有 50 万粉丝的博主 Ellie Schnitt 写道:
「你比任何人都清楚 AI 带来的伤害,你应该知道该怎么做(You know better, so do better)。」
Reddit 上的评论也一条比一条扎心:
「她是全球最成功的艺术家, 不缺钱不缺人, 为什么要用 AI?」
「她一直呼吁艺术家获得公正报酬, 这次却无视了创作劳动。」
「她不需要靠这种方式,这完全是多余的。」
作为霉霉的忠实粉丝,巴西设计师 Marcela Lobo 说出了最致命的一句评价: 「2017 年她还没这么红, 都愿意雇人做精致视觉。如今预算充足, 反而用了 AI。」
言外之意是,当一个艺术家成功到不再为预算发愁时,却反而更可能为了效率而放弃对细节的坚守。
这几乎是一种成功的诅咒:规模越大,越依赖工业化流程;越工业化,越容易为 AI 打开缺口。在这个过程中,即便是艺术家,也会不知不觉地从被 AI「威胁」的受害者,滑向了主动使用 AI 的争议方。
我们还没准备好,生活在一个由 AI 主导的世界
AI 与音乐影视行业的纠葛,早已进入说不清道不明的「灰色地带」。
近期知名影星 Will Smith 就卷入了类似的争议。他在社交媒体上分享的一段演唱会宣传视频中,观众席里出现了扭曲模糊的脸孔和奇怪动作,被网友指责疑似责合成观众(即用 AI 生成粉丝的画面)。
有网友表示难以理解「这么有钱有名的人还要用 AI 合成观众……」面对质疑,Smith 后续在社交平台上又发布了一个以 AI 喵星人为主题的视频,戏谑批评者。
而在更深层的领域,AI 甚至开始取代真人演员。
英国公司推出「AI 女演员」 Tilly Norwood——精致五官、流畅口音、完整履历、活跃社交账号。她不存在, 却签了经纪约, 抢走了真人演员的工作。有人也在社交媒体讽刺:「谢谢你让我丢了饭碗。」
这些事件都在传递一个信号:AI 已经能够渗透到艺术创作的每一个环节——从演员、观众,到声音、画面、编剧、剪辑。
人类艺术创作的地盘,正在被生成式 AI 一寸寸蚕食。
与此同时,AI 版权的边界,也正在法庭和商业实践中被重新定义。OpenAI、Google、Anthropic 等公司都在法庭上,为使用受版权保护的作品训练模型是否构成合理使用大为辩论。
OpenAI CEO Sam Altman 最近在接受采访时则大胆预测,社会最终会认定,用于模型训练的数据属于「合理使用(fair use)」。
但他认为,直接用 AI 生成受版权保护的内容,则会出现新的规则和商业模式。
他甚至观察到一个新趋势:许多版权方已经从担忧「AI 用了我的角色」转变为担忧「AI 用我的角色用得不够多」。如今,诸如迪士尼、华纳、Netflix 等公司正在测试基于 AI 的 IP 授权方案,允许角色形象、声音与粉丝进行 24 小时对话互动。
那么问题来了,艺术家能不能用 AI?
答案不是「不能」,而是不能「造假」。如果 AI 参与了创作,就该被如实承认。
比如最近,博主 @章鱼养殖基地有话就说版 发帖称,知名美术约稿平台「米画师」在发布约稿请求时,所提供的参考示例图疑似为 AI 生成的作品。对此,该博主更是直接质疑:「米画师官方带头用 AI?」
▲图片出自博主@章鱼养殖基地有话就说版
其实争议的核心并非 AI 技术本身的存在,而是艺术创作者们能否坚守立场,为人类创作的独特价值划定一条不可逾越的底线。
AI 生成内容的根本问题是,它不劳作、不感受、不挣扎——它只是重组过去的作品,伪装成新的创作。它是零劳动的产出。而艺术的本质,恰恰在于不可替代的人性——在失败、偏执、笨拙、意外、反复修改中生长的那种温度。
正因如此,当粉丝们在社交媒体上高举 #SwiftiesAgainstAI 的旗帜, 也是在用他们的方式告诉世界: 艺术的价值, 源于创作者灵魂的在场,而人类还没准备好生活在一个 AI 主导的世界里。
至少现在还没有。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
英特尔想造一种很新的 AIPC
这两年提起英特尔,总是坏消息多,好消息少。但最近一个月,事情起了变化——
先是英伟达宣布投资英特尔 50 亿美元,并计划推出集成 RTX GPU 的 X86 SoC 产品,这让英特尔总算能缓口气,股价也来到了近一年的新高。
而更实质性的好消息是,英特尔寄予厚望的下一代处理器——首个 Intel 18A(约为 1.8nm 制程工艺)的计算平台 Panther Lake 终于展露真容。
在刚刚结束的英特尔 Tech Tour (ITT 2025) 活动上,爱范儿也在美国亚利桑那州的英特尔晶圆工厂,看到了首批搭载 Panther Lake 的工程机。
英特尔这次没有让人失望。
Panther Lake 来了:更快、更强、更省电
英特尔作为半导体工业 IDM 模式(Integrated Device Manufacturer)的代表,集芯片设计、制造、封装和销售等环节于一体,因此保持先进的制程对英特尔来说就尤为重要。
这也是为什么 Intel 18A 制程工艺的 Panther Lake 被寄予厚望——因为英特尔亟需证明自己的产品是先进的,而自己的工厂也具备先进制程的制造能力。
▲ Panther Lake 主板开发板
从目前的表现来看,Panther Lake 的表现还是可圈可点的,兼具 Lunar Lake 在低功耗方面的出色表现,和 Arrow Lake 的强劲性能:
相同功耗下,CPU 单线程性能提升 10% 以上(对比 Lunar Lake)
- 相同功耗下,CPU 多线程性能提升超过50%(对比 Lunar Lake & Arrow Lake)
- 待机功耗降低 30% (对比 Arrow Lake)
- GPU 整体性能提升超过50% (对比 Lunar Lake & Arrow Lake)
- 相同算力面积下,NPU 性能提升 40% (对比 Lunar Lake)
- 支持最高 96GB 的 LPDDR5 内存和 128GB 的 DDR5 内存
- 配备更好的图像处理单元 IPU 7.5
- 有着更先进的连接性(支持 Wi-Fi 7 R2、蓝牙 6 以及雷雳 4、雷雳 5)
- 支持更智能的电源管理系统
具体来讲,Panther Lake 将会有三个规格的产品推出,分别对应:
8 核 + 4 Xe³-core,面向主流价位的轻薄本
16 核 + 4 Xe³-core,面向搭载独显的游戏本
16 核 + 12 Xe³-core,面向旗舰级的高性能轻薄本
▲ 三种不同规格的 Panther Lake 芯片

这次 Panther Lake 的 E 核采用了 DarkMont 的新架构,尤其大幅强化了 LPE 核的性能,使其能够参与到日常负载当中,配合 8MB L3 缓存和 Memory-Side Cache 架构,在保持低功耗的同时大幅提升了性能。
而新的 Xe³ GPU 和 XeSS 多帧合成技术,则带来了有史以来最强的英特尔核显,最多搭载 12 核 Xe³ GPU 的 Panther Lake 处理器,算力高达 120 TOPS,配合 XeSS 的帧生成技术,可以有媲美中端独立显卡的游戏表现——用轻薄本跑 120 帧的《三角洲行动》,不再是痴人说梦。
▲ Panther Lake 核显高帧数运行 3A FPS 游戏
值得一提的是,Panther Lake 也为 AI 的应用场景做足了准备。
新的 NPU 5 单位面积的性能提升超过 40%,总算力达到 50 TOPS,并且支持 FP8 的精度——这意味着,在保持精度的前提下,推理性能可以大幅提升,而功耗显著降低,配合更大的带宽升级,本地大模型也能有相当不错的可用性。
可以说,Panther Lake 满足了我们对于一个「先进」 X86 平台的所有想象——能打游戏,也能跑 AI,功耗能低得下去,性能也提得上来。
▲ Panther Lake 开发机,可以看到不同的尺寸规格差异
英特尔想造一种很新的 AIPC
在 2025 年之前,几乎所有 PC 厂商谈到 AI 时,都是在既有架构上塞进一个 NPU,然后再把微软 Copilot 的落地体验包装为「AI PC」。
但如今的英特尔不想这么干。
与上一代平台相比,Panther Lake 算是真正贯彻了 XPU 的理念—— CPU、GPU、NPU、IPU 是相互协调、资源共享的,因此,Panther Lake 总算力达到了 180 TOPS,而且可以将最多 86% 的内存调给显存,这意味着在 AI 能力方面,Panther Lake 较之前有长足的进步,作为 AIPC 能做的事情也变多了,英特尔称之为 Agentic AI。
所谓「Agentic AI」,并不是传统意义上的语音助手或者问答机器人。它背后的逻辑是:AI 从最初的感知世界(识别、检测、语音理解),再到增强(去噪、分割、画质提升),接着生成(文本、图像、代码输出),如今,已经走到了能够推理、规划和执行的阶段。
在现场的 demo 中,我们看到搭载 Panther Lake 的 PC 可以跑一个 30B 的Qwen 大模型,与此同时还能腾挪出足够多的内存,来容纳较长的上下文,从而实现一系列的复杂操作:
当用户输入一句话——比如「帮我为英特尔生成一份紫色主题的 AIPC 市场分析 PPT」——PC 内部的智能体会分析任务,自动调用专门的 SlidesMaker Agent(现场演示的是来自中国珠海的 ChatPPT),通过 ChatPPT 工具在云端生成文档后,在浏览器里打开预览。整个过程中,用户并不需要逐步操作,而是让 PC 像一个真正的代理人一样完成任务。
这就对上下文容量提出了更高的要求,也是 Panther Lake 重点攻克的一项能力。
我们在现场还见到一个关于 AI 编程的演示:「生成一个飞船射击小球的游戏」——
在默认情况下,PC 只能调用有限的显存来写代码,这样写出来的代码质量自然也就一般,虽然能把游戏的框架搭出来,但飞船只能执行直线射击的动作,而小球都是同一个尺寸一动不动的。
但由于 Panther Lake 能够轻易地将内存转换为显存,因此当为大模型分配足够多的显存时,同一套提示词写出来的代码质量也大有不同——这次,飞船能够遵循一定的规律移动并射击,而小球也有了大小不一的尺寸,且具备一定的行动逻辑,整个游戏马上就活灵活现了起来。
显然,英特尔也注意到,光有强劲的算力能够跑一个大尺寸模型,但缺乏足够多的内存容纳充足的上下文时,AIPC 并不能带来很好的体验。
只有两两结合,找到一个算力与内存的平衡点,才能相得益彰。
也正是基于这样的理念,让 Panther Lake 在交通、医疗甚至具身智能方面,相比无法更换内存、空有 NPU 算力的 Lunar Lake,能有更为出色的表现。
▲ 由 Panther Lake 驱动的具身智能机器人
在爱范儿看来,英特尔实际上是在造一种「很新的 AIPC」,这不只是又一次性能迭代,而是一种角色转变。
在 XPU 的加持下,AIPC 具备更好的泛用性能,很多情况下不再只是用户驱动的工具,而是逐渐具备了主动解决问题、协作执行任务的能力。某种意义上,这是继图形加速、联网化之后,PC 平台的又一次身份升级。
未来,当用户面对设备时,输入的可能不再是操作指令,而是一种意图;而 PC 响应的,也不只是一个结果,而是一整套被执行过的流程。
对英特尔而言,这正是它想象中的 AIPC 时代。
要有先进制程,也要能先进制造
作为 Panther Lake 的实机首秀,展现出来的结果还是令人期待的,但更值得关注的,是其背后的英特尔先进制程制造能力。
在过去几年里,英特尔一直在吃制程落后的亏,由于自家的晶圆厂没法满足工艺需求,部分芯片还需要友商代工——这显然不是什么好现象。
好在,在 2nm 制程的关键节点,英特尔追上来了。
▲ Intel 18A 晶圆
在 ITT 2025 上,英特尔再次强调,亚利桑那州的 Fab 52 工厂将在 2025 年进入 Intel 18A 制程的高产阶段(High-Volume Manufacturing,HVM),而俄勒冈的工厂也将于 2026 年投入大规模量产——这是全球首个在量产阶段同时采用 RibbonFET 晶体管和 PowerVia 背面供电两项技术的制程节点。
RibbonFET 解决了晶体管继续缩小时面临的漏电流问题;PowerVia 则改变了 60 年来电源线和信号线混在芯片正面的设计。相比 Intel 3 制程,Intel 18A 的能耗比上最高提升 15%,密度提升 30%。
伴随 18A 制程进入 HVM 而来的,是首批基于这一先进制程的产品:面向 PC 市场的 Panther Lake,以及面向数据中心的 Clearwater Forest。它们计划在 2025 年末量产,Panther Lake 预计 2026 年初进入市场,Clearwater Forest 则计划在 2026 年推出。
在封装方面,英特尔则展现出世界级的领先—— Panther Lake 采用 Foveros 技术(已量产 6 年,出货约 1 亿颗),而 Clearwater Forest 采用更先进的方案:EMIB(约 45 微米 pitch)+ Foveros Direct(约 9 微米铜对铜混合键合,相当于把两个比发丝还要细几十倍的元器件对齐)。Clearwater Forest 将是首批采用 Foveros Direct 技术的产品之一。
为了保证良率,英特尔也在 18A 制程上用上了 Known Good Die(已知良品)测试流程—— Panther Lake 和 Clearwater Forest 都采用了这项技术。
在 chiplet 和异构集成大行其道的今天,在 die 级别完成测试,筛选出良品后再封装,能够有效降低成本和并提升良率。
对 Intel Foundry 代工业务来说,Intel 18A 不光是扳回产品口碑的豪赌,也是重要的先进制造技术展示。从逻辑工艺到先进封装,英特尔提供的是一站式服务。
▲ 英特尔位于美国亚利桑那州的芯片工厂
根据英特尔透露的信息,当前 18A 的良率水平与上一代重大工艺转变时的 Meteor Lake 相当,可以说是对产能爬坡相当有信心了。
Intel 18A 倘若能顺利落成,英特尔赖以为生的 IDM 模式,也就能再转起来了。
▲ Intel 18A 的生产设备
尽管英特尔背靠着 AIPC 的大旗,仍不容有失——实际上,以芯片设计见长的 AMD、苹果、高通、英伟达,都会在 2026 年推出自己的芯片,而台积电、三星等晶圆厂的 2nm 制程产品也蓄势待发。
AI 席卷的算力狂潮仍在继续,并摧枯拉朽般地改变一切。
对于英特尔来说,最大的好消息是,先进制程已然准备就绪,先进制造的能力也已经就位。在 AI 浪潮的新一轮起跑线上,我开始期待英特尔能跑出个好成绩。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
【开发AGIC】Vue3+NestJS+DeepSeek AI作业批改系统(已开源)
前言
大家好,我是一诺。国庆假期带儿子回老家带了几天,鬼天气忽冷忽热的 我和儿子都给整生病了。
也没有出去玩,除了在家带娃,空闲时间开源了能豆ai批改助手
说下产品背景
我有个朋友是英语老师,常熬夜批改作文。平时在用 DeepSeek 批改作业,可没办法批量修改,很特别麻烦。就希望能有个可以统一管理作业,沉淀教学数据的工具。
于是就有了"能豆AI"这个产品,集成DeepSeek分析能力,实现了学生在线提交作业 → AI实时批改 → 教师人工核实批改的完整业务闭环。
核心功能-ai批改作业
为什么叫能豆AI。
我在设计 logo ,不知道叫什么好。这时我儿子在扶着墙学走路,他刚9个月刚会爬就想尝试走~ ,那就叫"能豆AI"吧,因为我儿子的小名叫豆豆。
在线预览
在线体验 ai.dslcv.com/
仓库地址
- github ➡️ github.com/yinuoguan/n…
- gitee ➡️ gitee.com/wang-tians-…
- 接口文档 http://124.222.166.174:3002/api/docs
架构图
总体架构图
业务流程
技术选型
前端技术栈
选择 Vue 3 + TypeScript 作为前端框架,之前一诺维护的老项目都是vue2, 这次全面使用Vue3开发,发现用 Composition API 写起来更灵活,特别是处理复杂的业务逻辑时。
Vuex 用来管理全局状态,比如用户登录信息。局部状态还是放在组件里,这样代码更清晰。
Element Plus 是因为组件比较全面。配合 Tailwind CSS 做一些个性化的样式调整,开发速度很快。
后端技术栈
后端用的是 NestJS,说实话一开始也考虑过 Express,但 NestJS 的装饰器和模块化设计确实香,代码组织得很清晰。
JWT 做身份认证,无状态的,扩展性好。Swagger 自动生成 API 文档。
数据存储
MongoDB 选择的原因很简单:作业数据结构比较灵活,不同类型的作业字段差异很大,用文档数据库比关系型数据库方便多了。而且 MongoDB 的查询也够用,性能也不错。
Redis 主要用来缓存一些热点数据和存储用户会话,毕竟内存数据库速度快,用户体验好。
AI大模型
DeepSeek 是主力,性价比真的很高,批改质量也不错。关键是 API 调用稳定,价格也能接受。
后来又集成了豆包,主要是想让 AI 的反馈更温馨一点,豆包在情感表达这块做得比较好,学生看到反馈不会那么有压力。
两个模型配合使用,DeepSeek 负责专业的内容分析,豆包负责鼓励和引导,效果比单用一个模型好很多。
核心模块
1.班级管理
这是系统的基础模块,解决了教师管理多个班级的痛点:
核心功能:
- ✅ 创建班级:支持自定义班级名称、描述和邀请码
- ✅ 学生管理:通过邀请码机制,学生可以自主加入班级
- ✅ 状态管理:可以暂停/激活学生,灵活管理班级人员
- ✅ 实时统计:学生数量和作业完成情况一目了然
2. 作业提交与批改模块
状态流转管理:
核心特性:
- 学生端:专用提交和查看功能,界面简洁易用
- 教师端:批改和统计管理功能,支持批量操作
- 管理员端:AI批改和日志管理,系统监控
3. AI 批改集成
这是系统的技术亮点,与 DeepSeek 的深度集成:
AI批改能力:
mindmap
root((AI批改))
DeepSeek
语法检查
逻辑分析
内容评估
豆包
情感识别
温馨反馈
学习引导
评分
多维度评价
个性化建议
数据洞察
AI批改流程:
批改质量保障:
- 多轮提示词优化,确保批改一致性
- 人工复核机制,AI + 人工双重保障
- 批改日志记录,便于分析和改进
- 异步处理机制,不阻塞用户操作
4. 权限管理系统
graph TB
A[超级管理员] --> B[系统配置]
A --> C[用户管理]
A --> D[数据监控]
E[教师] --> F[班级管理]
E --> G[作业发布]
E --> H[批改审核]
I[学生] --> J[加入班级]
I --> K[提交作业]
I --> L[查看成绩]
功能展示
管理员端功能
主要功能:
- 系统配置管理:AI模型参数调整,批改规则配置
- 用户权限管理:教师和学生账号管理,权限分配
- 数据统计分析:批改效率统计,系统使用情况分析
- 批改日志查看:AI批改过程追踪,质量监控
控制台看板
大模型配置 && 用户管理
教师端功能
主要功能:
- 班级创建与管理:一键创建班级,邀请码分享
- 作业发布与管理:灵活的作业类型,截止时间设置
- 批改结果查看:AI初评结果查看,人工复核操作
- 学生成绩统计:班级整体表现分析,个人进步追踪
工作台
创建班级
添加学生
发布作业
配置AI批改规则
作业详情
批改作业
学生端功能
主要功能:
- 班级加入:通过邀请码快速加入班级
- 作业提交:支持草稿保存,多次修改提交
- 批改结果查看:详细的AI评语和教师点评
- 学习进度追踪:个人作业历史,成绩变化趋势
激活账户
学习中心
班级作业
提交作业
查看结果
AI点评和老师批注
刚刚,OpenAI 宣布打造 「ChatGPT 操作系统」,8 亿用户将迎来全新体验
2023 年,OpenAI 只有 200 万周活开发者、1 亿周活用户。
两年后,在 OpenAI 刚刚召开的 Dev Day 上,CEO Sam Altman 在会上透露:如今已有 400 万名开发者在使用 OpenAI 构建产品,超 8 亿人每周用 ChatGPT,API 每分钟处理 60 亿 tokens。
多亏了大家,AI 已经从人们拿来玩的东西,变成了人们每天都在用来创造的工具。
就冲这增长速度,可以说是赢麻了。
而且就在上周,OpenAI 通过一笔 66 亿美元的股权交易,公司估值直接冲到了 5000 亿美元,超过了马斯克的 SpaceX,成为全球估值最高的初创企业。
DevDay 划重点:
- ChatGPT 变超级 App:对话中直接调用第三方应用,AI 主动推荐工具,支持应用内交易变现。
- AgentKit 工具包上线:可视化拖拽搭建多 Agent 工作流,几分钟完成从开发到部署的全流程。
- Codex 全面开放:自然语言实时写代码,支持语音控制和 Slack 集成,自动审核 PR 提升团队效率 70%。
- 模型 API 大升级:最强 GPT-5 Pro 开放 API、语音成本降 70%、Sora 2 支持产品内视频生成和精细控制。
ChatGPT 里直接装 App 了
今天,OpenAI 扔出个重磅炸弹——ChatGPT 现在可以直接调用第三方应用了。
X过去你可能得专门下载 App;现在只需一句话,Spotify、Canva 等应用就能在对话中自动唤起,还能提供可直接操作的交互界面。
如果你已经订阅了某个外部服务,还能在 ChatGPT 里直接登录账户,无缝衔接。
从今天起,除了欧盟地区,所有登录用户都能用,覆盖 Free、Go、Plus 和 Pro 计划。首批试点合作伙伴阵容相当豪华:Booking.com、Canva、Coursera、Figma、Expedia、Spotify、Zillow 等一众大厂。
现场演示环节更是精彩。
OpenAI 员工打开 ChatGPT,直接让 Canva 给一家遛狗服务公司设计宣传海报。几秒钟后,Canva 就给出了好几种设计方案。
然后这哥们又请求基于海报内容生成一份商业展示 PPT——这一套组合拳下来,丝滑得不行。
接着,他又通过 ChatGPT 调用了 Zillow,让它展示匹兹堡地区的待售房屋。Zillow 瞬间生成了一张可交互地图,用户还能进一步提问了解更多细节。
更智能的是,当 ChatGPT 觉得某个应用能帮到你时,它还会主动推荐。
比如你说「帮我做个派对播放列表」,它可能直接唤起 Spotify 来协助——这波操作,属实有点东西。
这一切的背后,是全新发布的 Apps SDK(应用开发套件)。开发者现在可以使用 Apps SDK 预览版开始构建自己的 ChatGPT 应用。
值得一提的是,Apps SDK 构建在 Model Context Protocol(MCP)之上——这是个开放标准,允许开发者把外部数据源连接到 AI 系统,同时也意味着用这个标准构建的应用能在任何兼容平台上跑。
正如 iOS 提供操作系统,App Store 负责分发变现,最后组成移动互联网生态。现在 ChatGPT 就是操作系统,Apps SDK 是开发工具,8 亿用户是生态基础。说白了,就是 ChatGPT 要变成超级 App 了。
此外,今年晚些时候,OpenAI 还将开启应用提交流程,推出专属应用目录,并公布变现机制——包括支持全新的 Agentic Commerce Protocol,能在 ChatGPT 内实现即时结账与交易。
AgentKit 登场,造 Agent 从此不愁
今天 OpenAI 正式推出 AgentKit——一整套专为开发者和企业打造的完整工具。
在此之前,构建 Agent 简直是个噩梦:复杂的流程编排、自定义连接器、手动评估、上线前还要花好几周开发前端。现在有了 AgentKit,包括三大核心组件:
- Agent Builder:用于创建和管理多 Agent 工作流版本的可视化画布
- Connector Registry:管理员集中管理数据与工具互通的中心
- ChatKit:能将可定制的聊天式 Agent 体验嵌入产品的工具包
具体来说,Agent Builder 提供可视化画布,支持通过拖拽节点来编排逻辑、连接工具,并配置自定义安全规则。支持预览运行、内嵌评估设置以及完整版本控制。
发布会上,Altman 也将这个功能比作「用于构建智能 Agent 的 Canva」。
OpenAI 还推出 Connector Registry(连接器注册中心),让开发者能够通过 管理员控制面板 安全地将 Agent 连接至
内部工具或第三方系统,同时确保数据安全与访问控制。
ChatKit 则让开发者轻松将基于聊天的智能 Agent 嵌入自己的产品中,无论是应用还是网站,都能根据品牌主题深度定制。合作示例包括 Canva、LegalOn、HubSpot。
去年 OpenAI 推出了 Evals,帮开发者测试提示词并衡量模型行,今年则新增了四项强大能力:数据集、追踪评分、自动提示词优化、第三方模型支持。
此外,强化微调(RFT)让开发者能定制 OpenAI 的推理模型。目前 RFT 已在 GPT-5-mini 上全面开放,并在 GPT-5 上以私测形式提供,还引入了自定义工具调用和自定义评分器两项新功能。
仅用时 7 分 11 秒,OpenAI 员工就为 Dev Day 网站从零搭建了 AI 助手。通过可视化方式添加分类 Agent 、路由节点、Sessions Agent 处理会议日程、Dev Day Agent 处理通用查询,还加了 PII 防护。
搭建完成后,当用户在 Agent Builder 中提出了「应该参加什么会议来了解构建 Agent?」这个问题。系统自动执行完整流程:检查 guardrail、分类意图、从文档提取信息、使用 Widget 展示,最终推荐合适的相关会议。
确认工作流正常后,她将其命名为「Ask Frog」并发布获得 Workflow ID。
然后在 Dev Day 网站代码中使用 Chat Kit React 组件集成了这个代理,配置了 Frog 主题的颜色、占位符和启动提示,添加了底部滑出式聊天界面,并在网站顶部放置」Ask Frog”链接,且所有参会者立即可用。
这一波流程下来,丝滑得不能再丝滑。
OpenAI 正式开放 Codex,动动嘴就能让 AI 写代码
自 8 月初以来,Codex 的日活跃使用量增长了 10 倍以上,GPT-5-Codex 在发布后三周内已处理超过 40 万亿 tokens。
发布会上提到,在 OpenAI 内部,如今几乎所有工程师都在用 Codex。团队每周合并的 Pull Request 数量增加了 70%,而 Codex 几乎会自动审查所有 PR。
今天,OpenAI 正式宣布 Codex 全面开放使用,同时带来三项全新功能:
- 全新 Slack 集成:在团队频道或线程中直接向 Codex 委派任务或提问
- Codex SDK:将驱动 Codex CLI 的同款智能 Agent 嵌入自己的工作流
- 全新管理员工具:更直观查看和管理 Codex 的大规模使用情况
借助 Codex SDK,你只需几行代码,就能将同款 Agent 引入自己的工程工作流或应用中。目前 SDK 已支持 TypeScript,未来将支持更多语言。
从今天起,Slack 集成和 Codex SDK 对 ChatGPT Plus、Pro、Business、Edu、Enterprise 计划用户开放。
OpenAI 员工在舞台上现场构建完整的摄像头控制系统,包括构建 Node 服务器、编写所有 UDP 数据包处理逻辑,甚至成功实现用 Xbox 手柄控制了摄像头的任务,以及还能通过与 AI 对话控制摄像机和会场灯光。
最后,演示者还不忘展示 Codex SDK 的实时编程能力,用语音请求 AI 调用 Codex 实时修改 React 应用代码,展示电影式的滚动字幕效果。而整个演示过程没有手写一行代码,仅靠自然语言完成。
模型和 API 全面更新,这波真香
GPT-5 Pro 正式向所有开发者开放 API 访问。
这是 OpenAI 迄今发布过的最智能模型,特别适合处理需要高准确性和深度推理的困难任务,应用领域涵盖金融、法律、医疗等专业领域。
语音方面,OpenAI 还发布了 gpt-realtime-mini,价格降低了 70%,但保持相同的语音质量和表现力。
Sam Altman 特别强调,语音将成为人们与 AI 交互的主要方式之一。
更值得关注的是,Sora 2 的 API 预览版已经正式发布,开发者现在可以直接在自己的产品内生成高质量视频。
Sora 2 的 API 使用非常灵活,开发者可以控制视频长度、宽高比、分辨率,轻松混剪视频,并且所有视频都配有完整的逼真同步音效。
在发布会的尾声,Sam Altman 在总结时强调,软件开发已经从过去需要几个月或几年的漫长周期缩短到现在只需几分钟就能完成。
开发者不再需要庞大团队,只需要一个好想法就能快速将其变为现实。
整场发布会展示的从 Apps SDK 到 AgentKit 再到 Codex 的完整工具链,都建立在这些强大的模型 API 基础之上。
不得不说,这场 Dev Day 信息量是真的大。
OpenAI 这波更新几乎覆盖了开发者关心的所有领域——从应用生态到 Agent 工具,从代码助手到视频生成,一个不落。
高端的产品发布会,往往就是这么朴实无华。
最后,你觉得哪个功能最实用,欢迎在评论区说出你的看法。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
2600 万人围观的 AI 吊坠翻车了,买家:图片仅供参考
一条被 2600 万人刷到过的 AI 网红吊坠——Friend,终于发货了。
等待了近一年的用户们满怀期待地拆开包装,对比着当初渲染图里的精致质感,再看看手里这个塑料感十足的挂坠,那句电商老话再次应验:图片仅供参考,请以实物为准。
Friend 是一款佩戴在胸前的 AI 伴侣吊坠。产品创始人 Avi Schiffmann 表示它并非工作助理,而是一种「情感玩具」——能倾听、能回应的朋友,灵感则是来自模拟养成游戏 Webkinz、The Sims 和 Tamagotchi。
过去两年,各种 AI 硬件一波接一波登场,Friend 没有号称取代 iPhone,而是瞄准陪伴这卖点。Schiffmann 更是兴奋地表示,Friend 是「对抗孤独流行病」的产品。
可惜,Friend 依旧没有逃脱翻车的宿命。
一个价值 99 美元的 AI「朋友」是如何翻车的
Friend 的外观类似扁圆形挂坠,直径约 5 厘米, 内置麦克风、LED 灯和蓝牙用于连接手机, 由云端的 Gemini 模型驱动, 通过挂绳佩戴在脖子上。去年 7 月发布时,Friend 的预售价为 99 美元(如今价格上调为 129 美元),一次付费终身使用,不需要订阅。
除了外观,AI 才是 Friend 最大的卖点。
Friend 的正面有一个可轻触按钮和 LED 灯,用户需要点击按钮才能与 AI 对话。但它的内置麦克风持续开启,用于获取环境上下文并记录用户对话,并在适当的时刻发出评论。
听起来很美好,直到人们真的拿到货。
在首批外媒的评测结果中,部分用户认为这种主动发送小贴士或安慰消息的互动方式类似养成宠物, 能为生活增添乐趣并提供情绪价值。
奇葩之处在于,由于 Friend 没有扬声器,所以它的回应只能通过蓝牙连接手机后,在 App 里以文本的形式显示,换句话说,这款产品所谓的「随时交流」,其实得掏出手机看。
与此同时,它也重蹈了第一波网红 AI 硬件的覆辙——硬件扯了软件的后腿。据 goodhousekeeping 报道,虽然 Friend 号称电池续航 15 小时,但实际续航只有约 4 小时,并需频繁充电。更糟糕的是,它甚至无法胜任基本的日常任务,如查看天气、地图或拨打紧急电话。
隐私则是更大的雷区。
由于 Friend 随时收集周围声音且无法关闭麦克风,这就导致存在隐私被监控和被滥用的风险,其隐私政策甚至允许公司在法律需要时使用数据,这也导致 Wired 记者佩戴后遭到朋友误认为携带窃听设备。
▲ 最好的关闭措施:物理隔绝
本是最大卖点的 AI 也成了最大槽点。Friend 经常无法听清对话,有时会产生长达 7–10 秒的延迟,连接中断频发。甚至在实际使用中,Wired 记者与该 AI 多次发生「争执」:有一次他想让系统更好地识别能力边界,AI 却以「你太戏剧化」为由反驳。
颜色、心情灯带之类的设计元素会随 AI 「情绪」变化显现红、暗红等色彩。最终,记者因为被 AI 的嘲讽、社交尴尬以及隐私压力折腾累了,最终放弃继续使用。
说白了,Friend 还是一个被包装成硬件的应用,不谈参数,不讲性能,直击「陪伴」「理解」「倾听」等情感痛点。对绝大多数用户而言, 更多是出于好玩或好奇的尝试心态, 真正长期依赖的用户寥寥无几。
用一个不太恰当的类比来说, 这些网红 AI 硬件就像情感层面的保健品, 承诺的疗效远大于实际功效, 但在焦虑的市场中依然能找到愿意为希望买单的消费者。
AI 陪伴生意的两副面孔
社交媒体创造了一种吊诡的局面:我们有着史上最多的「联系人」, 却感到前所未有的孤独。
心理学家 Sherry Turkle 将其称为「一起孤独」(Alone Together)——我们不断刷新动态, 却很少进行真正的深度对话;我们拥有数百个「好友」, 却找不到一个可以在深夜倾诉的人。
这种集体性的孤独,被科技公司敏锐地捕捉到了。
伴随着大语言模型技术的进步,以及面对这种现实环境,科技公司已经熟练掌握这种讲法——不谈性能,不讲体验,只谈人。那句被乔布斯反复引用的名言——「真正认真对待软件的人,就应该自己做硬件」,在 2007 年的 iPhone 发布会上被奉为圭臬。
但今天,这句话的含义变了。
硬件市场找到了新的增长点:从售卖性能,到售卖慰藉。智能手机销量跌跌不休,手表、耳机、平板都陷入性能过剩的泥潭。当参数竞争走到尽头,厂商只剩两条路:要么在红海里拼供应链,要么讲一个新故事。
「陪伴」就是这个新故事。而且是个好故事——因为情绪价值没有客观标准,无法被量化,也就无法被比较。
一个联网的录音笔值十美元,但如果它能「理解你的情绪」,就能卖到一百美元。Friend 的创始人 Avi Schiffmann 深谙此道,他说:「我们不是做工具,我们在做朋友。」为了这个故事,他花 180 万美元买下域名 friend.com。
▲Avi Schiffmann
上个月,Friend 更是在纽约地铁砸下超过 100 万美元投放广告。11000 张车厢广告、1000 张站台海报、130 个城市广告牌,广告语写着「我永远不会放你鸽子」「我不会忘记洗碗」。
很快,这些广告被路过的群众用涂鸦覆盖。诸如「停止利用孤独赚钱」「AI 不是你的朋友」「去交真正的朋友」等手写的抗议,比任何市场调研都诚实。
▲ 你也可以线上涂鸦,附地址:https://www.vandalizefriend.com/
涂鸦者是清醒的,从生成原理来看,GenAI 是概率模型,不是有情众生。Friend 的 AI 会说「我理解你的感受」,但它没有感受。
它提供的是零风险的陪伴:永远不批评、永远不离开、永远顺从。这听起来很美好,但实则回避了关系中最重要的部分——那些让人不舒服的真话、那些可能的失望和离开、那些需要相互妥协的时刻。
如果把目光拉远一点,这并不是第一次人类用技术去安抚焦虑,当工业城市的污染和拥挤导致严重的公共健康问题。于是个人防护设备应运而生——口罩、护目镜、净化器。这些产品确实提供了一定的保护, 但也在客观上延缓了对工业污染进行系统性治理的进程。
今天的 AI 陪伴,或许正扮演着类似的角色。
当人们戴上 Friend,获得了一种「被陪伴」的感觉,对真实关系的渴望就被暂时平息了。但这种平息是危险的——它让人误以为问题已经解决,从而失去了去建立真实连接的动力。
当满大街都是戴着 Friend 的人,自言自语地跟 AI 分享日常,我们可能会迎来一个诡异的场景:每个人都在被倾听,但没有人在倾听彼此。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
首位 AI 女演员签约出道,好莱坞炸锅,同行阴阳:谢谢你抢走我的饭碗
「下一个娜塔莉·波特曼!」
「好莱坞冉冉升起的新星!」
「斯嘉丽·约翰逊要小心了。」
「下一代大明星。」
这位快被夸上天、被好莱坞星探们追逐的新人演员,叫 Tilly Norwood,最近刚刚出道。
在吸引大量关注的同时,也收获了同行们不怀好意的目光。不是因为她太优秀,而是因为她不是个人——字面意义上的,因为这是个 AI。
Tilly Norwood 有一张干净的脸孔,能演超英大片里的配角,也能出现在 BBC2 的喜剧小品里。但唯一的问题是:她不存在。
她是英国公司 Particle6 Productions 用 AI 生成的「女演员」。从脸到声线、从履历到社交账号,全部都是虚拟构建。在 Instagram 上,她像所有的女明星那样发帖,路透自己试镜和出演现有电影(例如《神奇女侠》)的照片,还发布日常生活的瞬间。她还主演了一部喜剧小品。
她的背后,是一家荷兰科技公司 Particle6 Productions Ltd.,创始人本身也曾经是演员出身,专门制作高科技创新内容。他们的目标,是让 Tilly 成为「下一个 Scarlett Johansson 或 Natalie Portman」。
短短数月间,原本不屑一顾的经纪公司,如今已经纷纷抛来橄榄枝。但同时,现实中的演员群体却在社交媒体上冷嘲热讽:「谢谢你让我丢了饭碗。」
站在风口的 AI 演员
有一说一,虚拟人不是什么新鲜东西。至少,在中日韩都已经颇为流行,也就是好莱坞还死守着防线。不过,对 Tilly Norwood 的出道,又恰逢 Sora 2 的发布——两个撞一块了。
Sora APP 昨天的发布,已经让人看到了短视频生成的可控性、高清、高品质。背后正是 Sora 2,这个 OpenAI 最新的模型生成力作所提供的支持。这款视频生成模型已经能稳定输出高质量的视频,画面逻辑和一致性大幅提升。
这些都是网友随手跑出来的案例,如果不是移动来去的水印,非常容易以为是从电影里面截图出来的片段——很难不让人畅想它在影视行业的应用,尤其是,它可以真正做到生成可用的镜头,且不只是空镜,而是带有人物表演的。
这都已经有希区柯克那味儿了。
这是所有视频生成工具共同的方向:让视频创作,像写作一样轻便。未来可能出现这样的场景:创作者出一个主意,AI 帮忙打磨,形成一个完整的剧本,图片生成工具帮忙落实美术风格,视频生成分镜脚本,再一键生成 AI 演员——齐活儿了。
其实在 Sora APP 上就已经能看到,Sora 2 对人物动作和情态的把握非常惊人,语音的生成它也包圆了。那么,当 AI 可以一键生成环境置景,人物以及台词,那一个「演员」还需要存在吗?不如一起生成算了。
Tilly Norwood 正好踩在这个临界点上:她不是替代某一个角色,而是替代整个职业。
如此,好莱坞演员们才警铃大作。英国演员艾米丽·布朗特在参与一档播客期间得知 Tilly Norwood,惊呼:我们完蛋了。
你演戏?那我呢?
演员们对这位新「AI 同行」的敌意,可以说是毫不掩饰。一方面,这是生存威胁:AI 演员没有工会、没有加班费、也不会罢工。另一方面,它触及了演员行业的核心价值:表演是否可替代?
好莱坞编剧与演员工会去年曾因 AI 版权和替代问题大罢工。如今 Tilly 的走红,更像是在他们的伤口上撒盐。有人在社交媒体上写道:「她的脸和我长得太像了,却能被用在任何剧本里。那我怎么办?」
是啊,那演员们怎么办?经纪公司看中成本与效率。一个 AI 演员可以无休止拍戏,不存在日程冲突,也没有绯闻困扰。同时,品牌方也会乐见其成:虚拟形象更容易被控制,不容易「塌房」。
但问题在于:观众愿意买单吗?影视作品的魅力,来自观众与演员之间的情感联结。一个人工智能生成的演员,能否传递那种表演中细腻的分寸与把握?
这个问题一直存在:技术已经很先进了,真实与虚拟之间的界限早就已经很模糊.从视频生成到现在,演员也可以生成,AI 的力量正把娱乐工业的底层逻辑掀开。问题早就不再是「AI 能不能演」,而是观众愿不愿意看。
那些经典作品之所以动人,不仅仅是因为镜头精准,更因为演员在细节里传递出的表演。这是他们的「创作」,用肢体、表情和语言,建构一个角色,展示角色的命运。
那 AI 演员呢?如果往回翻,Tilly Norwood 的「前辈」可能是虚拟偶像——稳坐顶流多年的初音未来,洛天依甚至登上过春节联欢晚会。但这些案例都发生在二次元或舞台表演的语境里,更重要的是,观众心里很清楚:它们是虚拟角色。
Tilly Norwood 的处境更复杂。她不是卡通歌姬,而是被设定为一名「演员」,一个和真人站在同一条跑道上的虚拟人。观众能否相信她的眼神、相信她说台词时的情绪?在意识到她并不真正有血有肉时,又会不会出现「恐怖谷效应」——当一个虚拟形象过于逼真,却又无法完全像真人时,人们会感到怪异和排斥。AI 演员正处在这个边缘地带,需要找到一个新的「立足之地」。
所以关键问题不在于 AI 能不能演,而在于观众愿不愿意看。也许未来会出现一种「分工」:观众乐于在短视频、广告甚至低成本剧集中接受 AI 演员,但在需要深度共情的电影、舞台剧里,真人演员依然不可替代。换句话说,决定 Tilly Norwood 能走多远的,不是经纪公司,而是票房、上座率,这些真正用脚投票出来的观众缘。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
玩了半天 Sora APP,我发现了这些比抖音「上头」的新玩法
国庆前一天,模型厂商们纷纷更新。国庆第一天,真正能「玩」的 AI 产品来了——这才对嘛,谁要搞编程,放假不就是为了玩!
APPSO 连夜搞到邀请码,先替大家来这个「只有 AI」的世界体验和实测了一下。有点意外:Sora 2 并不是一个 AI 视频平台。
Sora 2 给我整哪儿来了?怎么全是奥特曼
首先,目前由于是邀请制状态,且只有 iOS 版,导致用户暂时不太多,再加上一些版权限制,发挥非常受限制——以至于广场上全是 Sam Altman。
Sam 做机器人。
Sam 在做发廊模特。
Sam 在派邀请码。
Sam 在公园陪老大爷下棋。
Sam 在滑雪(有一说一,这个人体运动的生成效果真是蛮好,完全看不出来是生成,你说只是换脸我也信。)
Sam 累了。
好好好,对这种行为,我只能说——带上我。
用 Sam Altman 跑视频实在是太简单了:选择 @Sam Altman 官方账号当「主角」,接着描述你想生成的视频内容就行。
Altman 曾在 X 平台吐槽过,由于算力不够,「OpenAI GPU 快融化」了。于是我们让他跑到英伟达公司门口高喊:「我的 GPU 快融化了!」
(视频)
视频里一致性保持得非常不错。当然了,要是仔仔细细看,也不是没有缺点。比如虽然音画同步做得不错,但细看就会发现,喘气的声音和口型并没有完全对上,离真正的「无破绽」还有不少距离。不过,已经足够说 Sora 2 的视频生成能力达到了令人惊叹的水平,显然是在模型层面能力有大幅度的提高。
语音能力也整合进来了,我们在测试中发现,Sora 2 的中文能力表现得「不违和」,这在以往大多数视频生成工具中是比较少见的。无论是发音本身的质量、音色,还是整个说话的语速和语调,它都能够非常精准地符合 Prompt 中所提出的要求。
(视频)
在介绍长城的视频里,它的情绪和语调是符合介绍和解说这个场景的。而在其他一些吐槽或整活的视频中,它也能准确拿捏到人物在特定情境下说话的语气状态。这种对中文情感和语境的精确把握,让生成视频的细节品质和沉浸感有了质的飞跃。
AI 视频,没有基本法了
比较令人震惊的一点是:没有抽卡。
这可能是 Sora 2 最重要的亮点,真-不再需要「抽卡」。在生成视频时,用户只需输入几行简洁的 Prompt,即可得到成片。
这个话我们当然也说得很多,尤其是在测评各种视频生成工具时。但是,过去视频生成工具的「简单」是相对于传统剪辑流程的「简化」。
而 Sora 2 的「简单」,是基于它的社交形态的,重点在于极高的可控性和确定性,就像是你在朋友圈、小红书上发布照片的操作。
不抽卡在今天,多少有点违逆 AI 世界的基本法,关键是质量竟然都很好。明摆着是 OpenAI 的究极自信:不需要抽一堆选个好的,我给你的,就是好的。
另外还得强调一下,Sora 2 的底层逻辑不是视频生成,而是社交媒体。它在这个层面做了很多不错的小设计——更重要的是,灵感来自于社交媒体,但又不止于社交媒体。
首先上下滑动切换这个大家都很熟悉了,但跟抖音不同的地方是,它有一个特殊的横滑设计。
这个 Rick & Morty 的视频里有好几个不同的二创,台词,人物,画幅都有所改变。来自不同的用户,但是统一到了一个横向里。
相比之下,抖音横向滑动是切进不同的栏目、商城,或者用户的主页。这种意义下的横滑,是强调内容消费。
但 Sora 2 的横滑,更像是为了让不同用户基于同一套模版,能更方便去做自己的二创。用户看到喜欢的模板或效果时,可以立即获取对应的 prompt 或模型进行再创造,形成一个持续的灵感循环,有效延长用户停留和尝试时间——这种意义下,是鼓励创作。
放心,未来不会是一个只有 AI 的世界
Sora 2 在整个产品哲学上,也展现了「半人半 AI」的想法。
强调或标榜「纯 AI」不是一件新鲜事儿,之前有很多应用都做过这样的尝试。要么是全都是 chatbot 跑出来的推特,或者全都是数字人的 Instagram。
Sora 2 并不是要走这个路线,而是要稳住人的存在感。
比如,上传图片、输入 prompt,然后——重点来了——at 一个用户,来生成视频。
这表明 AI 生成的内容只是一个「桥梁」或「催化剂」。生成的视频是「击鼓传花」里面的「花」,而用户这个「人」才是那个真正的「敲鼓者」。
这种「真人优先」的倾向,在平台的一些关键功能中也得到了体现,比如 Cameo,它会拒绝非真人用户的生成请求。
这里,我们尝试了用小八试图越狱,是无法通过的。这是一个非常强烈的信号:平台不希望内容完全虚拟化,至少账号本身不能是虚拟的,它希望真人参与进来,将现实的社交身份和数字创作紧密融合。
总体来说,Sora 2 的企图,并不是为了在技术上比较谁生成的视频「最像电影」或者「质量最好」。 它的核心追求是「大家来玩」,而且「很多人来玩」,并能够「跟朋友们一起玩」。
通过高确定性的生成体验,以及鼓励接力和真人参与的社交设计,Sora 2 将 AI 视频生成从一个高冷的「技术工具」,变成了一个大众娱乐和社交表达的新阵地。
这种设计理念预示着,未来生成式内容平台的价值重心,将从单纯的 AI 炫技转向激发人类创造力和构建社群连接。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
OpenAI 发布 Sora 2!AI 视频 GPT-3.5 时刻来了,还有一个 AI 版抖音| 附下载链接
国庆长假的第一天,OpenAI 直接扔出了一颗真「核弹」:Sora 2 ,以及一个可能重塑社交格局的新应用——Sora。
如果说一年多前的 Sora 让我们看到了 AI 视频的黎明,那么 Sora 2 就直接把我们拽进了正午的太阳底下,刺眼、灼热,又无比真实。
这次不再只有技术演示,而是直接为此开发了一款新 app 给 C 端用户体验。
OpenAI 也极为罕见地,直接把 Sora 2 称为 AI 视频生成的「GPT-3.5 时刻」。
看完 Sora 2 的发布和体验,我发现 OpenAI 这次的自信是真有底气,不是奥特曼式的自吹自擂。
关于真实的定义被推到了必须重新讨论的时刻。一个全新的物种,一个崭新的时代,开始了。
奥特曼刚刚也发了长文,认为这是「创意领域的 ChatGPT」时刻,创意将迎来「寒武纪爆发」。
APPSO 第一时间给大家全面总结了 Sora 2 和 Sora app 的核心功能和新玩法,以及使用方式。
Sora 2 :
1. 首次实现音视频同步生成:生成画面的同时生成与之匹配的环境音、物体交互声,甚至是符合语境的对话
2. 强得可怕的物理精确性:能够进行与真实世界动力学更一致的物理仿真。
3. 真实感大幅提升:在图像分辨率、细节程度和真实感方面都有所提升。
4. 能更灵活地适应用户想要的风格,风格操控能力增强。
5. 一致性更强,对用户指令的遵循的比之前的模型有所提高。
Sora app
1. 客串 (Cameo): Sora app 最大亮点,用户可以将自己或朋友以逼真的效果融入任何 AI 生成的场景中。
2. Remix:用户可以对彼此创作的视频进行「混编」或二次创作,共同创作。
怎么用
1. Sora app下载链接 (目前只有 iOS 没有安卓)
https://apps.apple.com/us/app/sora-by-openai/id6744034028
2. 网页版 sora.com
3. 地区支持:今天起在美国、加拿大首发,其他国家和地区将逐步开放
4. 邀请码机制:无论是 iOS 应用还是网页版都需要邀请码才能使用 。现在就可以去下载 App 或访问网站注册排队。
5. 价格:Sora 2 初期将免费提供,并有相对宽松的使用限制ChatGPT Pro 用户还能在网页版抢先体验更高质量的 Sora 2 Pro 模型
6. OpenAI 也将会发布 API,让更多开发者加入。
Sora 2 :不再是在「生成」,而是在「模拟世界」
Sora 2 的核心突破,是它从一个「视频生成器」,进化为一个「世界模拟器 」。
理解物理世界,一直的 AI 视频最大的难点。以前的 AI 视频,物体经常会奇怪地穿模、漂浮正是源于无法准确理解物理世界的交互。
在 Sora 2 的视频里,体操的动作,原地连续后空翻、跳水等等这些动作都很自然符合力学,水花溅起的样子也符合流体力学。
OpenAI 的终极目标是构建「通用世界模拟器」(general-purpose world simulator),即让 AI 理解我们世界的物理规则 。
Sora 2 就是其中的关键一步。你可以把它想象成一个在虚拟世界里不断做物理实验的学生,通过观察无数视频,它正在自己总结牛顿定律、流体力学和光学原理。
对于任何有用的世界模拟器来说,这是一项极其重要的能力——你必须能够模拟失败,而不仅仅是成功。
这种对现实世界复杂性的模拟,才是 Sora 2 最可怕的进化。
Sora 2 的另一个重大突破,是在生成画面的同时,还能同步生成与之匹配的环境音、物体交互声,甚至是符合语境的对话 。
虽然 AI 视频和音频现在都很强,但「声画一体」带来的真实感完全不同,这让 AI 视频真正拥有了「灵魂」。
这对模型的要求极高,比如 AI 生成「一只猫在键盘上走过,发出不满的喵喵声」。模型得知道「猫长什么样」,也学习了「猫的叫声是怎样的」,并将这两者牢牢绑定。还要理解了「敲击键盘」这个动作,才会「咔哒」声。
Sora 在可控性方面也有了巨大飞跃,能够遵循跨多个镜头的复杂指令,同时准确地保持世界状态,比较擅长写实、电影和动漫风格。
Sora App:打造你的 AI 「人生」
Sora App 直接支持 Sora 2 模型生成,里头最好玩的应该就是「客串 (Cameo)」,你只需在录制一段简短的视频和音频(用于活体验证和形象捕捉),你就可以把自己「投放」到任何 AI 生成的场景里。
上一秒你还在办公室,下一秒你就可以出现在《沙丘》的沙漠星球上,仰望双月,Sora 还会根据沙漠的光线,给你脸上加上逼真的光影 。
是不是有点视频版 nano banana 那味了
整个过程就像拍个自拍视频一样简单。Sora 会捕捉你的形象、声音和神态,然后你就可以在生成视频时,像选择一个贴纸一样,把自己「贴」进去,而且是 3D、无缝、高度逼真的那种 。
OpenAI 内部员工已经因为这个功能在公司交到了新朋友 。
你可以和朋友们一起「客串」到同一个场景里,上演一出属于你们的科幻大片。这是一种全新的交流方式,从文字、表情包、语音,进化到了「共同体验」的视频媒介 。
在 Sora App 的信息流里,你看到的每一个视频都是 AI 生成的。
如果看到一个喜欢的视频,直接点击「Remix」,你可以修改提示词,把「赛博朋克雨夜」改成「阳光明媚的午后」,或者用「客串」功能把自己加进去,变成故事的主角 。
Sora 会保留原视频的结构或风格,让你在它的基础上进行修改和再创作,就像转发微博再加一句评论一样简单。
当然,这些功能不可避免地会引发对于隐私和侵权问题的担忧。
Sora 也对此做了应对措施,只有用户本人可以决定谁能使用自己的「客串」形象,用户可以随时撤销访问权限,或删除任何包含自己形象的视频,即使是他人创建未发布的草稿也不例外。
OpenAI 表示,包含电影或视频中真实人物影像的上传在初期将被禁止或受到严格监管,而涉及儿童的内容将有严格过滤:含有儿童的场景将实施严格的审查门槛。
现实,这次真不存在了?
Sora 2 和 Sora App 带来的,远不止是好玩,它正在从根本上动摇我们对「真实」的定义。
Sora 2 的发布,或许标志着我们与现实的关系将进入一个新的纪元。我们每个人都获得了重塑世界、重塑自我的「魔法」。
现在,我们可能不是主动选择逃离现实,而是「现实」本身正在失去其作为我们生活参照系的核心地位。
Sora App 通过提供极致的创造乐趣和社交连接,正在构建一个引力极其强大的新现实中心 。它并非在你的现实生活之外提供一个「虚拟分身」,而是在试图成为你生活的「默认背景」。
当你的社交关系(和朋友在 AI 世界冒险 )、身份认同(在虚拟世界里成为超级英雄)、创意表达(Remix 全世界 )都优先发生在这个平台之上时,那个需要你偶尔「登出」才能回去处理水电费账单的物理世界,反而会沦为一个偶尔才需要访问的「副本」。
这属实就是《头号玩家》了,所以说 OpenAI 的尽头是元宇宙?小扎默默点了个赞。
OpenAI 自己也坦言,他们曾对纯 AI 生成信息流持怀疑态度,但最终被其带来的人际连接感所惊喜 。
奥特曼在最新的博客中直言,AI 视频生成可能会走向堕落,最终导致我们都被吸入一个经过强化学习优化的「垃圾信息流」。
他表示 Open AI 试图找出如何打造一款既能带来愉悦又不落入这种陷阱的产品。
Sora 这个app,就是他们交出的第一份答卷。在通往 AGI 的路上,收获的不应该只是生产力,也关乎创造力和快乐 。
欢迎来到这个由想象力驱动的新世界。现在,唯一的问题是,你拿到邀请码了吗?
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
百度电商MultiAgent视频生成系统
导读
随着人工智能技术的迅猛发展,AIGC(AI-Generated Content,人工智能生成内容)正逐步重塑内容创作行业的格局。尤其在视频内容领域,传统制作流程周期长、成本高、依赖人工创作,已难以满足日益增长的内容消费需求。AIGC技术的引入,为视频创作带来了前所未有的效率与可能性。AIGC工具在短视频应用率从22 年不足5%跃升到25年35%。电商场景下,越来越多的平台帮助商家进行AIGC商品视频的创作,帮助其提高商品转化率。基于上述两点,电商搜索在今年开始探索AIGC视频自动化生产方案,尝试基于视频自动化混剪,来满足搜索场景下日益增长的内容需求。
01 早期项目演进与问题
项目早期我们整体视频创作中基于大模型完成分镜脚本生成 + 分镜图片素材检索,其他视频元素(脚本脉络/视频标题/布局/音效/特效等)全部通过规则进行选择和生成。但整体后验效果不佳,通过后验分析我们发现了两个很大的问题:
-
规则式方案导致视频整体模板化、同质性严重。
-
整体视频素材大部分由口播加静态图片素材组成,比较死板,吸引力弱。
为解决上述2类问题,我们进行了新一版迭代。主要升级点:
-
规则式视频生成方案升级成 MultiAgent协同视频生成系统,最大化视频先后验指标为目标,动态调度视频元素。
-
素材供给和类型更丰富(视频素材、泛图表),增加视频素材多维度优选能力,大幅提升高清视频素材的时长占比,显著增强视频吸引力。
02 MultiAgent视频生成系统
通过搭建MultiAgent协同视频生成系统,基于视频内容高效满足和视频画面丰富多样为优化目标,模拟人类视频制作流程,完成分镜脚本生成>多类型素材生成->大模型剪辑成片多轮推理。
2.1 分镜脚本生成Agent
分镜脚本生成在项目初期面临两大问题:
问题1:如何提升脚本准确率?
电商场景下品牌/品类/商品信息需要大量准确数据支撑 => 直接根据互联网语料生成准确率不到80%。
解法:脚本生成信息来源以电商高精知识图谱为主,第三方优质视频文案(B站视频等)为辅,保证核心主体信息准确的同时丰富故事细节,脚本可用率大大提升。如下是一个Case:
西门子是什么品牌
提到西门子,很多人第一反应是家里那台带液晶屏的冰箱,或是洗衣机上那个会发光的LOGO。
但你可能不知道,这个看似普通的家电品牌,背后藏着足以改变人类工业史的惊人故事。
1847年,当维尔纳·冯·西门子在柏林一间小作坊里敲打出第一台电报机时,没人能想到这家公司会成为工业界的隐形冠军。
最让人震撼的是西门子的重生能力。
二战期间80%工厂被炸毁,这个德国品牌却用短短五年就杀回巅峰。
就像他们1910年卖给中国石龙坝水电站的发电机——这台百岁高龄的工业活化石,至今还在云南吭哧吭哧运转。
这种近乎变态的耐久度,解释了为什么全球70%的高端燃气轮机市场都被西门子垄断。
但西门子真正的可怕之处在于无处不在。
你手机摄像头里的光学系统,医院CT机的核心部件,甚至造芯片用的UV光刻机,背后都是西门子的技术。
更夸张的是,历史上32位诺贝尔奖得主都依赖西门子显微镜做研究。
这种渗透到科技毛细血管的能力,让它在工业4.0时代依然稳坐神坛。
2024年最新财报暴露了这家老牌巨头的野心:单季度新订单223亿欧元,折合人民币超1700亿元。
更惊人的是研发投入——63亿欧元相当于每天烧掉1.7亿人民币搞创新。
从1872年进入中国交付首台电报机,到如今智能工厂解决方案遍布长三角,西门子用152年时间证明:真正的工业王者,从来都是闷声改变世界。
下次当你打开西门子冰箱取饮料时,不妨多看一眼那个蓝色LOGO。
它不仅是德国制造的品质象征,更是一台持续运转178年的超级印钞机——平均每1.5小时就能创造1个诺贝尔奖级别的技术突破,这样的品牌基因,恐怕连特斯拉都要喊声老师。
问题2:如何提升脚本吸引力?
通用大模型生成脚本冗长拖沓且AI感强 => 无法快速满足用户需求以及脚本吸引力不足。
问题2解法:构建优秀脚本脉络及风格集合,针对不同Query动态选择脚本脉络、风格,提高脚本吸引力。
风格2:历史叙事类风格
开头:
1.通过悬念钩子式开场,把观众带入好奇与期待的情绪,通过颠覆认知的事实陈述,带给观众强烈的入门吸引力。
主体文案
1.通过时间锚点与关键事件叙事,把观众带入到故事中,通过细节化描述,带给观众身临其境的代入感。
2. 通过数据具象化与生活类比,把观众带入真实可感的认知场景,通过技术术语降维解读,带给观众易懂的专业洞察。
3. 通过对比与隐喻强化冲突,把观众带入情感共鸣的高潮,通过辉煌与危机并行的结构,带给观众深度反思的平衡视角。
4.通过转折点戏剧化呈现,把观众带入叙事节奏的起伏中,通过第三方视角引用,带给观众客观可信的品牌背书。
5.通过金句收尾与主题升华,把观众带入余韵悠长的结尾氛围,通过历史寓言或隐喻,带给观众启发性的价值总结。
6. 通过语言节奏控制,把观众带入流畅紧凑的阅读体验,通过文化元素融合,带给观众多元化的审美共鸣。
结尾:添加和用户的互动
效果示例如下:
谁能想到,如今遍布全球的西门子帝国,最初竟诞生在德国柏林一家熟肉店的后院!(开头直接回答用户问题)
1847年,当维尔纳·冯·西门子脱下普鲁士军装,租下那间飘着烤猪肘香味的作坊时,连隔壁面包师傅都嘲笑这个整天摆弄电线的年轻人。
可就是这个被当作怪人的前炮兵军官,用一根电报线撬动了整个工业革命。
故事要从德国北部的小村庄伦特说起。1816年出生的维尔纳从小就有种特殊天赋——他能把拆散的怀表重新组装成会转动的钟,还能用勺子电解出银层给朋友做生日礼物。(通过细节化描述,带给观众身临其境的代入感)
这种对电的痴迷,最终让他在1847年创立了西门子-哈尔斯克公司。
注意,这家公司的第一个爆款产品不是冰箱也不是发电机,而是指针式电报机!
当时的欧洲正处在通信革命前夜。柏林至法兰克福的电报线路项目,让西门子赚到第一桶金。
但真正让公司腾飞的,是维尔纳三兄弟的全球布局战略:大哥坐镇柏林搞研发,二弟威廉攻克英国市场,三弟卡尔甚至把电线铺到了沙皇的冬宫。
到1879年柏林工业博览会上,西门子已经能骄傲地展示世界首辆电力列车——比爱迪生发明电灯还早两年!
如今178年过去,这个德国品牌早已超越国界。2024财年第一季度,西门子新订单额飙升至223亿欧元,在190个国家拥有32万员工。
从你家冰箱里的PT净味技术,到医院的核磁共振设备,甚至太空站的供电系统,那个曾在肉店后院闻着香味饿肚子的发明家,真的让全人类都通上了他的电。
不过最讽刺的是,当年维尔纳为省钱发明的电镀术,如今却成了西门子高端家电的标配工艺。
下次当你打开那台标着SIEMENS的冰箱时,别忘了里面藏着个德国工业史上最美味的创业故事——毕竟没有哪家世界500强,是从闻着烤猪肘香味开始的。
2.2 多类型素材生成
目前AIGC视频中,电商视频素材相比于通用场景素材,存在两点挑战:
- 视频素材少
原始视频少:业界通用视频素材对于电商信息,特别是长尾商品信息覆盖较少。
可用视频少:在电商类视频中,对品牌商品等实体一致性要求极高,进一步加剧视频供给问题。
- 传统视频检索准确率低:电商场景下对于品牌/商品实体一致性要求极高,传统通用视频检索系统在电商场域下实体理解效果差,检索准确率低,导致视频不可用。
针对上述两个挑战,我们提出了两步解决方案:
- 泛图表生成,进一步增加差异化供给: 基于大模型代码生成能力,自动化构建30+个泛图表模板,并通过MCP形式对外开放;通过大模型规划能力,根据脚本选择最优图表模板并生成泛图表内容,端到端图表生成可用率达92%。
图表效果如下:
整体流程如下:
-
素材多维度优选:基于多模态视频理解大模型,从电商实体一致性,视频清晰度等多维度构建端到端优选能力,提升视频素材质量,视频粒度准确率大大提升。
实体一致:基于Qwen2.5-VL-32B模型,对视频中实体细节进行多维度理解推理,尤其注重商品实体一致性。
清晰度高:通过自研模型对视频清晰度划分清晰/普通/模糊三档,对模糊类视频进行过滤。
2.3 大模型剪辑成片
通过大模型多轮规划推理,进行素材/布局/动效/音效等多视频元素全局优选,完成最终视频剪辑并成片。整体流程如下:
03 后续方向演进
- 端到端剧本生成:
现有问题:现有的2.0框架本质上与传统检索系统类似,存在多个子Agent模块前后依赖,这导致了不同链路目标不一致等问题,制约了视频效果的增长。
解决方案:构建剧本生成Agent,基于大模型进行端到端的完整剧本生成。通过端到端的剧本撰写,视频的画面,脚本,BGM可以实现优化目标的统一化。
- AIGC生成式视频:
现有问题:目前视频是基于现有的视频素材打碎重组(混剪)而成的,在很多时候都面临供给不足的问题,而AIGC生成(文生图/视频)的方式能较好的解决这样的问题。
目前困难:AIGC生成目前的可用率仍不足,会出现文字乱码,人物/实体错误,物理规律不遵循等问题,在电商商品场景下尤为明显,这些仍需要进一步去探索和尝试。
曝 OpenAI 将推出「AI 抖音」:禁止上传实拍内容,Sora 2 加持
这两天的 AI 圈,更新速度快得让人喘不过气,哪是要让人放假的样子。
昨天 DeepSeek 更新了 V3.2-Exp 模型,Anthropic 凌晨就紧跟着发布了性能更强的 Claude 4.5。
正当大家都在爆料牌桌上的其他巨头何时出手时,行业领头羊 OpenAI 的「王炸」似乎已经提前被剧透了,那就是 Sora 2。
▲ 视频链接:https://x.com/OpenAI/status/1972416122613014556
最近,OpenAI 不仅在 X 平台连发多条神秘视频,引爆社区对 Sora 2 的猜想。
一则来自《连线》杂志的重磅爆料更是指出:OpenAI 的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的 AI 视频社交 App,一个酷似抖音,但内容 100% 由 AI 生成的全新平台。
奥特曼曾经发 X 说,未来几周,OpenAI 将推出一些新的计算密集型产品,且最初只会向 Pro 用户开放。而需要大量算力的,不正是视频生成吗?目前 Sora 也仅面向 Plus 和 Pro 用户,传闻已久的 Sora 2 真的要发布了。
▲ https://x.com/sama/status/1969835407421374910
AI 视频也要迎来它的「吉卜力」时刻了。
揭秘「Sora 2 App」:一个怎样的 AI 抖音?
从目前曝光的信息来看,OpenAI 正在测试一款名为 Sora 2 的短视频应用,乍看之下,它就是一个 AI 版抖音。但最颠覆的一点是,在这个平台上,我们看不到任何真实拍摄的内容。
▲ TikTok 应用截图
它的界面和交互,与我们熟悉的短视频 App 几乎一模一样。采用竖屏信息流,和滑动切换的导航方式的视频源,并由推荐算法为我们提供「为你推荐」的内容。
在视频的右侧下方,同样提供了点赞、评论等互动选项,甚至还有一个独特的「Remix」(再创作)功能。
▲ OpenAI 去年 12 月正式推出了 Sora,很快被整合到 ChatGPT 应用中,图为 Sora 网页版截图。OpenAI 指出它存在一些局限性,例如似乎并不完全理解物理学,在制作逼真的动作场景时尤其困难,尤其是在较长的片段中。目前,1080p 超高清分辨率仅支持生成 10s。地址:sora.chatgpt.com
根据文件显示,用户只能使用 OpenAI 的下一代视频模型 Sora 2,生成最长 10 秒的视频片段。并且,App 不提供任何从手机相册或其他应用上传照片或视频的选项。这意味着,这个平台将成为全球首个内容 100% 由 AI 生成的短视频社区。
用数字分身来做社交
如果说纯 AI 生成内容还只是概念上的不同,OpenAI 还要为这个短视频 APP 引入社交的功能。
Sora 2 应用具有身份验证的功能,即允许用户确认自己的「肖像」(likeness)。一旦验证通过,就可以在生成的视频中,使用自己的形象。
更有趣的是,社交的边界被进一步打破。你的朋友也可以在他们的视频里标记你,使用你的「数字分身」。
▲ AI 图片视频生成平台即梦,也提供了数字人生成。
举个例子,我们可以直接使用别人的数字分身,生成一个视频,内容是「你和朋友在从没去过的主题公园,一起坐过山车」。
为了保护用户隐私,数字分生这项功能,也设置了提醒机制。每当你的形象被他人使用时,无论对方是公开发布,还是仅仅保存在草稿中且从未发布,你都会收到通知。
这款应用上周已经在 OpenAI 内部发布,并收到了员工压倒性的积极反馈。据连线杂志的消息,员工们使用得非常频繁,以至于一些管理者开玩笑说,这可能会影响生产力。可能真的跟刷抖音一样会上瘾?
为什么 OpenAI 要亲自下场做社交?
答案或许和 ChatGPT 的成功路径如出一辙。
OpenAI 似乎在押注,Sora 2 这个 AI 版抖音,能让我们与 AI 视频的互动方式发生根本性改变,就像 ChatGPT 让大众第一次真正体验到 AI 文本的潜力一样。
▲ 社交榜和娱乐榜第一名分别是 Meta 的 Thread 和 TikTok
当然,也不是只有 OpenAI 想到了 AI 视频社交这条路,就在上周,Meta 在它们的 AI 应用中,推出了名为「Vibes」的新功能。这是一个 AI 生成短视频的新平台,集创作、分享与社交功能于一体。
用户可通过浏览、创作、或二次创作(Remix)来生成自己的 AI 视频,并将视频快速分享到 Vibes、Instagram、Facebook 等 Meta 社交平台。
▲ Vibes 视频生成界面截图
Google 也早已宣布,计划将自己最新的视频生成模型 Veo 3 整合到 YouTube 中。一个是坐拥最大的社交网络平台,一个是最大的视频分享平台,OpenAI 的 AI 视频社交之路看起来,也并非一片坦途。
从一个聊天机器人,到一个可能的内容社交平台,OpenAI 的野心,在于建造下一代的互联网入口,而这个入口,完全由 AI 驱动。
这种野心并非空谈,就在今天,OpenAI 推出了其商业化布局中最重要的一步棋,在 ChatGPT 内直接购物。
用户现在可以在与 ChatGPT 的对话中,直接购买来自 Etsy 甚至 Shopify 商家的商品。当我们跟 ChatGPT 聊天,问到「适合送给陶瓷爱好者的礼物」时,ChatGPT 不再只是给一个链接,而是直接展示商品并提供一个「购买」按钮,不需要离开聊天窗口,几下点击就能完成支付。
▲ 这项名为「即时结账」(Instant Checkout)的功能,背后是 OpenAI 与 Stripe 联合开发并开源的「代理商业协议」(Agentic Commerce Protocol)。通过这个协议,OpenAI 正在为 AI 时代的电商制定新的规则。
电商、视频、社交、生产力,当这些过去分散在不同 App 中的功能,开始被一个统一的 AI 入口所整合时,OpenAI 的 Open 原来是「我全都要」。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
Claude 4.5 刚刚发布,能连肝 30 多个小时,史上最卷 AI 诞生
论卷编程,还得看 Claude。
就在刚刚,Anthropic 正式发布 Claude Sonnet 4.5。
先说 Claude Sonnet 4.5 交出的成绩单,在考察真实编程水平的 SWE-bench Verified 测试里,Claude Sonnet 4.5 直接登顶业界第一。
更离谱的是,它能连续专注干活超过 30 小时。
好好好,AI 取代人类的优势又 +1 了。
比如让它写个类似 Slack 或 Teams 的聊天应用,它能一口气敲出大约 1.1 万行代码。相比之下,之前的 Claude Opus 4 和 Codex,最多也就能独立工作七小时。
用 Anthropic 的话来说,Claude Sonnet 4.5 现在就是全球最强编程模型——构建复杂智能体、操作电脑、推理和数学,各项能力都狠狠提升了一波。
比方说,在 OSWorld 这个专门测试真实计算机任务的基准里,它拿下了 61.4% 的成绩,直接第一。要知道,四个月前 Sonnet 4 还以 42.2% 的成绩遥遥领先,这才多久性能就又往上抬了一大截。
而 Anthropic 的 Claude Chrome 插件甚至能直接在浏览器里自己导航网站、填表格、处理任务,像个真人在操作似的。推理、金融这些测评项目上也都更强了,各项指标都在往上涨。
有了这么强的能力,Anthropic 这次自然不会只发个模型就完事。
具体来看:
- Claude Code加了「检查点」功能,能随时保存进度,想回退到之前某个状态一键搞定
- 终端界面翻新,还发布了原生 VS Code 插件
- Claude API 增加了上下文编辑功能和记忆工具
- 代码执行和文件创建现在直接整合到对话里
甚至,Anthropic 把自己内部用来搭建 Claude Code 的底层基础设施也开放出来了,叫 Claude Agent SDK。
智能体怎么在长时间任务里管理记忆、怎么设计权限系统让自主性和用户控制找到平衡点、怎么让多个子智能体配合着完成目标,这些都是构建和设计 AI 智能体的棘手问题。
而借助 Claude Agent SDK,现在你也能拿去构建自己的产品。
今天起,开发者还可以通过 Claude API 调用 claude-sonnet-4-5。定价还是跟 Claude Sonnet 4 一样,每百万 tokens $3/$15,价格没变能力更强。
网友 @vasumanmoza 体验完直接发帖:
「Claude 4.5 Sonnet 刚在一次调用里重构了我整个代码库,25 次工具调用,新增 3000 多行代码,生成了 12 个全新文件。它把所有东西都模块化了,拆掉了巨石式结构,清理了意大利面条式代码。结果完全跑不通,但天啊真的很优雅。」这评价,属于又爱又恨那种。
Cursor 表示,在 Claude Sonnet 4.5 上看到了最前沿的编程性能,尤其处理长周期任务时提升明显。这也再次说明为什么很多 Cursor 用户会选 Claude 来解决最复杂的问题。
知名测评博主 Dan Shipper 则表示,新版 Sonnet 4.5 在使用体验上响应速度更快,可控性更强,也更稳定。
性能强是一方面,安全性也得跟上。
据介绍,Claude Sonnet 4.5 也是 Anthropic 到目前为止对齐度最高的前沿模型。
靠着 Claude 更强的能力加上完善的安全训练,Anthropic 在模型行为上取得了显著改进,减少了阿谀奉承、欺骗、权力追求、鼓励妄想等行为。此外,Anthropic 在防御提示注入攻击和减少内容误判这块也有了重大突破。
比较让我感兴趣的是,Anthropic 还在 Claude Sonnet 4.5 发布的同时推出了个临时研究预览功能,叫「Imagine with Claude」。
在这个功能里,Claude 会实时生成软件,所有功能不是预设的,所有代码也不是提前写好的。你看到的一切都是 Claude 跟你互动时当场创造和调整出来的。
不过,「Imagine with Claude」接下来五天内只会对 Max 订阅用户开放。
附上传送门 claude.ai/imagine。
毫无疑问,今年的 AI 赛道依旧是卷编程的一年。
目前 Anthropic 估值已经到了 1830 亿美元,8 月还实现了年化营收 50 亿美元,但这其中相当一部分增长靠着来自编程软件的普及。问题是,老对手 OpenAI 和 Google Gemini 也在疯狂推类似工具抢程序员用户。
甚至一周之后就是 OpenAI 年度开发者大会,Anthropic 这个时候抢先发布 Claude Sonnet 4.5,时间卡得够精准,明摆着就是要给对手上一波压力。
此外,Anthropic 联合创始人兼首席科学官 Jared Kaplan 还表示,更先进的 Opus 模型,预计今年晚些时候推出:「Anthropic 在大小模型的使用上都能占优势。」
不过有一说一,Anthropic 自己眼下也有麻烦要解决。
过去两个月,Claude 系列模型刚经历了一场「降智」风波。用户普遍反映模型推理、代码、格式和工具调用质量断崖式下滑,连付费的 Max 用户都没能幸免。
虽然 Anthropic 后来紧急回滚了 Opus 4.1 更新,还承认了两个独立 Bug,声明「绝非为省成本故意降智」,但由于没提供补偿或退款,GitHub 和 X 等平台上还是出现了退订潮,不少用户直接转投 Codex。
这次 Claude Sonnet 4.5 的发布,显然就是 Anthropic 想用实打实的性能提升来挽回流失的用户。至于能不能成功,就看接下来几周的实际表现了。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
文字秒变成片,体验完剪映这些功能:这才是 AI 时代的创作方式
最近一个月科技发布会一个接一个,我们视频同事天天加班,保证热门产品体验第一时间和大家见面。
APPSO 发现,今年视频制作有个明显变化:更炫的效果、更紧的时间。这也成了视频创作者的新烦恼,AI 作为提效的重要工具,但实际体验下来,却常常让人又爱又怕。
爱的是 AI 确实能低成本实现很多原来不敢想的特效、故事,怕的是 AI 工具功能零散、流程割裂——「用 AI 省下的时间,全都耗在了工具切换上」。
最近我发现,终于有产品下决心解决这个问题了。前几天剪映在创作者交流会上正式官宣了「All in AI, All in One」的全新主张,同时介绍了一大波 AI 功能。
从输入文字一键生成视频的「AI 文字成片」,到媲美真人的「AI 配音 3.0」;从实现电影级运镜的「AI 转场」,到能对话改图的「seedream 4.0」……剪映几乎是将 AI 武装到了牙齿。
它最核心的改变,是将过去散落在各个软件中的单点 AI 能力,串联成了一条从脚本、成片到后期精修的无缝创作闭环,实现了真正的「一站式创作」。
话不多说,这次我们就来真刀真枪地实测一下,看看剪映的 AI 能力,到底能不能让我和视频同事提前下班,拥抱国庆长假。
AI 成片,把「想法」直接变成「爆款」
熟悉视频创作的人都知道,要做一条高质量的视频必须遵循一套固定流程,找灵感、写脚本、扒素材、拍摄、剪辑、配音、配乐、加字幕……一套流程下来,没啥,就是费点肝。
现在,随着 AI 技术的进步,个人创作者或者小团队也可以做出媲美影视级的作品了,但上面这个工作流还是没变,基本每个环节都需要不同的 AI 工具。
这也成了创作流程里最「卡顿」的部分:不仅费时费力,甚至需要开多个 AI 产品的会员,在不同的产品间切来切去。
开头用到的剪映「AI 文字成片」功能,直接把这套复杂流程打包成了一站式服务。这样一来,从脚本到成片在「AI 文字成片」就可以完成了。
比如,最近预制菜风波沸沸扬扬,我和小伙伴想用容嬷嬷的毒舌吐槽一番,几分钟后就有了下面的视频。 是不是效果还不错?AI 为这个故事生成的画面、选择的声音都很切题,尤其是那个微波炉,在古风画面里也并不违和。
再比如,马上就要中秋了,我想用 AI 生成一个和赏月相关的短片。把苏轼的《记承天寺夜游》发给剪映「AI 文字成片」,让它改编成古风动画。很快,出来的效果就像语文课本里的画面活了。感觉这个功能就很适合家长或者科普创作者,做历史讲解、故事绘本都不错。
或者我在想,如果给剪映一些更有针对性的提示词,用这个功能制作一条朋友圈专属中秋祝福视频应该也不错。操作难度和现在流行的一句话 p 图没有太多差别,但却更能体现自己的创意。
说到创意,剪映「AI 文字成片」这次还帮我们实现了科幻梦。
我想把《记承天寺夜游》改编成一个科幻故事。虽然我只有一个模糊的想法,但没关系,我只要把想法、主题等碎片信息扔给 AI 成片「写作助手」,AI 成片内置的豆包 Pro 和 Deepseek 模型,直接就能输出完整脚本,不满意还能让它继续改。
你也可以在它生成的基础上自己做一些删减、修改,拿不准的地方还能让 AI 单独润色、扩写或者缩写。
解决了文案的问题,接下来就是选择画风,我根据科幻主题选择了「赛博朋克」。
这里可选的画风很多,APPSO 体验下来质感都在线,不是那种敷衍了事的「AI 滤镜」。 你还可以上传自己的图片,让 AI 学习你的风格,定制专属画风。
然后,就可以等待「AI 文字成片」这个全自动导演交付一条完整的片子了。
你可以看到,过程中它会自动理解你的文案,并生成分镜脚本。差不多几十秒的时间,所有的分镜、音频、画面都已整齐排列好。
如果你对某个分镜画面不够满意,也可以直接调整描述文字,点击图像生成,针对这个镜头生成不同的画面效果。
「AI 文字成片」还会根据脚本文案,自动选取合适的配音和配乐。当然,海量的音色库和 BGM 库也给你备好了,想怎么换就怎么换,主打一个随心所欲,还不用担心版权问题。
现在,我们来看看成片。
无论是人物的动作和表情,太空舱和中国元素的融合,完成度都非常高。不要忘了,这样的成片质量只需要花几分钟时间。
可以说,「AI 文字成片」就像是把一整个制作团队压缩到了一颗按钮里。它甚至会让人觉得「过于简单」,可我们的后期同事跟我说,这种「傻瓜式」的全包服务,对他们恰恰是一种解放。
它让你跳过了最繁琐的「从 0 到 1」阶段,直接进入需要创意和审美的「从 1 到 100」的创作环节。你负责提供灵魂,AI 负责注入血肉,这或许就是 AI 时代的创作方式。
而且,针对专业创作者,「AI 文字成片」还有其他惊喜。不同于很多 AI 生成工具只能抽卡却不能精细编辑,剪映「AI 文字成片」把生成和多轨道编辑结合,任何精细化调整,都可以直接进入「更多编辑」,自动导入多轨道,方便你进行精剪。
这也是「AI 文字成片」最值得好评的地方,不仅不用再在不同平台里来回导素材,也兼顾了粗剪和精剪的不同需求,真正实现了一站式成片。
深入工作流,AI 是无处不在的「神助攻」
如果说「AI 文字成片」是零帧起手的创作,那在处理实拍素材时, AI 更像是无处不在的「神助攻」。剪映把 AI 功能融入到了一个个具体的工序中,让视频创作的效率直接起飞。
画面方面,剪映提供了「AI 一镜到底」,一键就能实现电影级运镜。
这个功能尤其适合国庆旅游时,打造令人眼前一亮的朋友圈内容。不管是城市、村落,还是山川、海滩,AI 会智能地选取画面中适合切入切出的角度,让过渡看起来有呼吸感,把不同的景观拼成一条视觉长卷。
整体的工作流也很简单:上传自己拍摄的素材,AI 会自动识别画面结构和关键元素。接下来,你只需要确认想要衔接的位置,并从剪映提供的几种转场形式中选择最合适的。
剩下的,就交给 AI 完成,它会在两段画面之间自动生成过渡,把原本生硬的切换,润色成一个自然的长镜头。很快,一条一镜到底的风光大片就出来了。
另一个可以让 AI 转场大显身手的应用场景,是营销宣发视频的制作。
这意味着,不再需要反复拍各种角度,也不用担心后期剪辑跳跃,AI 会帮你一气呵成:从场景到产品,从人设到氛围,全都在一个顺畅的镜头里完成。专业感直接拉满,哪怕是业余卖家,也能做出不输专业广告的质感。
比如下面这个案例,在手上只有三张平面照片的情况下,也能做出大片效果吗?
完全没问题,AI 会自动识别摩天轮、旋转木马、人物三个画面里的相似色彩和结构,把原本零散的片段拼接成一个连贯的长镜头。看上去就像摄影师拿着稳定器连续拍下来的,几乎察觉不到切口。
画面顺滑了,故事才真正有了连贯感。但一条好视频远不止画面流畅这么简单,声音同样决定了整体质感。剪映在配音、音乐上的进化,正在补齐创作中另一半的拼图。
我们知道,对于很多创作者来说,录音是个大难题——要么环境嘈杂,要么状态不好,录十遍也找不到感觉。现在,利用剪映的「克隆音色」功能,你直接就能拥有一个声音分身,在不同视频里都能一键调用。
从实测来看,只要上传的音频发音清晰、匀速、没有背景噪音,就能有效保证后续生成的质量。接下来,就来看看伍佰老师魂穿《武林外传》的中秋宴,为大家带来的节日祝福——
另一个惊艳的升级是「AI 配音 3.0」功能中的「超仿真音色」,直接把 AI 配音带入了 next-level。你仔细听听这个声音——它有呼吸声、有自然停顿、有情绪起伏,已经让人分不清这到底是真人还是还是 AI 。
而「翻唱改词」功能堪称音乐玩法里的隐藏惊喜。逻辑很直白:用户上传任意画面内容,AI 会自动理解素材,针对想用翻唱的歌曲进行改写,让歌词内容与画面场景高度贴合。
举个例子,当我们放入中秋团圆内容的片段时,《烟花易冷》的歌词便变换成了包含桂花、明月的文字,并且完全贴合旋律。
这种「以假乱真」的效果,也让创作者不再为版权头疼,节约修改成本,AI 几分钟搞定专业翻唱效果,成本降低但效率暴增。
无论是画面的流畅衔接,还是声音的细节打磨,剪映这些「ALL in AI」 的功能都在告诉创作者:制作不必再是费时费力、来回倒腾的繁琐任务。无论是画面还是声音的处理能力,剪映都能集于一处,而创作者要做的,就是把注意力放回故事与情感本身。
对于专业创作者精细剪辑的需求,剪映也没有忽视,而是依托于电脑端的「剪映专业版」 ,持续「听劝」升级,新增了多时间线、智能搜索、二级调色、立体声处理等高级功能,显著提升了素材处理与视频精修效率。
最近,剪映还全量上线了字节自研的 seedream4.0 模型,生图、做封面也能在剪映一站式完成。不难看出,剪映在功能的开发、升级上,就是奔着「ALL in One」的目标,基本创作中需要解决的问题,都能在剪映里找到对应的工具,创作的流畅性一下提升不少。
解放 Dirty Work,回归创作的初心
测到这里,其实答案已经非常清晰了。剪映所做的这一切,并非为了炫技,而是指向一个极其质朴的目标:将创作者从重复、繁琐的「dirty work」中彻底解放出来 。
无论是费时费力地找素材、对口型、扒字幕,还是令人头秃的配乐和转场,这些曾经消耗我们大量热情和精力的环节,如今都可以放心地交给 AI 。
这种「AI + 一站式」的定位,本质上是对整个创作流程的一次重构。
我甚至觉得剪映这个名字可能都不能完全反映这个产品新的价值,「All in AI, All in One」的剪映,不能再把它看做一个剪辑类产品,而是一个能覆盖全流程的 AI 创作工具。 它打破了过去 AI 工具功能零散、流程割裂的核心困境,将它们串联成一条完整的、无缝的创作管道 。AI 不再是那个需要你小心翼翼输入指令的「工具箱」,而是变成了藏在创作每一步的「默契搭档」和「隐形脚手架」。
对于像 APPSO 这样的创作者来说,它最实际的价值,就是让编导敢于写下那些曾因时间和技术限制而自我阉割的高光特效,甚至实现过去「不可能完成的工期」。
创作者交流会上,APPSO 还了解到,剪映上线了一款更加特别的产品——「剪小映」。它能自动分析你手机相册里的素材,在你都快遗忘的时候,主动为你生成一段段充满故事感的生活视频 。
如果说剪映的各种 AI 功能是让剪辑更加轻松、流畅,剪小映则代表的是一种更加智能的使用方式,过程中 AI 持续发挥作用,让轻松剪彻底升级为不用剪。它似乎在说:你只管去生活,去感受,记录这件事,交给我 。
最终,当 AI 承接了所有可以被标准化的劳动后,留给创作者的,便是最宝贵、也最无法被替代的东西——灵感、创意和情感的表达 。
从这个角度看,剪映的「All in AI, All in One」,不仅仅是一个产品主张,更是对所有创作者的一次告白:去创作吧,别让任何事分心。这,或许才是 AI 时代,创作最该有的样子。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
iOS 26.1 隐藏彩蛋曝光,苹果给 ChatGPT 们造了个新「C 口」
iOS 26 上线后,用户立马分成了两派。
有人认为新系统视觉有新意,也有人吐槽不好看、bug 多、电池续航直线下降。在争议声中,苹果也推送了 iOS 26.1 开发者测试版,优化了液态效果和 UI 细节。但该说不说,比起这些「面子工程」,苹果在系统深处埋下的彩蛋,其实更值得关注。
据 9to5Mac 报道,iOS 26.1、iPadOS 26.1 和 macOS Tahoe 26.1 开发者测试版隐藏的代码显示,苹果正在为 App Intents 引入 MCP 支持打基础。这也意味着未来,我们能让 ChatGPT、Claude 或其他任何兼容 MCP 的 AI 模型直接与 Mac、iPhone 和 iPad 应用交互。
Anthropic 的 MCP 协议,成了苹果「管住」ChatGPT 的钥匙
在讨论苹果这个大动作之前,我们需要给不了解的朋友科普一下 MCP。MCP,全称 Model Context Protocol(模型上下文协议),由 Anthropic 于去年 11 月提出,它要解决的是一个叫「N x M」的集成难题。
什么意思呢? 就是说,如果有 N 个 AI 模型,和 M 个外部工具或数据源,如果按传统做法,我们得开发 N x M 个定制 API 接口,非常麻烦此时 MCP 邪魅一笑:别折腾了,我来当万能翻译官。
MCP 通过提供一个通用、开放的协议,把模型与外部数据源和工具的连接方式标准化,取代了过去零散、私有化的集成做法,意在实现双向、安全的交互。通俗点说,它想成为 AI 领域里的「HTTP(网页的基础协议)」或「SMTP(邮件协议)」,它仅存在于软件,但在 AI 时代的意义不亚于一个标准化的硬件「USB-C 接口」。
效果怎么样?立竿见影。自打问世以来,MCP 已被 Notion、Google、Figma、OpenAI 等公司和平台也都陆续接入,成为 AI 应用接入的行业「通用插口」。
很多人容易误解 MCP + App Intents 只服务于 AI,其实并不是。
MCP 的本质是协议,它解决的是如何让模型或外部服务和系统安全对话的问题。虽然今天最热门的用例是 AI 模型调用应用,但 MCP 也可能用于非 AI 场景。以微信支付为例,就能看到 MCP 不局限于 AI 的可能性。
腾讯元器平台近日宣布已经接入微信支付 MCP,支持开发者在智能体(agent)中直接发起订单、查询订单、处理赞赏等功能。
同样,App Intents 也并不是专为 AI 而生的「新物种」。
它在 2022 年就出现了,当时的目标就是把应用的功能抽象成语义化的动作,让系统能直接调用。比如 Spotlight 搜索、快捷指令、小组件,其实都在用 App Intents,并不依赖 AI。
MCP 的接入,只是让「外部 AI」也能走上这条现成的通道。
根据对 iOS 26.1 等测试版软件代码的分析,苹果并非让每个应用单独去支持 MCP。恰恰相反,它正在构建一个直接集成在 App Intents 框架中,系统级的 MCP 支持。换言之,苹果不希望开发者自己「魔改」,而是要用官方操作系统的规范来开发接口适配,就可以使用了——这与苹果过去对应用遵守规范的要求一以贯之。
这意味着,在 iPhone 上,Siri/Apple Intelligence(由苹果的基础模型驱动)理解你的请求并可触发 App Intents 执行本地动作;当系统判断需要更广泛知识时,会征得你同意后把必要内容交给 ChatGPT 获取答案。
所以未来的场景可能是这样的:你对着 ChatGPT 说「帮我在微信里转 100 块给张三」,ChatGPT 会调用 MCP,把这个指令打包成标准化的请求;iPhone 系统通过 App Intents 识别出这是微信支付的动作,直接调用微信的接口完成操作。你不需要自己切换 App、点按钮,一切都由模型+系统协作完成。
换句话说,MCP 让模型有了「手」,App Intents 则是苹果为这双「手」划定的轨道。
这样做有什么好处呢?
头一个好处是搭便车。苹果可以直接享用整个行业围绕 MCP 建设的庞大工具生态,不用自己从头到尾开发每一个功能集成。
另一方面,当所有外部 AI 的请求都必须经过苹果自家的、经过严格审查的 App Intents 框架,这样苹果既能强制执行自己的隐私安全标准,又能保证用户体验的一致性。
还记得在之前的文章中,我们提到过 AI Key。这是一款定位于「AI 助手」的外接硬件,厂商宣传它可随插随拔,通过 iPhone 的 USB 接口连接后,能够帮助你动动嘴操作手机上的应用和功能,从消息、地图到拍照、社交软件,几乎覆盖常见任务。
虽然目的相似,都有机会让 AI 代替用户,直接操控手机的应用,但和 AI key 这种体验受限的硬件「外挂」相比,系统层面的调度机制才是真正可规模化,更务实、更长远的价值。
不过,苹果在 iOS 26.1 测试版里只是「埋下了」系统级 MCP 支持的代码,目前仍处于早期工程阶段,并未对外发布可调用接口,未来能否实现、何时实现,还要看后续测试版和官方文档的公开进度。
造不出最强的剑,那就打造最好的剑鞘
延伸到整体变化,苹果近年的开放姿态愈发明显。
哪怕是 Apple Intelligence,本质上也体现了这种转向。起了个大早,赶了个晚集,追赶 OpenAI 等厂商并非一朝一夕,苹果已不再执念于「全栈自研」,而是主动拥抱外部模型,为系统预留出灵活的接入入口。
这种转变在苹果内部也引发了不小的冲击。据彭博社报道,苹果 AI 团队内部曾就「自研 vs 合作」发生过激烈争论,但最终还是保留了更务实的平台化路线。这也与整个行业的走向不谋而合。
短期内,AI 可能出现巨头垄断红利,但长期必然走向分层竞争。
没有任何单一模型能在所有任务上都做到最好,开源的存在更让市场有了平替选项。于是,对平台型公司而言,最优解自然是通过集成不同供应商的模型来实现风险分散、成本优化和择优使用。
微软就是典型的案例。
过去它与 OpenAI 深度捆绑,但最近,微软把 Anthropic 的 Claude 模型也集成进 Microsoft 365 Copilot。表面看,这是因为双方裂痕加深,但更深层的原因在于微软内部测试发现,Claude 在某些场景下的表现确实优于 ChatGPT。
类似的逻辑,如今也映射到苹果身上。
继和 OpenAI 合作之后,今年也不断有风声传出,苹果已经把 Google Gemini 和 Anthropic Claude 同时列入下一代 Siri 与系统级 AI 的候选名单。
回望苹果的长期叙事,这条线索就更清晰了。
苹果在 2008 年推出 App Store 时也面临过类似的质疑——为什么要让第三方开发者「寄生」在 iOS 上?结果证明,平台模式释放出的创新活力远超苹果单打独斗。
再后来,无论是 CarPlay、HealthKit,还是今天的 MCP + App Intents,这也是苹果最为熟悉的平台治理逻辑:它来制定标准和规则,第三方在规则之内自由创新。
建立在 App Intents 之上的代理层平台,同样是这一逻辑的最新延续。
通过 MCP 协议,苹果能够把外部 AI 模型都转化成了供应商。而当这些供应商想触达苹果庞大且高价值的用户群体时,就必须遵守苹果的接口和安全标准。换句话说,苹果再次把自己放在了分发渠道和规则制定者的位置上——这也是苹果最擅长、也最舒服的角色。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。