普通视图

发现新文章,点击刷新页面。
昨天 — 2025年12月1日极客公园

首销备货 50 万台,豆包 AI 手机要卖给谁?

2025年12月1日 18:13
作者|连冉  张勇毅
编辑|郑玄

头图来源:字节跳动

 

12月1日,字节跳动豆包团队发布豆包手机助手技术预览版。

 

据介绍,豆包手机助手,是在豆包 APP 的基础上,和手机厂商在操作系统层面合作的 AI 助手软件。基于豆包大模型的能力和手机厂商的授权,豆包手机助手能够为用户带来更方便的交互和更丰富的体验。

 

现阶段,开发者和科技爱好者可以在豆包与中兴合作的工程样机 nubia M153 上,体验豆包手机助手的技术预览版本。目前该版本已面向开发者和科技爱好者少量发售,售价 3499 元。

 

豆包手机助手的出现,是在试图用 AI Agent 打通APP 之间,重构移动互联网的交互逻辑。

 

尽管当前的演示仍需面对技术「不确定性」的免责声明,但这种深入操作系统底层、追求「意图直达服务」的尝试,可能比单纯的 Chatbot 更具革新意义。

 

豆包手机外观设计 |图片来源:豆包官方

 

或许,谁能率先解决「操作手机」的稳定性难题,谁就能定义 AI 时代的「iPhone 时刻」。

 

此前,据前中兴手机硬件产品经理向「极客公园」介绍,字节跳动与努比亚为这款手机的首销备货量为 50 万台,并为此订购了对应数量的手机关键元器件。

 

目前的手机市场中,国产品牌主流旗舰,首销期备货通常在 200-300 万台级别。因此豆包手机的这个数据虽然无法与年出货量超千万的一线手机厂商旗舰手机相提并论。但豆包手机摆脱「极客玩具」,走向更广泛的用户市场的目标已经足够清晰。

 

首销备货 50 万台的量级,如果全部投放向市场的话,仍然是一个足以给行业带来一定影响的数字:作为对比,曾经游戏手机垂直市场下的头部玩家 —— 黑鲨,在 2022-2023 年的手机出货量为 100-150 万台。

 

1 从「对话框」到「行动派」

 

过去两年,我们见惯了能写诗、能画图的 Chatbot,但对于普通用户而言,手机上最痛的痛点往往是繁琐的操作流。豆包手机助手这次的大看点,在于它试图从「对话」跨越到「行动」。

 

在技术预览版的演示中,豆包展示了一种在此前 GUI Agent(图形用户界面代理)研究中常被提及的能力——它能像人类一样「看懂」屏幕,并直接模拟点击操作。

 

这种「看懂屏幕」并模拟人类操作的底气,则源自豆包大模型在多模态能力上的积累。

 

据官方透露,该模型在视觉理解、推理以及图像创作等维度的性能已处于国际第一梯队。正是因为模型具备了精准的图形界面(GUI)识别能力,它才能在多项权威评测中拿到高分,从而像人类一样理解「按钮」和「输入框」的含义,而不仅仅是识别一堆代码。

 

据豆包手机官方使用文档介绍,豆包会根据意图自动判断是否调用 AI Agent 能力,若用户对话开头包含「帮我操作手机」,则会 100% 通过 AI 操作手机完成任务。

 

任务描述越详细,它的执行效率越高,执行效果越好。例如:“打开美团外卖帮我把最近几个订单的好评写了”。此外,AI 操作手机是在虚拟屏操作的,不会在前台默认展开,也不会影响正在进行的其他任务,你可以随时返回桌面使用其他应用。

 

用户也可以直接跟豆包对话,讲出需求,豆包可根据需求自动判断是否通过操作手机功能完成,以及在豆包对话框底部功能按钮中找到“操作手机”,点击按钮可手动描述需求,也可以设定定时等条件任务。

 

试想这样一个场景:你在社交媒体上被种草了一款好物,过去你需要截图、退出应用、打开电商平台、搜索、比价。

 

而在豆包的演示中,你只需说一句「帮我在全平台比价下单」,AI 就能自动跨应用跳转,搜索同款、对比价格规格、领券,甚至帮你选好最低价的商品填入购物车。

 

图片来源:豆包手机使用指南文档

 

虽然出于安全考虑,支付环节仍需人工确认,但前面那一系列机械的点击和切换,AI 已经代劳了。

 

甚至复杂任务也可以执行。在官方演示的旅行规划场景中,当用户提出「下个月去巴黎,帮我把收藏的餐厅标在地图上,看看哪天有展并订票」这样一句包含多重意图的指令时,AI 能够迅速将需求拆解为 6 个子任务:从查询社交媒体收藏、到高德地图标记、再到携程订票,最后整理进备忘录。

 

这种跨应用、多步骤的「任务链」执行能力,可以说是 AI 从「玩具」迈向「工具」的关键分水岭之一。

 

为了实现这种「类人」的交互,豆包打通了系统层面的多项权限。

 

在系统层面,豆包手机为 AI 能力设计了多种交互方式,用户可以通过侧边键、语音甚至耳机唤醒它;在相册里,它能直接听懂「把路人 P 掉」的指令并执行。

 

图片来源:豆包手机使用指南文档

 

在更复杂的「Pro 模式」下,它还能调用系统工具,结合记忆功能,直接完成「推荐礼物并放入购物车」这种需要多步推理的复杂任务。

图片来源:豆包手机使用指南文档

 

当然,将屏幕控制权和个人喜好交给 AI,隐私安全始终是绕不开的话题。所以豆包团队也强调,这一功能支持按需开启,并承诺严格保护数据隐私。

 

作为「技术预览版」,豆包团队也在视频结尾特别提示,受限于大模型技术的不确定性,演示中的「丝滑」体验目前还无法百分百复现,产品距离团队的最终预期仍有差距。

 

这也体现了 AI Agent 目前最真实的状态:方向极度性感,但落地仍需时间打磨。

2 不造硬件的「第三条路」

 

在 AI 手机的浪潮中,一直存在两种流派:一种是像 Google / Pixel 手机这样,自研模型以及整套 AI 软件产品体验,并植入自家系统;另一种则是纯软件厂商,试图通过超级 APP 抢占入口。

 

图片来源:Google

 

豆包选择了第三条路:不做硬件,只做生态。

 

在发布预览版的同时,豆包方面明确表示「没有自研手机计划」。他们的策略非常务实——通过与多家手机厂商洽谈,以「操作系统层面合作」的形式,将豆包的大模型能力植入不同品牌的机型中。

 

这种「手机厂商 + 大模型厂商」的深度耦合,正在成为行业的一股新趋势。

 

就像谷歌 Gemini 与三星的合作一样,术业有专攻正逐渐成为共识。

 

对于手机厂商而言,从零打造一个具备顶级推理、视觉理解和复杂任务规划能力的模型成本极高;而对于字节跳动这样的互联网巨头,缺乏硬件载体则会让 AI 始终隔着一层 APP 的玻璃墙,无法触达用户最核心的数据和场景。

 

目前的 nubia M153 工程机只是一个开始。售价 3499 元的门槛或许更多是面向开发者和极客人群的「邀请函」,旨在验证这种跨界合作的技术可行性与用户反馈。

 

3 光做一个APP,在 AI 时代已经不够了

 

豆包手机助手的出现,本质上或许是一次对移动互联网交互逻辑的重构。

大模型的能力越来越强,单纯做一个 APP,在 AI 时代已经不够了。

AI Agent 需要接管更复杂的任务、感知更丰富的上下文,发挥一些真实的功能,才有更落地的价值,这意味着它必须走出软件的围墙,向下沉淀,与操作系统的底层权限和硬件能力进行深度整合。

过往,字节跳动一直是一支强大的“空军”——拥有极致的算法和庞大的应用生态,但在操作系统和终端硬件上,相比拥有 Android 的谷歌或拥有全场景终端的华为,字节始终缺少一块落地的“阵地”。

在移动互联网时代,这或许不是问题,但在 AI 需要深度介入用户场景的当下,缺乏硬件载体可能意味着丧失对场景的感知力。

豆包手机助手的推出,像是字节在当下阶段抛出的一次探索

从 Pico 到 Ola Friend,再到如今深入手机 OS 层的助手,字节正在小心补齐“硬件触点”这块短板。

这或许并不是未来两三年行业的最终形态,但至少可以确认的是:字节已经意识到,想要让 AI 真正跑通,必须迈出“软硬结合”的这关键一步。

 

一码难求的动画 Agent 导演,离「疯狂动物城」还有多远?|AI 上新

2025年12月1日 18:11

作者| 金光浩

编辑| 靖宇

最近 AI 圈出了一款有趣的产品:「OiiOii」,一款专注 AI 生成动画的 Agent。

而它异常火爆,7210 个内测名额很快被抢光,闲鱼上免费邀请码被炒到 30 块,甚至据说内测用户里还出现了全网 2000w 的顶级创作者。

OiiOii 网站首页|图片来源:OiiOii 网站

 

等我进入内测群,发现群号已经到了 50 几了,按照 500 人一个群粗略算下,大概有 2 万多人在排队内测。

作为产品经理,我的直觉告诉我, 当一个还在内测的工具被某鱼盯上时,它一定切中了某类人群的「刚需」。

但它能顶替一个小型动画工作室吗?还是只是 mock 了一些工作流?

我带着这个好奇,在闲鱼上花 32 块钱买了一个邀请码,拿到了账号,打算深度体验一下。

我想知道,AI 做的动画,离《疯狂动物城》到底还有多远?

 

01

不是工具,是导演团队

 

刚进 OiiOii 体验,我就发现它很有趣。

传统的 AI 视频工具,像在教一个笨徒弟:你输入 Prompt,机器生成视频,效果不好你得自己改 Prompt,反复跟 AI 沟通。

但在 OiiOii 里,我感觉自己更像是,一个只需要提需求的「甲方爸爸」。

它没让我写复杂的图像提示词,而是给我派了一个「动画团队」:艺术总监、场景设计师、编剧、分镜师……

有 7 个 AI Agent 作为乙方,为我效劳。

这种感觉真好。

第一个任务,我给它了一个有意思的提示词: 一个充满神圣光芒的殿堂,一对兄妹正与一位自称为神的对手进行一场赌局。风格要史诗感,带有日式幻想。

当我开始,接下来的流程,让我有点意外。

艺术总监 Agent 没有急着出片,而是先拉编剧 Agent 进群,拆解我的需求,编写剧本。

OiiOii 网站 agent 沟通|图片来源:OiiOii 网站

 

紧接着,角色设计师和分镜师 Agent 介入,开始设计角色和规划音乐。

这给我一种很强烈的「既视感」:这不就是真实世界里短剧公司的作业流程吗?

OiiOii 网站 agent 沟通|图片来源:OiiOii 网站

 

整个流程里我选择了「托管模式」,很多内容只需要点击确认

(虽然也有对话模式,但作为甲方,我当然想一键直出)。

OiiOii 网站交互引导|图片来源:OiiOii 网站

 

几分钟后,一段包含音频、画面、转场的 60 秒短片生成了。

有趣的是,作为甲方,虽然完成视频的是 AI,但是我还是感受到了创作的乐趣,这可能就是这个产品的神奇之处吧。

OiiOii 生成的 60s 动漫|视频来源:OiiOii 网站

 

接着,我让它生成一个音乐 MV:以欧阳娜娜的新歌《暮色森林》为意境,让 deepseek 生成一个 mv,然后给到 OiiOii。

然后,它做出了这样的效果。

OiiOii 生成的音乐 mv|视频来源:OiiOii 网站

 

接着我测试了一种古风武侠的风格,可以看到画风一致性很棒:

OiiOii 网站生成的分镜图片和视频|图片来源:OiiOii 网站

 

 

02

惊艳与遗憾并存

 

看完生成的成片,我有两个直观的感受。

第一个,它给人的「导演感」很强。

大多数 AI 视频只是让画面动起来,但 OiiOii 生成的内容,能明显看出镜头语言设计:推拉摇移、景别变化、甚至景深与焦点的转换,都非常符合影视逻辑。

比较让我惊喜的是人物的一致性,以往用 Midjourney 做短片,最头疼的就是上一秒主角是圆脸,下一秒变成了方脸。

但 OiiOii 通过 Agent 之间的协同,以及 Sora2 的强大能力,很好地锁住了角色特征。

虽然还没到 100% 完美,但至少在那 30 秒里,那对兄妹没有突然「变异」。

第二,它确实还很「糙」。

虽然意境到了,镜头感有了,但必须诚实地说,目前的画质像素还不够高(当前可能是出于降低成本,没用最好的模型),如果你仔细看,细节处还是有些不清晰,而且创作时间比我想象中要慢。

当然,如果要给这个视频打分,在工业级动画电影面前,它可能是不及格的。但如果放在自媒体短视频、MV 概念片这个维度,它确实能打 80 分以上。

这就引出了一个非常有意思的思考:

为什么一个画质还没做到顶尖的产品,能让 2 万多人趋之若鹜?

 

03

选择赛道比努力更重要

 

OiiOii 的爆火验证了一个 AI 创业铁律: Agent 创业,一定要垂!

我们来算一笔账。

如果你做的是通用视频生成(像 Sora 这种),你的竞争对手是真实世界:大众对真实世界的期待值是 100 分,而你的能力可能只有 80 分,且人物稍有扭曲或者变化,就会给用户一种「恐怖谷效应」,让用户体验瞬间掉到 60 分以下。

但 OiiOii 极其聪明地选择了「动画」这个垂直赛道。

在动画的世界里,逻辑变了,观众对动画的宽容度极高。这里没有恐怖谷效应,稍微夸张、变形一点,大家会觉得这是「艺术风格」,不影响看「剧情」。

目前市面上的同类产品,如果让普通玩家自己折腾,可能只能做出 40 分的作品。而 OiiOii 这个团队,虽然团队技术上限可能只有 90 分,但它通过 Agent 的流程化封装,让一个小白也能稳定输出 70 分以上的作品。

这就是选择好的赛道的重要性!这就叫:选择大于努力。

OiiOii 做对了什么?

它把原本需要懂分镜、懂三视图、懂 Prompt 的专业门槛,降低到了「会打字」就行,吸引了无数对动画创作好奇的小白。

OiiOii 网站生成的剧本、分镜描述|图片来源:OiiOii 网站

 

其次就是成本降低,以前,用户找 AI 做一个 30 秒的动画 MV,没个几十几百下不来。

现在?给大家免费体验(内测期间)。

对于那些做短 MV、视频号的自媒体来说,这就是生产力革命。

 

04

距离《疯狂动物城》,不是技术的距离

 

标题问了个很有意思的问题:OiiOii 生成的动画,离《疯狂动物城》还有多远?

如果只看画质,AI 生成的动画确实在以极快的速度(nanobanana2 可以生成 4K 的作品),在逐渐逼近院线水准。

但如果看创作动画的本质,可能还远远到不了:因为它们根本不是一种东西。

《疯狂动物城》的核心是什么?不是技术,是角色、情节和故事:

是朱迪与尼克的角色张力,是关于偏见的隐喻,是非常多的艺术家一起打磨出的审美。

但,换个角度看,如果对比的是「让普通人也能像迪士尼导演一样指挥团队讲故事」,那 OiiOii 已经推开了那扇门。

OiiOii 做的是什么?是让一个非专业人士,在 30 分钟内,通过对话,把脑子里的想法变成 7、80 分的动画。

而这种 AI 动画,又会创造出什么新的内容形态?

我最近刷小红书,发现越来越多博主开始用 AI 做短动画,不算特别精致,更多的是 15 秒的治愈的、搞笑的、甚至猎奇的故事,这些作品给人的感觉是:画面糙点没关系,重要的是快、是个性化、是能精准击中某个小众群体。

这可能才是 AI 动画的意义,不是替代皮克斯,而是让每个人都能成为自己创意的导演。

纵观历史,技术的发展,更多带来的是机会。

就像摄影的历史。胶片时代,摄影是少数人的艺术;数码时代,人人都能拍照;手机时代,每个人都是视觉创作者。技术发展,没有让专业摄影师失业,反而让专业的人能更容易创造作品,同时,由于越来越多参与者的涌入,整个视觉内容生态变得更丰富。

我想,动画可能也一样,AI 带来的,是更多的可能性。

现在的 AI,正在让「动画表达」从专业技能变成一种基础能力,让每个人都能创作 70 分的作品。

专业人才依然有自己的一席之地,像《疯狂动物城》那种 95 分的顶尖作品,还需要专业艺术家才能创作出来。

 

05

真正的护城河,还是 Know How

 

用完 OiiOii,我跟几个做 AI 的创业者聊了聊。

大家都在问:这个产品的壁垒在哪?

技术上看,底层模型的 api 人人都可以接入,且据创始人说,目前这个版本两个月就开发完,凭什么别人抄不走?

我认为, Know How(行业经验) 才是壁垒。

什么是 OiiOii 的 Know How?

就是那些藏在创作团队脑海里,决定产品能不能用的「隐性知识」:

1、比如镜头语言,什么时候该用特写、该用全景,这不是 AI 模型能自己学会的,是团队里必须有懂导演的人。

2、比如节奏感,30 秒的视频,前 10 秒抓眼球、中间 10 秒讲清楚、后 10 秒留钩子,这是短视频时代的创作技巧。

3、比如角色一致性,怎么让同一个角色在不同镜头里看起来是同一个人,这背后有大量的工程经验。

这些 Know How,才是 OiiOii 真正的壁垒。

这个产品给我的感悟是:ai agent 的竞争,不是谁的人更多、谁接入的模型更强,而是谁更懂行业—— 做 AI 产品,应该先找到你的 Know How,再考虑技术实现。

模型会越来越开源,算力会越来越便宜,真正稀缺的是「懂动画+懂 AI+懂产品」的复合型团队。

OiiOii 的团队里肯定有真正做过动画的人,这是那些纯技术团队学不来的。

 

06

内测 2 万人,说明了什么?

 

最后聊聊 OiiOii 的爆火。

闲鱼炒到 30 块的邀请码、2 万人的内测群,这些数字说明了什么?

表面上看,是产品做得好,是团队有 know how,是赛道选对了。

但深层次,有两个更重要的原因。

第一个,是 AI 视频动画的风口到了

过去,AI 生成视频最大的痛点在于「人物一致性」难以保障。行业内通常的解决思路是:先由 AI 生成一张角色图,再基于这张图生成多个不同视角或姿态的版本;然后在不同分镜中选用对应的视图,分别生成短视频片段(这非常考验图像大模型的一致性能力),最后将这些片段拼接起来,形成一段连续动画。

早期,由于各类 AI 图像模型在一致性上普遍较弱,这种方法效果有限。

而随着 Sora2 的出现,人物一致性实现了质的飞跃,这已经是比较好的入场时机。

随着技术的进一步迭代,最近发布的 nanobanana2,将这个赛道推向了全新高度,它的任务一致性表现尤为出色。

眼下,技术窗口已经打开,OiiOii 有望成为这一技术红利的首批受益者。

这其实说明一件事:谁能够最快地将 AI 能力的提升转化为产品,谁就能抢占先机。就像过去,因为 claude 能力提升,cursor 和 manus 产品能力获得大幅提升类似。

第二,更深层的原因,我认为是需求侧的变化

短视频时代,每个人都需要视觉表达:博主要做片头、创业者要做 demo、ai 产品要做宣传片、自媒体需要做动画。

需求爆炸了,但供给端还卡在专业工具和专业人才上。

OiiOii 做的,就是把这个缺口补上。

当缺口补上,这就带来一种强大的市场扩大效应:

原本只有 1 万人的专业创作圈,瞬间扩大到了 20 万人的泛创作者圈。

这也预示着,我们来到了 一个人人都可以创作动画的时代。

 

07

产品不免费还会有热度吗?

 

但说到这里,让我泼个冷水:OiiOii 的爆火真的是可持续的吗?

现在大家愿意排队拿邀请码,可能更多是因为新鲜、免费、好奇。

等新鲜劲过了,真正留下来的会是谁?而留下来的,他们付费意愿有多强?

从商业视角看, OiiOii 现在最大的挑战不是技术,而是找到自己的 PMF。

这是因为,OiiOii 内测期,为了更好的调试工程化,免费给用户使用,这很合理。但当 OiiOii 内测结束,开始尝试收费,其定价是否被普通用户接受,还是较难判断的。

拿字节最新发布的 doubao-seedance-1.0-pro-fast 模型来说,一条 10 秒的 720p 视频,成本接近 1 元,而如果短视频 20s,那么成本就接近两元,那产品定价 5 元,用户能接受吗?

我不知道答案。

但能确定的是,只有等到那一天真正到来,当用户真的愿意为视频效果付费时,OiiOii 才真正验证了 PMF。

 

08

未知,更让人兴奋

 

体验 OiiOii 这几天,我反复在想一个问题:AI 到底在改变什么?

技术圈喜欢谈 AGI 什么时候来,科技圈喜欢谈 AI 到底是否在产生泡沫,辛顿老师喜欢谈 AI 对人类的影响。

我看到的是一种更具体的变化: AI 在重新定义「专业」的边界。

以前,做动画是专业技能,需要看各种专业知识、需要学和用各种工具、需要投入 1 万小时在里面。

现在,OiiOii 把这个门槛降到了「会打字」,这让更多人获得了「刚好够用」的专业能力。

OiiOii 的意义,在于它打开了一扇门:动画表达,从此不再是少数人的特权。

至于这扇门后面是什么我不知道:

新形态的内容?甚至诞生新的「动画」品类?

这种未知,才是最让人兴奋的部分。

❌
❌