普通视图

发现新文章,点击刷新页面。
今天 — 2025年7月4日首页

用完这个 Google 相机的精神续作,我觉得手机影像本该是这样

作者 周奕旨
2025年7月4日 17:17

六年前,当我抱着索尼相机,乘坐一架 IndiGo(靛蓝航空)的空客 320 前往印度,开启了我的摄影师之旅。

六年后的今天,手机摄影正在以非同寻常的速度覆盖传统影像的领域,相机市场的产品线逐渐收束为专业领域的趁手工具,或是时尚穿搭单品。

此时,又一个「Indigo」引起了我的注意力——Adobe 的 Project Indigo,一个完全迥异的影像 app。

它将 Google 相机那备受赞誉的计算摄影体验,原汁原味地注入了 iPhone,并由此让我得以一窥,计算摄影的极致上限,究竟有多强。

面向未来的相机 App,但是预览版

如果你一眼看过去,可能很难意识到这是一个影像 app——

Project Indigo 的应用图标完全没有任何影像元素,而是遵循 Adobe 一贯的设计方案,将名称中两个单词的首字母放在图标上,底图则是以蓝色线条框出 16 宫格。

进入 Project Indigo(后文简称为 Indigo),首先是熟悉的权限请求界面,这个影像 app 总共需要三个权限:

  • 相机控制权限
  • 相册访问权限
  • 位置信息权限

没有麦克风访问权限,说明 Project Indigo 是一个完全服务于静态影像的 app,更贴合互联网潮流的视频拍摄,并不是它的重心。

在权限申请完成后,Indigo 会为你展示这款影像 app 的主要 UI 和功能,我们快速略过,直接进入到应用的主界面。

Project Indigo 的拍摄主界面没有遵从 iOS 26 的设计,而是提供了尽可能多的信息和控件,让操作者能最大程度地掌控自己的照片效果。

从顶部开始看,这里分为图片格式、直方图与曝光参数、拍摄模式三个部分,图片格式允许你选择拍摄 JPEG 格式的照片或是 DNG+JPEG 格式。

JPEG 格式是一种常见的传播格式,适合拍摄后直接在互联网或社交媒体上发表,而后者则是一种记录了画面详细信息的 RAW 格式照片,可以提供庞大的后期空间,不适合直接传播。

顶部中间部分的直方图与曝光参数一目了然地展示了目前取景器中的曝光情况以及快门速度和感光度的组合,这个部分还可以通过滑动进入二级菜单,在这个菜单中,你可以控制一些辅助取景和拍摄的控件,比如倒计时拍摄、取景器九宫格、水平仪或是高光过曝指示器,也可以从这里进入整个 Indigo 的应用设置。

而右边则是目前的拍摄模式,Indigo 的模式设置并不复杂,只分为照片与夜景两个模式。

视线转向屏幕的下半部分,在取景框的底部,是我们熟悉的焦段选择栏,以我的 iPhone 16 Pro 为例子,Indigo 分别提供了 0.5×、1×、2×、5×、10× 这五个选项。

很显眼的是,在 2× 与 10× 这两个焦段上,标着 SR 的字样,从官方的说明书我们可以得知,SR 的全称是 Multi-frame super-resolution(多帧超分辨率技术),基于 1× 主摄的 2× 与基于 5× 的 10× 将会在这个技术的支持下获得可以媲美光学焦段的清晰度。

顾名思义,多帧超分辨率技术背后的技术原理,就是在你按下快门后,手机瞬时拍摄相当多的照片张数,然后通过一定的算法,将数十张照片融合,生成充满丰富细节和低噪点的照片。

▲ 这就很尴尬了,图片来自小红书 @KERICH诚

在实际测试中,我发现从 2× 开始,一直到 4.9×,多帧超分辨率技术都在发挥作用,而 10× 与 10× 以上也是如此。

也就是说,在 Project Indigo 中,各焦段的成像任务得到了进一步的划分:

  • 0.5×-1×:基于原生超广角镜头的数码裁切;
  • 1×-1.9×:基于原生主摄的数码裁切;
  • 2×-4.9×:基于多帧超分辨率技术的类光学裁切;
  • 5×-9.9×:基于原生 5× 长焦镜头的数码裁切;
  • 10× 与 10× 以上:基于多帧超分辨率技术的类光学裁切。

看完了让人眼花缭乱的焦段布局,我们接着将视线转向更下方,照片与夜景模式横置在焦段布局与快门键之间,在这里你可以快速切换两个模式,以应对不同的拍摄场景,不过这里与顶部右侧的模式切换出现了重复,稍微显得有些浪费 UI 位置。

再往下,就是最重要的快门,快门的左侧是相册,拍摄的照片将会归置在相册中进行后期的融合,你可以在这里看到还有几张照片正在后台融合,也可以从这里跳转到 Lightroom 中进行进一步的照片编辑;

而右侧则是进入更为专业的手动模式,在这里你可以自定义色温、对焦距离、快门速度与感光度等直接影响成片的参数。

看完了页面布局,我很好奇 Project Indigo 的实拍表现如何,看看这个着力于图像领域的老牌公司,对移动影像有着怎么样的不同理解。

先说结论,Project Indigo 主要有两方面体验完全不同于 iPhone 原生相机,在相同的硬件基础上,Project Indigo 的成像效果更为耐看,明暗过渡更符合肉眼所见,没有 iPhone 那样傻亮的感觉;

从直方图来看,Project Indigo 的像素比较集中于左半部分,成像更偏向暗调,更符合人眼的舒适区域,更激发人类的情绪共鸣,也更契合深层的艺术表达习惯。


另一个,则是 Project Indigo 的成像少了很多锐化的割裂感,但凭借相当多张数的多帧合成,锐度并没有过于衰减,放大后,画面中的物体与文字边缘依旧维持一个较为清晰的状态,保持着一定的可读性。


在光影过度自然、傻锐现象解决的同时,Project Indigo 还有一个不容易被注意到的优化——iPhone 原相机的成像在放大后很容易看见细微且密集的噪点,而 Project Indigo 则将这些底噪处理得很好,放大来看,画面依旧可以保持纯净。

综合来看,Project Indigo 在画面细节、锐度、噪点抑制和颜色表现上都非常优秀,展现出更为自然、和谐的美学倾向,也更还原肉眼所见。

可以说,Project Indigo 的首秀,就将 iPhone 目前饱受诟病的过度锐化、不自然的亮度曲线、画面细节充满底噪等问题统统解决了,甚至还拓展了 iPhone 焦段的可用边界,但我并不推荐你立马尝鲜。

原因无它,这个 app 依然存在不少问题:例如照片偶尔会在底部出现黑边、拍摄后的照片一经相册编辑就会泛紫红色,同时整个拍摄过程中的发热量和耗电量也明显高于系统原生相机。

根据 Project Indigo 的研发人员在社交媒体上的反馈,黑边与偏色问题主要源于系统适配尚未完善,属于典型的 beta 阶段 bug;

而发热和能耗则有更深层的原因——Indigo 使用了与 iPhone 完全不同的影像处理管线,所以无法调用苹果原生的 ISP,所有的多帧计算与图像融合任务,几乎都直接压在了处理器本身上,自然也就带来了更高的硬件负载。

其实这一切,Adobe 早在打开软件前就提示你了——还记得那个白色为底,排布着蓝色线框的图标吗?

这种酷似工程蓝图的设计已经直接表明 Project Indigo 尚处于专注于底层计算摄影算法和框架,以技术为第一驱动属性的试验品,而不是一个功能完善、适用于分发的完成品。

同时,Project Indigo 的出身也决定了它的使用体验肯定还不够好——这是由 Nextcam 团队在 Adobe Labs 框架下推出的一个项目,这里是 Adobe 面向未来技术的试验田与孵化器,专注于提出问题、验证思路,而不是交付终点。

▲ 这里的大多数应用,都是从 Adobe Labs 孵化的

计算摄影源流与未来

Project Indigo 的推出,虽然归功于 Adobe 这个长期耕耘在图像领域的公司,但推出 Indigo 的团队 Nextcam 中,有个名字值得留意——Marc Levoy。

如果你经历过那个国产 Android 影像尚未开卷,Google 相机大行其道的年代,那么对 Marc Levoy 这个名字可能不会陌生——早期的 Pixel 与以算法著称的 Google 相机,都是他主导下的杰作。

▲ Marc Levoy

Levoy 的理念根植于他的学术背景,一个与传统光学摄影截然不同的世界:计算机图形学。

早在博士期间,他开创的体渲染技术,就奠定了其日后工作的核心逻辑:通过计算,将一系列 2D 数据切片(如 CT 扫描)重构为一个三维整体,这与他他日后在移动摄影中实践多帧合成、重建图像核心逻辑的雏形。

在斯坦福大学任教期间,Levoy 进一步为计算摄影构建了坚实的理论基础——他与同事共同发表的《光场渲染》论文,主张相机不仅应记录光的强度,还应记录其方向,从而允许在拍摄后实现重新对焦等革命性操作。

是不是很熟悉?已经成为过去式的 Lytro 相机就是这条路径的忠实践行者。

2004 年,Levoy 在斯坦福的一门课程上重新定义并普及了「计算摄影」这个术语,从另一个角度诠释了这个词更广阔的内涵:

计算摄影技术旨在增强或扩展数码摄影的能力,其产出的是一张普通照片,但它却是传统相机无法拍摄出来的。

十年后,Levoy 正式加入 Google,带领团队主攻手机摄影,他早期的思想终于在这里得到了具象实现:通过高速连拍获取一组曝光极短的图像帧,再利用算法将其对齐、合并、降噪,最终计算出一张远超任何单帧质量的、纯净且动态范围宽广的照片。

一个计算量巨大、有些过于理想的理论,经过归纳、提炼,以普通设备可承受的算力实现,最终落在亿万用户手中,十年前的呐喊,终于传来阵阵回音。

▲ 手持 Pixel 3 的 Marc Levoy

此后的主角,就是我们熟悉的 Pixel,以及那些声名显赫的功能——首先是 HDR+,它彻底改变了手机在复杂光线下的成像表现,通过多帧合成技术,在保留高光细节的同时,也清晰呈现了暗部层次;

紧接着是人像模式,它利用算法在单颗摄像头上实现了可媲美单反相机的背景虚化效果,这正是其降维实现理念的完美体现;而夜景模式更是将这一思想推向极致,它能将多达 15 帧、每帧长达 16 秒的曝光合成为一张明亮、清晰的夜景照片,其效果在当时的移动影像领域堪称一骑绝尘。

这些立足于多帧合成技术的功能,不仅让单摄的 Pixel 力压 iPhone、三星等双摄手机,赢得了年度最佳拍照手机等无数赞誉,也让计算摄影一词,成为移动影像的制胜法宝。

多年后,当已经加入 Adobe 的 Levoy 被问及计算摄影与艺术创作的关系时,他的理念清晰且坚决:

不存在所谓「直接的摄影」,现实世界的光线动态范围远超任何传感器所能记录的极限,人眼本身也是一个自适应的感光引擎,人们看到的景象已经过大脑的主观处理,所以任何数字成像系统都必须对记录的色彩和色调进行调整,且这些调整不可避免地带有主观性。

理念落到产品上,Levoy 也毫不讳言,甚至坦诚得令人惊讶,明言在好几年的时间里,Pixel 的影像也按照他理念和美学在打造 :

我喜欢卡拉瓦乔的画作,所以 Pixel 2 到 Pixel 4 的成像风格都偏向黑暗、高对比度。

▲ 卡拉瓦乔的作品《在 Emmaus 吃晚饭》

这种理念延伸到 Levoy 的整个职业生涯,一直到他离开 Google,转身进入 Adobe,我们依旧可以在 Project Indigo 上看到这种偏向暗调的风格,与 iPhone 原相机本身着重中间调与亮部的成像策略完全不一样。

当然,这一方面是审美上的偏好,另一方面也离不开算法的要求——Project Indigo 的现有方案是通过拍摄多张微微欠曝的照片,用于保留高光细节和色彩,然后再通过多帧合成降低暗部噪点,按照这个逻辑合成的照片,本身就偏向暗调一些。

讲到这里,有心人已经可以发现一个非常长期主义的彩蛋:无论从审美上,还是从技术上,Project Indigo 都可以视作 Pixel 的精神延续,更有意思的是,这令人惊艳的 app 目前只提供 iOS 版本。

这何尝不算一种 Google 正统在苹果呢?

别让算法站在照片上邀功

变化是唯一的不变,顺境从不永恒。

计算摄影,这个曾在早期代表科技与先进的词汇,在接下来的时间里,可谓是高开低走。

在 Pixel 推出以后,Google 相机成为了 Pixel 的原生相机,并在之后的时间里逐渐不再作为单独的 app 存在,适配难度直线上升;再加上国产手机「青出于蓝」地持续进步,逐渐吸引了大家的目光并得到认可,也分散了人们对 Google 相机的关注。

▲ 从经典的「镭射眼」Pixel 8 系列开始,Pixel Camera 开始系统集成

另一边,占据手机生态半壁江山的苹果则在 iPhone 11 系列中全面引入了 Deep Fusion 技术,同样使用多帧堆叠的技术,却毁誉参半。

至于没有 Deep Fusion 的 iPhone,虽然效果自然,但的确在画质上又吃了亏,最终在后续处理器更迭中被逐渐淘汰。

▲ 大家熟悉的 Deep Fusion 来了

自那之后,计算摄影这个词开始承受越来越多负面联想——照片涂抹感严重、锐化过度、画面割裂感强,这些令人不适的观感形容词,逐渐成为它的刻板标签。

事情的转变出现在今年,在 OPPO Find X8 Ultra 上,有一个号称为摄影师准备的「大师模式」,其成像风格相比主流计算摄影更加克制与柔和:有效压低了数码锐化所带来的割裂感,同时拥有较为自然的亮度曲线。

但有点遗憾的是,在追求观感和柔和的同时,大师模式的锐度没有保持住,物体边缘清晰度下降,画质稍微欠缺些扎实。

而 Project Indigo 的路线则更为激进,它一边追求压榨性能到极致、一口气合成数十张照片的算法,一边在成片上完全去掉计算的负面影响,让计算只留在过程,最终呈现出的是一张观感自然、亮度线性、锐度在线的照片。

可以说,这是目前我见过的,将算法与成片分隔得最好的影像 app。

归根到底,我们对计算摄影的质疑,其实来自于对照片中那种明显的「被加工痕迹」的厌恶。

没错,算法的确很重要,算法也的确很努力,但人们想得到的,仅仅只是 Marc Levoy 口中那张不需要任何专业器材辅助,只需要经过计算,就能效果出乎意料的,普通的好照片。

而不是一张算法跃然纸上的邀功状。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


昨天 — 2025年7月3日首页

微软再裁 9000 人,白领「大屠杀」来袭:不用 AI 要被裁,用了 AI 也被裁

作者 张子豪
2025年7月3日 14:17

AI 裁员潮已经有了苗头。

今天微软被曝确认了年内新一轮裁员计划,预计将影响约 9000 个工作岗位,占其全球员工总数的 4%。这是微软今年宣布的第二次大规模裁员,也是其在 18 个月内的第四次大规模人员调整。

与此同时,微软正在要求部分管理者根据员工在内部使用 AI 工具的情况来评估其工作表现,并考虑在下一财年的绩效考核中,正式加入与 AI 使用相关的考核指标。

一边裁员,一边强制留任员工提升 AI 使用效率,正在成为硅谷科技巨头的标准动作。

18 个月内的第 4 次裁员

微软发言人表示,此次裁员涉及不同部门、地区以及各个经验层级的员工,其中微软的 Xbox 部门(微软游戏部门)受到的影响较大 。

这并非微软今年首次大规模裁员。早在今年 5 月,微软就已宣布在全球范围内裁员约 6000 人,约占其员工总数的 3% 。根据微软向华盛顿州就业官员提交的通知,6 月微软还在华盛顿州雷德蒙德总部裁员 300 人,5 月在普吉特海湾地区裁员近 2000 人 。

更详细的数据显示,2024 年 1 月,微软裁减了 1900 名 Activision Blizzard 和 Xbox 员工,随后在 5 月关闭了多个游戏工作室并进行了裁员,6 月又有 1000 名 HoloLens 和 Azure 云团队的员工被裁 。作为收购 Activision Blizzard 后重组的一部分,微软在 9 月再次裁员 650 名 Xbox 员工

彭博社报道,现为微软旗下的 King 部门——《糖果传奇》的开发团队,正在裁员约 10%, 200 人左右 。微软还在其 Forza Motorsport 工作室 Turn 10 裁员 70 余人,并取消了《完美黑暗》和《永野》两款游戏。负责《完美黑暗》的工作室 The Initiative 也将作为此次裁员的一部分关闭 。

Xbox 负责人 Phil Spencer 在给团队的内部备忘录中表示:

为了确保游戏业务的长期成功,并专注于战略性增长领域,我们将结束或缩减部分业务,同时借鉴微软的做法,精简管理层级以提升灵活性和工作效率。

 

我意识到这些变化发生在我们拥有比以往更多的玩家、游戏和游戏时长的时候。我们的平台、硬件和游戏路线图从未如此强大。我们目前看到的成功是基于我们过去做出的艰难决定。

当 AI 成为硅谷大厂的考核指标

在裁员的同时,微软对留任员工的考核标准也在悄然改变。

Business Insider 获悉,微软正在要求部分经理根据员工在内部使用人工智能的情况进行评估,考虑在绩效评审中加入相关的考核指标。

▲微软开发者部门总裁 Julia Liuson

这一变化的核心推动者是微软开发者部门总裁 Julia Liuson,她负责包括 AI 编码服务 GitHub Copilot 在内的开发者工具。Liuson 最近发出邮件,要求各位经理根据员工使用内部 AI 工具的情况来评估他们的工作表现。

在这封邮件中,Liuson 用了一个极为明确的表述:「人工智能已经成为必需品,不能再选择不使用」。她进一步阐述道:「人工智能如今已成为我们工作方式的基础组成部分。正如协作、数据驱动的思维和有效沟通一样,使用人工智能已不再是可选项,而是每个岗位和每个层级的核心要素」。

Liuson 明确告诉各位经理,人工智能「应当纳入你们对员工绩效和影响的全面评估中」。这意味着员工的 AI 使用情况将直接影响他们的绩效评分和职业发展。

据一位知情人士透露,微软的绩效标准因团队不同而有所差异,一些团队正考虑在下一财年的绩效考核中正式纳入使用内部人工智能工具的相关指标。

据另外两位知情人士透露,这些变动旨在解决微软内部对其 Copilot AI 服务采用率偏低的问题 。公司不仅希望大幅提升使用率,也希望负责开发这些产品的员工能更深入地了解这些工具 。

这一策略的紧迫性还来自于竞争压力。在 Liuson 的团队里,GitHub Copilot 正受到包括 Cursor 在内的多款 AI 编码服务的激烈竞争 。

亚马逊 CEO :「更少的人」与「更多的 AI」

微软的战略调整并非个例。亚马逊 CEO Andy Jassy 在近期发给全体员工的一封内部信中,用前所未有的坦诚态度,详细阐述了生成式 AI 将如何重塑公司结构。

▲ 亚马逊 CEO Andy Jassy

Jassy 在信中写道:

目前,我们已有超过 1000 个生成式人工智能服务和应用正在开发或已完成,但以我们的规模来看,这只是未来将打造的冰山一角。接下来的几个月里,我们会加大投入,简化代理的构建流程,并在各业务部门及行政管理领域推出(或合作开发)多个新代理。

 

随着我们推广更多生成式人工智能和智能代理,工作方式将发生改变。一些现有岗位所需的人数会减少,而其他类型的岗位则需要更多人。虽然具体影响难以预测,但未来几年内,随着公司广泛应用人工智能提升效率,我们预计整体员工规模将有所缩减。

 

▲ X 截图,亚马逊  CEO 公开信消息

他这封公开信几乎是另一种形式的「警告」,要员工主动适应这一变化:「那些拥抱变革、熟悉人工智能的人,将有机会产生深远影响,助力我们重塑公司」。

在这场正在发生的「白领大屠杀」,硅谷高管们手中的「屠刀」,就是正在冉冉升起的 AI 公司。

▲Anthropic 公司 CEO Dario Amodei

Anthropic 公司 CEO Dario Amodei 在接受 Axios 采访时预测,AI 可能在未来 5 年内淘汰一半的入门级白领职位,失业率将上升到 10% 至 20% 。

他直言不讳地指出,技术、金融、法律、咨询等白领行业,尤其是初级岗位,将面临大规模裁员。

Amodei 认为,企业对 AI 的使用正在从「增强」人类工作,快速转向「自动化」并直接承担工作本身 。他指出,包括 OpenAI、Google 和 Anthropic 在内的大型 AI 公司,都在竞相开发能够以极低成本完成人类工作的「智能代理」。

更令人担忧的是,Amodei 表示,这种集体性的威胁正被普遍忽视。公众「还没有意识到这件事即将发生」,「这听起来很不可思议,人们根本不相信」。

AI 裁员潮中的白领

实际上类似的事今年已经屡见不鲜。

沃尔玛正在裁减 1500 个企业职位,为即将到来的重大转变简化运营;网络安全公司 CrowdStrike 削减了 500 个职位或 5% 的员工,理由是「市场和技术拐点,AI 正在重塑每个行业」。

▲ 自2020年2月1日起,Indeed 上的职位发布数量变化,Indeed 为全球知名求职网站。

扎克伯格曾公开表示,中级程序员很快将变得不必要,可能在今年内实现 。他指出,到 2025 年,Meta 及其他公司将拥有能有效扮演「公司中级工程师」角色的 AI,从而减少对人类程序员的需求。此后,Meta 便宣布裁员 5%。

AGI 的宏大叙事还是蓝图,但 AI 带来的变化已经落在了具体的个体身上。

也许没有哪个行业比科技行业受到的冲击更大,互联网论坛上充满了员工们分享自己已经被裁员,或者在担心什么时候会被裁员的消息 。

21 年经验的工程师:从 AI 提效到被 AI 替代

软件工程师 Shawn K 有着 21 年的行业经验,年薪 15 万美元 。2024 年 3 月,42 岁的他在 FrameVR.io 担任全栈工程师,公司鼓励员工使用 ChatGPT,团队生产力也因此大幅提升 。

一个月后,他被裁员了 。

他在 Substack 上分享了自己因人工智能接管公司而被裁员的经历,这篇帖子现已广泛传播,标题为:「大规模岗位替代已经开始」。

我们一直在将公司转型为人工智能方向,在整个软件中加入人工智能功能,努力为客户利用人工智能创造价值。就在完成这次重组和战略调整后不久……我被裁员了

失业后的生活异常艰难。他有两笔房贷需要偿还,于是开始在纽约中部家附近通过 Door Dash 做送餐工作,勉强维持生活 8。在投出近 800 份求职申请、坚持了一年多后,他终于在本月初拿到了一份合同工作 。

「我尝试了很多方法,能想到的都试过了。在过去一年里,我降低了申请职位的标准,也降低了考虑工作的门槛」,他说。「到了某个时候,情况变成了你需要立即拿到现金来维持基本的吃饭和付账单」。

尽管如此,K 依然对 AI 保持着复杂的态度:「人工智能比我更擅长编程,但这并不代表我没有价值。我觉得这反而让我能做的事情增加了 100 倍,还能解决以前根本不会尝试的更复杂的问题」。

但他对未来的判断却十分悲观:「我真的相信,凡是整天在电脑上完成工作的职位都将消失,这只是时间早晚的问题」

HR:从晋升轨道到被自动化替代

另一位化名为「简」的人力资源专员,则亲眼见证了自己被替代的全过程。人工智能对工作的威胁常被提及,但当她的人力资源岗位被自动化取代并于一月被裁员时,这一威胁才真正变得令人震惊和切实。

她在公司负责福利管理已有两年,正处于晋升的轨道上。她注意到老板在搭建人工智能基础设施,但并不认为自己年薪约 7 万美元的职位会受到影响。

「我以为自己投入了大量时间,在高层次的工作中表现出色,老板会看重我」,这位 45 岁的湾区居民在接受《独立报》采访时谈到她的前雇主 。「结果,一旦他找到自动化替代的方法,就立刻用了,然后就把我辞退了」。

更糟糕的是,当前的经济形势让找工作变得异常艰难。二月份,她的一次电话面试是由一套人工智能系统进行的 。「这感觉就像是在和自动语音信箱面试」,她说「机器人」问了她一些关于自己的问题,但回答都很泛泛,让她觉得这项技术无法帮助她进入下一轮 。

Dario Amodei 所预言的「白领大屠杀」似乎在按照既定路径展开,一条清晰的逻辑链条正在浮现:以 AI 提升效率,以效率为名精简人员,这正在成为硅谷新一轮技术变革下无法回避的现实。

「简」现在已经找到新工作,她依然表示:「现在的情况是白领职位大幅减少,我觉得很多工作正在消失」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


昨天以前首页

微软 AI 诊断准确率超人类医生4倍,以后看病前先问问它?

作者 张子豪
2025年7月2日 19:42

四倍,AI 医生的诊断准确率远超过人类医生。

这可能有点难以置信,但微软人工智能团队日前发布的一项 AI 诊断协调系统 MAI-DxO(MAI Diagnostic Orchestrator)真的做到了。

它在《新英格兰医学杂志》每周发布共计 304 个真实复杂病例上进行了基准测试。测试结果显示,准确率达到了85.5%。

这个基准测试不再是之前光凭借记忆,就可以做到的试卷答题,而是微软创建的全新的评测标准,「顺序诊断基准」(SD Bench)。它高度还原了真实诊疗过程的互动挑战:

  1. 从患者的初步症状描述入手。
  2. 通过多轮提问,选择各种检验检查,逐步手机病情信息。
  3. 每开一项检查,同时记录检查项目的费用;评估必要性和成本。
  4. 给出最终诊断。

同样面对这个 304 个复杂病例,微软选择了另外 21 位来自美国和英国,具有 5 年至 20 年临床经验的执业医生,测试结果显示,真实医生的平均准确率仅为 20%,这与 「AI 医生」的差距足足有四倍之大。

同时,与人类医生相比,这个「AI 医生」还少开了很多不必要的检查,减少了 20%-70% 的诊断成本。

顺序诊断基准测试介绍图,「守门人」回应来自诊断代理的信息请求,评估模型则评估诊断代理的最终诊断与病例报告准确度。

▲顺序诊断基准测试介绍图,「守门人」回应来自诊断代理的信息请求,评估模型则评估诊断代理的最终诊断与病例报告准确度。

MAI-DxO 究竟是如何做到人类医生的准确率四倍之高呢,它不是一个新出现的大语言模型,它也不依赖某个单一的模型。

MAI-DxO 是一个模拟现实中多名医生合作诊断过程的系统。得益于当前大语言模型的持续发展,在 MAI-DxO 系统中,有不同的语言模型去扮演五种不同的医疗角色。

这些医疗角色包括推测各种结果的假设医生、选择医生、质疑当前诊断假设的挑战医生、避免不必要检查的成本管理医生、以及确保诊断步骤和选择逻辑一致的检查表医生。

这些「医生」协作工作,充分地模拟了人类医生团队的工作流程,还弥补了单一 AI 模型在复杂诊断中可能出现的缺陷。

MAI-DxO 系统概览图

▲MAI-DxO 系统概览图

如上图描述的系统概览图所示,MAI-DxO 完全模拟了我们去医院看病的流程。

  1. 首先从问诊开始,MAIN-DxO 会得到一个简短的临床小故事,通常为 2-3 句话,包含病例的基本情况。
  2. 接着,MAI-DxO 会开始总结患者的主要诉求,选择下一步操作,是继续向患者提问,还是申请开检查。
  3. 每开一项检查会计算检查费用,同时持续进行多轮互动,直到给出最后诊断结果。

在测试过程中,MAI-DxO 利用 o4-mini 和专业医生设置了一个「守门人」,确保系统给 AI 的信息是与正常医生在问诊和临床上能够得到的信息一样。

MAI-DxO 的出现,为大语言模型在医疗诊断上取得明显的性能提升。微软测试了来自 OpenAI、Gemini、Claude、Grok、DeepSeek 以及 Llama 系列的不同模型,表现均优于仅使用单一的 AI 模型,而表现最好的组合是 MAI-DxO 与 OpenAI 的 o3 配对。

由于不受大语言模型的限制,MAI-DxO 还能够在将来有更好的模型出现时,同步适配。

不同人工智能模型的准确性和每例平均诊断测试成本对比

▲不同人工智能模型的准确性和每例平均诊断测试成本对比

尽管看起来 「AI 医生」已经有模有样,不过 AI 要真正做一个好医生可不是那么容易的。

微软在该项目论文最后提到,这次的研究存在显著局限性,包括像参与对比实验的 21 位医生并没有获得同行的讨论协助、参考书籍以及生成式 AI 等资源。此外,微软这次实验也仅仅只讨论了最具挑战性的病例难题,而对我们一般的日常性疾病诊断没有做进一步的测试。

微软强调 AI 不会取代医生,它将成为医生与患者共同的助手。

但就是这个医生和患者共同的助手,也持续地吸引着全世界范围的关注;早在今年 3 月,微软就发布了医疗界首个用于临床工作流程的 AI 助手 Microsoft Dragon Copilot,它能帮助医生更好的整理病例的临床文件。

IBM 推出 IBM Watson Health 医疗人工智能平台、谷歌的 DeepMind、以及英伟达的 NVIDIA Clara 等,都正从导诊、问诊、病理等医疗场景中带来新的变革。

前段时间,阿里达摩院也发布了全球首个胃癌影像筛查 AI 模型 DAMO GRAPE,首次利用平扫 CT 影像结合深度学习识别早期胃癌病灶。

华为今年才组建组建医疗卫生军团,上周也联合瑞金医院,宣布开源 RuiPath 病理模型,具备临床验证能力,覆盖肺癌等 7 个常见癌种。

医学需要极高的精准度,0.01% 的失误也有可能造成严重的后果,它完全不同于程序员写代码时出现的 bug。

MAI-DxO 模拟真实问诊的过程,看起来这条 AI 医疗之路越来越清晰。

从百度问诊,到 ChatGPT 问诊,我想未来除了拿着普通医院的检查结果,查医院排行榜,付费问在线医生,还可以先看看这个「AI 医生」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


支付宝这个新的 AI 应用,终于让我妈不再转发奇怪的养生文了

作者 李超凡
2025年6月27日 16:22


上周,我妈又忧心忡忡地给我转来一篇名为「震惊!这三种蔬菜竟是致癌元凶」的文章,还附带一句:「儿子,咱家常吃的这个,以后可别买了!」

我点开一看,又是那种熟悉的自媒体配方,内容漏洞百出,但标题耸人听闻。

这已经不是第一次了,相信很多「相亲相爱一家人群」里,总有那么几个亲戚热衷于转发各种真假难辨的「养生秘笈」。

说实话,我能理解他们的焦虑。人到了一定年纪,对健康问题格外上心。但问题是,现在网上的健康科普太乱了,各种说法互相矛盾,别说长辈,连我们自己都分不清哪个是真哪个是假 。每天有超 2 亿人次在互联网搜索医疗健康问题,但网络信息真假难辨、广告植入鱼龙混杂,干扰判断 。

这种信息过载带来的,是无尽的焦虑和不安全感。我甚至动过念头,干脆把那个最爱转发的亲戚给「屏蔽」了。

昨天,蚂蚁发布了新的 AI 健康应用「AQ」,这是之前支付宝上的「AI 健康管家」的升级版,除了在各大应用商店下载(iOS 还未上线),也能直接在支付宝里体验。

体验了一番后,我发现它不只是建立在健康知识库上的聊天机器人,背后有点真东西。

一个随身的「AI 医生」,靠不靠谱

我起初是半信半疑的。毕竟,市面上打着「AI 健康」旗号的应用,很多都停留在简单的问答层面,甚至在专业问题上会出现「AI 幻觉」,一本正经地胡说八道。

但当我把妈妈的疑问——「听说吃 XX 蔬菜会致癌,是真的吗?」输入 AQ 时,它的回答让我眼前一亮。它没有直接给出「是」或「否」,而是先引用了权威的医学资料进行辟谣,然后详细解释了这类谣言的来源,最后还给出了科学的饮食建议。更重要的是,它会专门把 RAG(检索增强生成)来源标注出来,这些来源都是医学知识中最新最顶尖的 。

这让我意识到,AQ 的底层逻辑和普通 AI 完全不同。它背后是蚂蚁医疗大模型,一个用超过万亿 tokens 专业医疗语料和千万级医疗知识图谱「喂」出来的大家伙 。在应用层面,蚂蚁医疗大模型在 AQ 产品应用中识别报告、药品、皮肤病等图像准确率达 90% 以上,包括对超过 100 多种复杂的、多页的医学检验检测报告进行识别和解读 。

最让我惊喜的是「名医 AI 分身」这个功能。名医的资源为什么稀缺?因为他们的经验、注意力和时间都是有限的。而 AI 分身,复制的正是他们最宝贵的「知识」和「经验」。

我妻子怀孕时,我们关注了妇产科专家段涛医生的抖音,他的科普内容帮我们解决了很多孕期的困惑。但我们知道,想让他本人看诊非常不容易。而在 AQ 上,我竟然看到了段涛医生的 AI 分身。

我试着咨询了一个关于孕期营养的问题,AI 分身不仅给出了专业的回答,它的问诊逻辑和语气,都像极了段涛医生本人。这并非简单的声音和形象授权,而是基于对医生大量结构化诊疗经验、科普文章和论文资料的深度学习,还会根据患者的问题给出更多问题,对症给出更准确的建议。比如,一个 AI 分身的诞生,需要「加训」超过 100 个小时的结构化诊疗数据和 5 万篇以上的专业资料。

更让我印象深刻的是毛洪京院长的 AI 分身。我爸长期有睡眠问题,以前想挂毛院长的号几乎是不可能的事情。现在通过 AI 分身,偏远山区两三万的用户都可以享受到这样的能力 。毛医生说过,过去平均每月只能接诊 600 名患者,现在通过「AI 分身」一天最多能服务超 11 万人次,服务范围也从省内拓展至全国 。

这种「AI+人」的模式确保了严谨性。医生本人及其团队会定期查看线上数据,如果发现 AI 的回答有问题,会持续进行优化和迭代。大模型需要学的是高频出现的病证、部分典型疑难杂症知识,这些案例必须是完整的,不能是断点零散的。过去,我们看病最大的痛点之一就是「挂号难」。面对复杂的科室和陌生的医生,常常不知道该选哪个,就像大海捞针。

我试着输入:「我最近总是胃不舒服,有点反酸,该挂哪个科?」AQ 在追问了几个关键症状后,直接为我推荐了消化内科,并列出了附近几家医院的专家和可预约时间。这种体验的背后,是 AI 强大的匹配能力,它甚至能根据你复杂的病历,推荐最适合处理相似病例的医生,而不仅仅是名气最大的那一个。

去年蚂蚁 AI 健康管家上线后,不到一年已经有 7000 万用户在用 。它可以连接全国超 5000 家医院、近百万医生、近 200 位名医 AI 分身来提供服务 。从简单科普咨询到复杂的诊后管理,甚至在需要时可以直接衔接挂号服务,形成了一个完整的服务闭环。

科技最大的善意,是让「相亲相爱一家人」不再焦虑

用了 AQ 几个月后,我发现它最打动我的,不是那些炫酷的技术参数,而是一些很细微的瞬间。

比如怀孕的妻子突然肚子隐隐作痛,我们不知道是普通的消化不良还是需要立即就医。以前遇到这种情况,要么硬着头皮挂急诊,要么在网上瞎搜一通,越看越害怕。

现在,我直接问了段涛医生的 AI 分身,它详细询问了疼痛的位置、性质和伴随症状,最后给出了专业的判断和建议。那种安心的感觉,就像身边真的有个 24 小时待命的专家朋友。

再比如住在三线小城市的长辈,以前想看个好点的睡眠科医生,得跑到省城排队挂号。现在他直接在手机上就能咨询毛洪京院长的 AI 分身,从睡眠问题到用药指导,应有尽有。

AI 分身肯定无法完全和真人一样,但在一些常见场景能达到专家本人 80% 的水平,但对大多数人已经足够了。

我想,这就是科技真正的温度。它没有颠覆什么,也没有取代什么,它只是悄悄地填补了那些让我们焦虑的空白。让那些原本遥不可及的医疗资源,真正走进了普通人的生活。

现在,当我看到家族群里再有人转发那些不靠谱的「养生秘笈」时,我会分享一些来自专家 AI 分身的科普内容。因为我知道,在这个信息爆炸的时代,最珍贵的不是更多的信息,而是更可信的陪伴。

或许,这就是 AI 时代该有的样子——不是让机器变得更像人,而是让技术变得更有人情味,要实实在在地解决我们生活中的每一个小问题,让那些我们最关心的人,能活得更安心、更健康。

这或许,就是对「相亲相爱一家人」这个群名,最好的诠释。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌