阅读视图

发现新文章,点击刷新页面。

高通的「共享内存架构」,想让 Win 本追上 MacBook Pro

一台 14 或 16 英寸的笔记本电脑,将几十上百 GB 内存直接封装进 SoC,实现超过 200 GB/s 的高性能内存带宽,还有轻薄的机身和安静又狂暴的性能……

你可能以为这是 MacBook Pro——但如果我告诉你,这是一台 ARM 架构的轻薄型 Windows 本呢?

4 月 27 日,华硕发布了灵耀 16 Air 的骁龙版,搭载的是高通骁龙 X2 Elite Extreme 平台,也即高通去年推出的第二代 Windows on ARM 处理器。

这是第一颗将 LPDDR5X 内存做进 SoC 封装的骁龙旗舰 PC 平台,是与苹果「统一内存架构」理念一致、执行接近的平行方案。尽管没能做到 M 芯片的百分百效果,仍然是高通在这条新路上,最关键的一次尝试。

这台华硕灵耀 16 Air 骁龙版,整机 1.2kg、厚度 13.9mm,48GB 内存(频率 9523 MT/s),可提供 20-30 小时续航。机器于 4 月 28 日京东首发,售价 13999 元。华硕同时也有 14 寸版本提供。

同期亮相的还有面向创作者的 ProArt 创 X 2026 二合一笔记本,重 0.82kg、提供 22 小时续航与 2.8K 144Hz OLED 屏。这些机型共同组成了华硕在 ARM Windows 阵营的 2026 全新产品矩阵。

回到顶配 X2 Elite Extreme 的共享内存架构:将内存放进芯片封装内,放到 CPU、GPU 和 NPU 的身边,并不只是改了改电路板布局。实际上,整个计算资源调度的方式,都发生了很大的改变。

苹果在 2020 年的 M1 芯片开始,不仅将内存封装进 PC 级芯片,更让调度变得更加灵活,内存反复读写的次数要求有所降低,结果就是让内存带宽暴增——称为统一内存架构。今年 3 月发布的 M5 Pro 和 M5 Max,则更是将内存带宽推到了 307 GB/s 和 614 GB/s。

骁龙 X2 Elite Extreme 是 Windows on ARM 笔记本第一次通过内存内封装的思路,让 1.2 公斤左右的轻薄本也可以享受类似于统一内存架构带来的快乐。

这背后,是高通和华硕等各大 OEM 一起,想让 Windows 笔记本追上 MacBook Pro 的企图。

让内存搬运再快一点

需要注明的是,「统一内存架构」是苹果使用的说法,高通官方称自己的方案为 SiP(System-in-Package)。

两者所指不完全相同:UMA 描述的是内存访问架构,SiP 则指的是具体的封装技术。但它们的实现效果和追求目标高度一致——共享物理内存池、跨 IP 块缓存一致。

可用于算力密集型任务(比如 AI 推理)的「显存」上限,直接等于整机的内存上限。哪怕是一台 48GB 的轻薄本,理论上也可以本地运行数百亿参数级别的大模型,这在传统架构上需要工作站级独显,采用集显的轻薄本很难做到。(X2 Elite Extreme 最高 SKU 为 128GB 共享内存。)

系统级缓存(SLC)可以在 CPU、Adreno X2 GPU、Hexagon NPU 之间动态分配,比上一代带宽高 70%;192-bit 内存总线搭配 LPDDR5X-9523,能够实现高达 228 GB/s 的C/G/NPU 共享内存带宽。

而传统的混合计算负载(同时依赖 C/G/NPU),被内存搬运所掣肘的情况,也得到了极大缓解。并且,整机功耗也能维持在轻薄本可以接受的水平。

更值得一提的是,这一代 Hexagon NPU 还专门把 DMA 单元升级到 64 位虚拟寻址,让 NPU 终于可以访问超过 4GB 的内存,一定程度上突破了 NPU 坐端侧大模型推理任务的瓶颈。

这的确不是 Windows 阵营第一次试水类似统一内存架构的方案,在此之前,英特尔、AMD 都做过尝试(稍后会详述)。

不过在今天,华硕灵耀 16 Air 骁龙版的高配机型,是 Windows 阵营里首个最大限度接近统一内存架构效果,并且还做到 1.2 公斤左右 ARM 轻薄本上的方案。

让更多 Windows 笔记本用上新架构

在共享/统一内存架构的道路上,每家芯片巨头对的判断都不一样,首先是工程问题,更深一层是商业问题。

一名在某芯片巨头供职的专家告诉爱范儿,行业里无人质疑统一内存架构的优秀,但做与不做,能否持续做,分歧在于厂商对性能目标和成本之间的平衡。

在 X2 顶配 SKU 上,高通目前的看法是:将统一内存架构所解锁的强大性能,交给给到真正需要它的硬核用户,特别是那些工作流里重度依赖 AI 模型/AI 功能的专业用户和创作者,这件事值得花成本去做。

再看英特尔,在上一代 Lunar Lake 架构上做过类似尝试,然而成本炸裂难以控制,不得不终止。英特尔前 CEO Pat Gelsinger 在财报会上明确将该次尝试定义为「one-off」,理由是封装内存把毛利压得太低。

今年 1 月发布的 Panther Lake 机型则回归了传统外置内存路线,据信后续的 Nova Lake 架构也将延续老的策略。英特尔仍然在高端 AI 笔记本市场上占有一席之地,但可以说短期内不会再走统一内存架构这条路了。

AMD 那边,Ryzen AI Max+ 395(Strix Halo)同样采用类似的共享内存架构架构,最高 128GB 板载 LPDDR5X,能够实现高达 256 GB/s 内存带宽,比 X2 Elite Extreme 还激进。

正因为此,在 AMD 的定义下 Strix Halo 属于移动工作站芯片,搭载的笔记本价格都更高,形态也更厚重,抑或是搭载于迷你工作站,不在个人笔记本电脑消费者的选购范围内。

三家芯片厂商,三种不同答案。骁龙 X2 Elite Extreme 消费级笔记本在这个时间点正式面市,虽然很难说撞上了换机窗口(毕竟今年的内存实在太贵),但至少填补了消费级市场的真空。

何时能追上 MacBook Pro 呢?

老实说,骁龙 X2 Elite Extreme 目前也只是跟苹果那边的 M5 基础款能打个有来有回,跟 M5 Pro/Max 这样的工作站级「顶级牛马」距离还比较远。

最直接的差距在于内存带宽的极限值:X2 Elite Extreme 的带宽宣传值能够达到 228GB/s,是 M5 Max 的 ⅓ 左右,比 M5 Pro 的 ⅔ 多一点。

当然还是要给 X2 挽尊一下,这一代仍然是单 die(晶粒),内存带宽存在物理上限。

而苹果在 M5 Pro/Max 这一代用上了新的「融合封装」,也即将两块 die 拼到一起,把内存总线扩展到更高。

在最直接的大模型推理任务上,内存带宽差距直接意味着 token 吞吐速度的差距;在 4K/8K 等极高清的视频剪辑和 AI 处理任务上,或者在其他工程软件的算力密集型任务上,也会有明显体现。

不过至少,Windows 平台在这些专业/工业软件的兼容性上是要比 macOS 好的……

我想,骁龙把共享内存架构带进消费级 Windows 笔记本市场,这件事的意义讨论或许不应该局限于性能数字上谁暴打谁,

而在于 Windows 平台用户不应该一直享受「二等公民」的体验。

即便是一台不超过 1.5 公斤的大屏轻薄本,仍然可以提供远比其它 Windows 性能本更好的 AI 算力,而且仍能保住轻薄本应该有的功耗优势——这,才是更重要的。

当然,围绕在 Windows on ARM 周围的种种问题,比如软件生态、x86 模拟层稳定性、专业软件适配等等,仍然无法被共享内存一劳永逸地解决。

从芯片厂,到微软,再到 ISV,大家都在加紧马力。比如 Photoshop、Lightroom 已经能够稳定运行 ARM 原生版本;达芬奇也早在两年前就完成了 Windows on ARM 的原生支持,甚至比 Adobe 还早。

但软件生态兼容仍有不完美之处,比如 Adobe AE 的部分渲染器和工作流仍然只能在 x86 平台上使用;Blender 的一些渲染功能在 ARM 架构上也会性能打折。

这是一个软件追硬件的时代。只有 X2 这一代能够让足够多用户,特别是创作者和专业用户,真正将骁龙本纳入主力机考虑——ARM 生态才会进入「用户越多适配越多,适配越多用户越多」的正反馈。

苹果也走过同样的路,所以这绝非不可能完成的任务。

 

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

十年时间,移动影像抵达「入海口」

1975 年的冬天,柯达应用电子研究中心的工程师 Steven Sasson,在实验室里拼凑出了一台古怪机器。

它重达 8 磅、仅 1 万像素,按下快门后,需听着沉闷的机器运转声等待漫长的 23 秒,才能将一张黑白照片写入到飞利浦卡式磁带里。

面对极低的像素和数据存储速度,Steven Sasson 认为这玩意还需要 15 到 20 年才能真正和胶卷竞争。

之后二十年,影像行业沧海桑田。影像载体加速数字化,并在二十一世纪的头一个十年,终于如 Steven Sasson 所愿,终结了胶卷时代。但那时,相机依旧属于「家庭重资产」,人类还没法随心所欲地拍照,更遑论视频创作。

直到移动影像时代来临。

刚刚发布的 vivo X300 Ultra,搭载第五代骁龙 8 至尊版,抛出了一个令人侧目的规格:全焦段 4K 120 帧 10-bit Log 视频。

此时回头看去,才发现人类用五十年的时间,建造了一条数字大运河,并让每个人都能行船其上。

底层扩容,鲸吞光影

这条运河里奔涌的河水,本质上就是海量的「密集影像信号」。

这个听起来颇为学术、有些距离的词,实际与每个举起手机按快门的人息息相关——

回想一下早年的智能手机,你一定对这样的画面不陌生:高光死白、暗部死黑、色彩断层、帧数不高,还伴随着挥之不去的噪点。

▲ iPhone 4s 拍摄的夜景画面,图片来自@PhoneArena

视觉上的灾难,本质上都是因为底层图像信号处理器(也就是我们更熟悉的 ISP)「咽不下」庞大的信号。

那时的手机只有 8-bit 的量化精度。一旦环境光比超过传感器的承载极限,高光区域的电平就会发生不可逆溢出,变成一片死白;而信号的暗部,则会被 ISP 粗暴地抹平成一团带有噪点的死黑。并且物理级的信息丢失,任何后期软件都无力回天。

这个痛点,比我们想象中更持久。

厂商曾试图用增大传感器面积换取更大的动态范围解决这个问题。但时至今日,在极度受限的机身内部,单纯堆叠物理尺寸的路径已逼近极限,后端 ISP 变得愈发重要。

▲ 手机内部空间已经被影像模组与电池瓜分,图片来自@Notebookcheck

过去很长一段时间,受限于物理规格,手机的算力中枢停留在 14-bit 双 ISP 阶段,随着传感器捕捉的信息愈发庞大,ISP 的数据管道必须随之拓宽。

从 2020 年骁龙 888 引入 14-bit 三 ISP 以应对并发数据,到后来 Spectra ISP 迭代至 18-bit,移动平台将影像数据的处理带宽扩容了 4096 倍。如今,为了承载更密集的影像信号,vivo X300 Ultra 搭载的第五代骁龙 8 至尊版 Qualcomm Spectra ISP 顺理成章地迈入了 20-bit AI 三 ISP 时代。

别小看这区区 2-bit。在数字底层,这个单位的任何变化都呈指数级海啸:单通道色彩的量化层级从 26 万平稳过渡到了 104 万级,为底层数据提供了 4 倍的动态范围余量。

依托这层宽裕的物理基底,vivo 与高通在底层影像管线上,完成了深度的联合调优。

结果也很生猛:X300 Ultra 实现了全焦段 14EV 的动态范围覆盖。

这股庞大的数据余量,被悉数灌注进了两个极其考验底层的专业规格中——Log 格式,与杜比视界。

在 Log 模式下,20-bit AI 三 ISP 负责将传感器捕捉到的线性信号,实时映射为对数曲线。由于底层采样精度的提升,手机保留了更丰富的原始信息,从而在后期调色时能有效抑制色阶断层,扩展了后期处理的边界;而在杜比视界标准下,算力则体现为对动态元数据(Dynamic Metadata)的封装精度。它能够更准确地对准每一帧的亮度与对比度信息,使高光与暗部的 HDR 层次得到如实呈现。

落实到实际体验上,效果也很明显——我们带着 X300 Ultra 去拍摄了一场「热带极光」,凭借 Log 格式极其优秀的动态范围与宽容度,我们在夜半时分记录到离岛的渔船照亮了天际。

经过后期还原后,渐变的天空过渡自然柔和,没有出现色彩断层,噪点抑制表现堪称优秀。

至此,原本属于影视工业的宽容度规格被集成进移动芯片,在底层凿出一条数字运河的航道。普通人也就能随时随地、以手机拍摄出更高规格且具备后期空间的视频,进而有了更多的创作可能。

多摄并发,变焦丝滑

解决了单颗镜头的明暗宽容度,只是完成了静态画面的重构。

但视频的核心在于叙事的连贯性,这就引出了移动影像长久以来的另一个痛点:变焦卡顿。

在拍摄视频时,我们常需要推拉镜头来切换视角。但滑动变焦环时,画面往往会伴随一阵不易察觉的跳动,色彩和白平衡也会发生突兀的偏转。

影像的叙事感,就这样被硬件的迟钝瞬间撕裂。

症结在于手机内部的镜头各自为战。它们素质各异且受控于独立时钟,传统 ISP 的「冷启动」策略只能在变焦瞬间仓促切换。时间戳一旦错位,画面的跳帧与色彩断层便注定发生。

▲ 传统专业摄影中,时间戳的对齐需要参照全球时间

要在移动设备上实现顺滑的变焦推拉,就必须在底层强行打通这些相互独立的硬件。

在 vivo X300 Ultra 实现全焦段高规格视频录制的背后,第五代骁龙 8 至尊版用两套相互咬合的底层机制将硬件扣合起来——

20-bit AI 三 ISP 撑起庞大数据吞吐,让三颗镜头得以在后台保持热并发状态。即使当前只用主摄录制,超广角和长焦的 ISP 通道也已经在后台同步运行着 3A(自动对焦、自动曝光、自动白平衡)算法,为随时上场热好身。

与此同时,第五代骁龙 8 至尊版的高通多摄同步系统(MSCC),扎进最底层的硬件总线,给这些原本各自为战的镜头,强制下发了一个统一的「全局时钟」。

广角、超广角、长焦。

无论它们的物理位置有多远,传感器素质有多大差异,底层的死命令只有一个:

在同一个微秒,同时曝光;在同一个瞬间,读取数据。

时间轴,被彻底锁死。

两套机制并发运行,以此换取 vivo X300 Ultra 跨镜头推拉时,不同传感器之间的数据交接平稳过渡,从而缓解了跳帧与白平衡漂移的痼疾。

专业影像领域如河流般暗流涌动,如果没有坚固巨舰为依托、严密的团队做协同,不得逐浪其中。

如今,底层芯片的算力在小小的机身内部,用数字逻辑管控物理秩序,让没有资金与团队的创作者,也能泛舟而行。

编解码,与算力双向奔赴

在影像领域,长期存在着一个反直觉的「算力悖论」:

在普遍认知中,相机处理器并非性能怪兽,却能吞吐洪流般的超高规格视频数据;我们手中搭载着强悍 SoC、能够高帧渲染游戏大作的智能手机,但在持续的极致影像记录时捉襟见肘。

究其根本,相机的处理器(ASIC)生来只为影像服务;而手机作为复杂的数字枢纽,真正留给影像的算力其实并不富裕。

算力的拮据,逼迫过去的手机不得不向存储空间妥协——普遍采用 H.264 或 H.265 等帧间压缩(Long GOP)格式,只记录关键帧和差异信息。这种做法极大地压缩了体积,却也彻底破坏了画面的物理空间信息。

▲ H.264 编解码原理,图片来自@ResearchGate

没有后期的底气,所有的前期快门都不过是碰运气。

一旦将这种素材导入剪辑软件进行二级调色,哪怕只是轻微拉扯一下阴影或高光曲线,画面立刻会暴露出大面积的马赛克色块与严重的色彩断层。

后期的调色空间被死死锁住,创意的落地、创作的可行,都无从谈起。

随着 vivo X300 Ultra 上市,长期以来的固有认知正在失效,4K 120fps Log 这类专业格式,来到手掌的方寸之间。

除了 20-bit AI 三 ISP 的持续发力,让有着高后期空间、创意可能的格式来到我们手上,此外,编解码器也功不可没——在 vivo X300 Ultra 上,vivo 与高通互相协作,成为国内首个落地 APV 422 编码的智能手机。

APV 采用的是专为非线性编辑(NLE)打造的「帧内压缩」,将每一帧画面的色彩深度与亮度信息独立、完整地封存起来。将 APV 422 格式的素材在达芬奇中调色,画面会展现出相当强的韧性,在应对节点式操作或复杂的 LUT 映射时,也能有效支撑起暗部细节与高光过渡,大幅减少了以往手机视频一拉曲线就出现马赛克与色阶断层的尴尬。

更友好的是,在提供与影视标杆 ProRes 几乎同等极致画质的前提下,APV 的底层编码机制让文件体积进一步降低了约 10%。

在内存价格飞涨的大环境下,编码效率提升有助于创作者开源节流,能省下不少钱。

性能与编解码器技术的双向奔赴,为这条大运河打造了高规格的「数字集装箱」,将信号完整且顺畅地运送到后期工作流,手机得以拥有与专业数字电影机全链路闭环无二的创作潜力。

移动影像抵达入海口

2014 年,vivo 推出 Xshot 拍照旗舰,与 X 超薄、Xplay 大屏两台机型一起组成三位一体产品线。

这台手机搭载 1300 万像素的索尼第二代堆栈式传感器、F1.8 的大光圈、光学防抖和双色温补光灯。而另一个没那么引人注目的配置,是 Xshot 配备的骁龙 801 处理器引入了双 ISP 架构,用以解决快门迟滞问题,并为高频作用的 OIS 光学防抖计算补偿角度,提供算力支持。

▲ vivo Xshot,图片来自@vivo

用底层算力辅助物理防抖的工程雏形,在今天演变为第五代骁龙 8 至尊版上 OIS 与 EIS 极高频数据握手的全焦段防抖链路。

非常巧妙的呼应。

此后十余年,手机影像能力一路狂奔,所产生的数据从溪流汇聚成洪流。 承载汹涌信息的河道,也持续扩容。

回溯至 X100 Ultra,行业首次将 2 亿像素长焦塞入受限的机身时,瞬间快门带来庞大数据拥堵。高通引入认知 ISP(Cognitive ISP),在底层提供了硬件级的实时语义分割与算力冗余,让高像素的数据吞吐不再伴随漫长的处理黑屏,干净利落。

到了确立专业影像基调的 X200 Ultra,战线被推进至更为严苛的暗光 4K 视频。面对极低信噪比的环境,依托骁龙底层的异构计算平台,影像架构完成了从传统 ISP 向 NPU(神经网络处理器)的深度交接。通过将 AI 算力前置到 RAW 域进行帧级降噪,手机终于跨越了小尺寸传感器在夜景视频中的进光量枷锁,实现了干净、可用的动态记录。

每一次前端模组与传感器的激进探索,都在对底层的吞吐能力发出严苛拷问。

如今,在 X300 Ultra 上,这场向底层索要宽容度的漫长工程,终于触碰到了工业级影像标准的边界。

回头,移动影像从「拍到」到「拍好」的河道蜿蜒漫长;前眺,从「记录」迈向「创作」的汪洋近在眼前。

数据洪流激荡交汇,骁龙筑起的河床向宽而行。

移动影像,终于在此刻抵达入海口。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌