阅读视图

发现新文章，点击刷新页面。

手写无限画布4 —— 从视觉图元到元数据对象

掘金前端

光头老石

2026年2月27日 17:13

画布上的每一个像素都是稍纵即逝的，真正永恒的，是背后那套被精心设计的元数据（Metadata）规范。

尽管在前面的篇章中，我们一路披荆斩棘，搞定了坐标系、渲染层和基本交互，让演示工程初具雏形。但 Canvas 本质上只是一块没有记忆的像素面板。

要想从理论走向工程落地，实现支持持久化与多人协同的业务，最核心的架构法则在于：必须将画布上的任意元素，都抽象并定义为可传输、可持久化的元数据对象（Metadata Object）。

元数据定义 (Metadata Definition)

我们要彻底抛弃"直接在画布里 new Konva.Rect()" 的思维惯性。

在一个成熟的白板应用架构中，画布引擎只是一个"读报机器"，它读的报纸，就是我们定义的元数据规范（Metadata Schema）。

为了达到我们最终建立一个类似 Excalidraw 的既定目标，我们在规范数据结构时，绝不能只停留在纯粹的"几何图形"定义上。我们必须在其之上，附加明确的预制业务概念。我们不仅要描述它是一个 Rect（矩形），更要描述它在业务里是一张 StickyNote（便利贴），还是一根 Connector（连接线）。

如下代码，这就是我们实际落地的元数据规范：

// src/schema/types.ts

// 所有图元共享的基因——它们必须遵守的基础契约
export interface BaseElementData {
  id: string; // 唯一宇宙编号，协同与更新的基石
  type: ElementType; // 业务大类
  x: number;
  y: number;
  width: number;
  height: number;
  hitColor: string; // 上一篇的命中测试色值，也要元数据化
  strokeColor: string;
  backgroundColor: string;
  opacity: number;
  zIndex: number; // 层级控制，决定覆盖关系
  isLocked: boolean; // 业务属性：用户是否锁定了该元素
  // ...
}

// 业务派生：形状、文字、线条各有自己的专属字段
export interface ShapeElementData extends BaseElementData {
  type: "rectangle" | "ellipse" | "diamond";
}

export interface LinearElementData extends BaseElementData {
  type: "arrow" | "line";
  points: number[][]; // 途经的折点
  startArrowhead: "arrow" | "triangle" | "none";
  endArrowhead: "arrow" | "triangle" | "none";
  startBindingId: string | null; // 线头绑定的元素 ID
  endBindingId: string | null;
}

// 终极联合类型：无限画布的唯一真理对象
export type CanvasElementData =
  | ShapeElementData
  | TextElementData
  | LinearElementData;

注意一个关键细节：上一篇讲到的命中测试色值 hitColor，也被我们收编进了元数据定义。从此刻起，一个图形的一切——它在哪、它多大、它长什么样、它怎么被点中——全部由这颗 JSON 树的一个节点来描述。再也没有游离在数据结构之外的"野状态"了。

纯元数据驱动带来的红利

当你把屏幕上所有花里胡哨的图形，都严格浓缩成上述哪怕只有几百 KB 大小的纯 JSON 文本时，奇迹发生了：

绝对纯净的持久化与协同：现在保存用户作品，不过就是做一次 JSON.stringify。而做多人协同，也不过是当某个 Node 的 x 发生改变时，通过 WebSocket 向房间里的其他人广播一个极小的 Diff 补丁 {"id": "node_1", "x": 250}。
极其廉价的时间机器：撤销（Undo）与重做（Redo）再也不是什么黑科技。因为数据被极度抽象了，你只需要使用类似 Immer.js 等不可变数据结构工具，把每一步操作的 JSON 快照（或者 Delta 片段）保存在数组里，指针前后移动，就是时间倒流。
彻底的跨端解耦：这套 Metadata 甚至都不知道 Canvas 的存在。你可以把同一团 JSON 丢给 Web 端用 Konva 渲染，扔给 iOS 用 CoreGraphics 渲染，或者丢给后端 Node 帮你无头渲染出一张 PDF。

接入状态管理：Zustand

有了元数据定义，接下来的问题是：这颗 JSON 树放在哪？谁来读它、写它、通知别人它变了？

绝不能让 Konva 本身（View 层）既当爹又当妈地去存储这些业务数据，这会导致视图状态和业务逻辑严重耦合。我们引入现代轻量级状态管理库 zustand 作为单一事实来源（Single Source of Truth），对整个工程做一次严格的分层。

打开 src/store.ts，这是整个工程的心脏：

// src/store.ts

export const canvasStore = createStore<CanvasState>((set) => ({
  // 全部元素的 Record 字典，key 为 id
  elements: initialElements,
  // 应用运行时状态（当前工具、缩放、视口偏移、选中态...）
  appState: defaultAppState,

  // ——— 以下全是纯函数式的 Actions ———
  updateElementProps: (id, props) =>
    set((state) => ({
      elements: {
        ...state.elements,
        [id]: { ...state.elements[id], ...props },
      },
    })),

  addElement: (el) =>
    set((state) => ({
      elements: { ...state.elements, [el.id]: el },
    })),

  selectElement: (id) =>
    set((state) => ({
      appState: { ...state.appState, selectedElementIds: id ? [id] : [] },
    })),
  // ...
}));

值得反复品味的是：无论是创建元素、更新坐标、还是切换选中态，Store 里执行的全部都是浅拷贝替换（{ ...state.elements, [id]: ... }）。没有任何副作用，没有任何直接 DOM 操作。这意味着前面说的 Undo/Redo "时间机器"，你只需要把这些 Immutable 快照存进一个栈里就好了——就是这么廉价。

引擎订阅：一个极致的"哑巴渲染器"

Store 管数据，那谁管画面？答案是 src/engine/index.ts——我们的引擎总控 EngineFacade。它做的事情极其克制：只读数据，只画画面。

// src/engine/index.ts — 订阅逻辑

this.unsubscribe = canvasStore.subscribe((state) => {
  // 图元变更 → 重新渲染
  if (state.elements !== prevState.elements) {
    this.shapeRenderer.render(state.elements);
  }
  // 选中态变更 → 同步 Transformer 控制框
  if (state.appState.selectedElementIds !== prevState.appState.selectedElementIds) {
    this.selectionManager.syncSelection(state.appState.selectedElementIds);
  }
  // 视口变更 → 同步 Stage 缩放/平移
  if (state.appState.zoom !== prevState.appState.zoom || ...) {
    this.viewportManager.syncViewport(zoom, scrollX, scrollY);
  }
});

请注意这里的引用相等性比较（!==）。Zustand 的不可变数据范式保证了：只有当数据真正改变时，引用才会不同。所以引擎的每一次重绘都是精确触发的——不多画一帧，不少画一帧。

整个数据流形成了一个干净的单向环路：

用户操作 → Store 更新元数据 → Engine 监听到变更 → Konva 重绘画面
                ↑                                      │
                └──────── 用户拖拽，Engine 回写坐标 ────┘

Konva 永远不私自修改任何数据。当用户拖拽一个图形时，Engine 层拦截 Konva 的 dragmove 事件，取得新坐标，然后调用 store.updateElementProps(id, { x, y }) 把新位置"汇报"回 Store。Store 更新后触发订阅回调，Engine 再根据新数据重绘——一切都是单向、可追溯的。

而浮在画布之上的 React UI（工具栏、属性面板）也是同一个 Store 的消费者：

// src/App.tsx — 属性面板（精简）
const PropertiesPanel = () => {
  const selectedIds = useCanvasStore(
    (state) => state.appState.selectedElementIds,
  );
  const elements = useCanvasStore((state) => state.elements);
  const updateElementProp = useCanvasStore((state) => state.updateElementProp);

  const el = elements[selectedIds[0]];
  // 从 store 读数据，渲染颜色选择器、描边样式按钮...
  // 用户点击后，直接调用 updateElementProp() 回写 store
};

我们常说，前端框架 React 的核心公式是 UI = f(State)。而无限白板的架构真谛就是：Canvas = Konva(Metadata)。

回望：四层地基已就位

至此，我们用四篇文章，自底向上地垒完了无限画布系统的四层地基：

层级	解决的核心问题	关键技术
坐标系	"无限"与"缩放"的数学本质	世界坐标 ↔ 屏幕坐标变换
渲染层	高性能绘制大量图形	Konva Scene Graph, 局部重绘
交互层	重建事件感知	离屏 Color Picking, Hit Testing
对象层	让画布拥有序列化的组织	元数据 Schema, Zustand 单向数据流

历经四篇文章的打磨，我们从最底层的数学坐标系起步，最终构筑起这套‘可协同、可撤销、可跨端’的数据驱动画布架构。这段工程演进之路的破局关键，其实就是两个字：克制。清晰划定架构的分层边界，想透每一层该做什么，并坚决杜绝越界。

本系列实例项目已上传GitHub github.com/Seanshi2025… 项目上有完整的架构组织文档。

手写一个无限画布 #3：如何在Canvas 层上建立事件体系

掘金前端

光头老石

2026年2月27日 10:29

你以为你点中了一个圆，其实你只是点中了一堆毫无意义的像素点。在画布里，所谓的“选中”，不过是一场精密的数学与色彩幻术。

上一篇我们终于搞定了渲染层，并明确选择了 Konva (Canvas 2D) 作为我们的底层渲染基石。现在，我们的屏幕上终于可以丝滑地渲染出极具表现力的图形了。

但是，当你试图把鼠标悬停在其中一个图形上，或者想拖拽一条连线时，你会遭遇一个巨大的反直觉打击：浏览器完全不知道你点的是什么。

在传统的前端开发中，原生 DOM 是一棵界限分明的树。鼠标移入一个 <div>，浏览器引擎会在底层自动做碰撞检测，并把 mouseenter 或 click 事件准确无误地派发给这个节点。如果你给 <div> 加了圆角（border-radius）甚至复杂的 clip-path，浏览器依然能完美识别出精确的边缘。这种体验太理所当然，以至于我们从未思考过背后的代价。

但在 Canvas 的世界里，这套秩序完全失效了。

对于浏览器来说，不管你在 Canvas 里画了多少个圆圈、多复杂的文字，它看到的永远只有一个扁平的 <canvas> 标签。当用户点击屏幕时，浏览器的原生 Event 对象只能递给你一个冷冰冰的坐标：{ clientX: 500, clientY: 400 }。至于这个坐标下是空气、是红色正方形，还是三个交叠在一起的半透明多边形，对不起，只能你自己算。

要在毫无知觉的像素油盆上，重新赋予图形被“感知”的能力，这就是 命中测试（Hit Testing） 的核心命题。

直觉陷阱：纯算几何碰撞

面对这个问题，多数人脑海里冒出的第一个念头一定是算数学题。

“既然我知道画布上每个方块的长宽、每个圆的半径，那鼠标点下去的时候，去遍历所有图形做个碰撞测试不就好了？”

比如点矩形，就看鼠标坐标是不是在它的上下左右边界内；点圆，就算勾股定理看距离是不是小于半径；如果是多边形，大不了掏出大学计算机图形学里教的“射线法（Ray-Casting）”，看看射线和多边形交点是奇数还是偶数。

在很多游戏开发新手教程里，这确实是讲解命中测试的第一课。

但只要你真的在业务里动手写过，就会立刻体会到这种朴素算法带来的“工程绝望”：

如果是最基础的方块和圆还好，可你在白板工具（如 Excalidraw / Figma）里，最常面对的是用户鼠标画出的一条粗细不均、极度扭曲的自由手绘墨迹（Freehand Draw）。成百上千个点连出来的畸形曲线，你拿什么算交点？

即使你咬着牙把每根线段都算了，还有图形的中空与穿透问题。当用户点在一个空心圆环的正中间，或者字母 "O" 的空白处时，根据最粗糙的外围包围盒（Bounding Box），它是被命中的；但这根本违反了用户“我明明点在透明的地方，我想点它背后元素”的心理预期。哪怕你真算出了鼠标确实落在图形线条上，你又怎么确保，这层图形的正上方，没有被另一个半透明的阴影盖住呢？

别忘了最绝杀的性能噩梦。不仅是点击，鼠标每在屏幕上划过一个像素，就会高频触发 mousemove。如果同屏有几千个杂乱的图形交叠，每移动一毫米就要把所有多边形的射线方程重新算一遍，你的 CPU 风扇会直接起飞，页面帧率瞬间崩盘。

想靠纯写 if-else 的几何穷举来搞定一个不仅带各种圆角、线宽、自交错，还带层级遮挡的生产级别白板交互，可以说是直接在给 CPU 判死刑。

优雅的黑魔法：离屏 Canvas 与 Color Picking

针对纯正向几何数学算不通的情况，业界的顶级绘图引擎往往会使用一招极度聪明且优雅的逆向黑魔法：利用颜色查表法（Color Picking）。这也是 Konva 最为核心的看家本领机制。

它的核心逻辑堪称“暗度陈仓”，分为以下几个精妙的步骤：

1. 建立影分身（Hidden Canvas）

在内存中，创建一个跟主屏幕尺寸完全一致的隐藏 Canvas（用户看不见它）。主屏幕负责渲染展现给用户看的漂亮图形，而这个“影分身”只专门用来做苦力——命中测试。

2. 分配身份色（Color Hash）

当我们要往主屏幕画一个崭新的图形（比如一个带有高斯模糊阴影的蓝色虚线圈）时，引擎会在内存里给这个图形分配一个全局唯一、随机生成的 RGB 颜色值（比如 #000001）。然后在内存的隐藏 Canvas 的同样坐标处，用这个唯一颜色 #000001 画一个同样轮廓的圆。无论主画布上的圆有多花哨，隐藏画布上的圆统统画成没有阴影、没有抗锯齿的纯色实心/实线。

与此同时，维护一个字典（Hash Map），记录：#000001 映射到蓝色虚线图对象引用。

3. O(1) 的降维打击：只读一个像素

见证奇迹的时刻到了。当前的场景是：主画布上画了成千上万个复杂的图形。隐藏画布上也用同样的布局画了成千上万个纯粹色块。

当用户在主屏幕上点击 (x: 500, y: 400) 时，引擎不去做任何数学几何碰撞计算，除了获取坐标外只做极其底层的一步：

走到隐藏 Canvas 面前。
精确地读取它 (500, 400) 这个坐标点上的 1 个像素的 RGB 颜色值（getImageData）。
如果读出来的颜色是黑色（完全透明），说明没点中任何东西。
如果读出来的颜色是 #000001，引擎立刻去 Hash Map 里查表——破案了！对应的是那个蓝色的虚线圈对象。

为什么这个方案是统治级的？

彻底无视几何形状的难度。不管你画的是自由手绘还是残缺的文字轮廓，只要它被渲染引擎画在屏幕上，那对应的颜色像素就实打实地落在了隐藏画布上。它巧妙地利用底层的 GPU 渲染规则来替你完成极度复杂的轮廓光栅化判定。
天然解决重叠遮挡。主画布怎么叠加层级的，隐藏画布也是按同样顺序绘制的。你在隐藏画布上读出来的那个带颜色像素，必然是最顶层、没被别人遮挡的那个对象的颜色。完全不需要自己遍历判断层级。
极端的性能空间换时间。把原本复杂的 $O(N \times 几何顶点数)$ 的每帧遍历计算，直接降维成了读取内存图像一个单像素点的 $O(1)$ 常数级查表时间。即使屏幕上有十万个对象，鼠标在上面疯狂移动也是绝对丝滑的。

站在巨人的肩膀：这就是 Konva

要在原生 Canvas 上实现一个可用于生产环境的稳健命中测试系统基建，工作量是极其庞大的。你要自己去维护那个巨大的离屏画布上下文同步、自己分配十六进制颜色、自己实现局部重绘优化、还要自己派发所有的模拟 DOM 冒泡事件。

这正是我们放弃从零手写引擎底层，转而选型采用 Konva 的终极原因。

Konva 在底层极其克制且优雅地封装了这套“离屏颜色拾取算法”。在开发者眼里，你完全感受不到那个诡异的“彩色隐藏画布”的存在。

它直接把这套脏活累活，包装成了我们最熟悉的、一如在写原生 DOM 一样的前端语法范式。这就让我们能够完全剥离繁复的数学几何泥潭，将精力投入在画布“事件分发与交互流控制”上：

// 这种久违的、确定的秩序感，对于开发无穷交互的白板来说是极其珍贵的。
import Konva from "konva";

const rect = new Konva.Rect({
  x: 50,
  y: 50,
  width: 100,
  height: 50,
  fill: "blue",
  draggable: true, // 开启拖拽！底层所有复杂的变换全自动运算并重绘画布。
});

// 你仿佛重新拥有了原生的 DOM 事件绑定系统
rect.on("mouseenter", () => {
  document.body.style.cursor = "pointer";
  rect.fill("red"); // 悬浮触发变色响应
});

rect.on("mouseleave", () => {
  document.body.style.cursor = "default";
  rect.fill("blue");
});

// 即使有成百上千个图形交叠，它也能极速计算，精准捕捉顶层响应
rect.on("click", (e) => {
  console.log("极速且精准地点中了我：", e.target);
});

有了 Konva 兜底解决“感知盲区”，我们终于补齐了跨越无限画布最重要、也是最难缠的一块技术栈拼图。

我们不再是在冷冰冰的像素点数组上作画，而是真正在操控和编排一个个有边界、能响应手势、知晓自身存在的“实体对象”。

经历三篇的文章，我们已经打通了从“坐标系”、“底层渲染引擎选型博弈”到“重建事件分发秩序”的全部技术基建。

接下来，我们将长驱直入应用数据的深水区：在这块充满感知能力的画布上，我们该如何用正确的数据结构来对这些可被协同、可被导出、可被反序列化的对象进行定义？