[文献导读] Tau Scaling：后摩尔时代的全栈时间优化

原文：A Time Scaling Theory for Multi-Layer Electronic Systems - ChinaXiv.org

针对最新v2版本论文的扩展分析在[文献导读] Tau Scaling v2：从概念宣言到工程补丁

前言

在这个后摩尔时代，摩尔定律死了吗？

这个问题其实已经被问烂了。每隔几年就有人宣布一次摩尔定律死亡，然后又有人拿着新的制程、新的封装、新的架构告诉你，没死，还能抢救一下——宛如《三体II》中，山杉惠子与冬眠醒来的希恩斯的对话：

“传统结构？”

“传统结构，能从摩尔定律这个柠檬里又榨出这么多汁来，计算机科学界都很吃惊……但这次，亲爱的，这次真的到头了。”

这是空前的计算机，如果人类失败的话，也是绝后的。希恩斯这么想，但他没有说出来。

——刘慈欣，《三体II：黑暗森林》

但最近华为这篇 A Time Scaling Theory for Multi-Layer Electronic Systems，又被称为“韬定律”的东西，讲的不是简单的“摩尔定律还能不能续命”，而直接换了一种视角。倘若我们不局限于制程上的提升，那我们下一步应该提升什么？

延时，传输延时。

太显而易见了，任何一个集成电路专业的大学生都能说出来。但如此显而易见的问题为什么没有人去做？因为太难。华为提的这个定律，本质上是带着答案提出的。

摩尔定律真正卖的不是面积，而是时间

摩尔定律是什么？罚你去看一天一道简答题：数字 CMOS。

通俗地来说，摩尔定律是指芯片上的晶体管数目每隔 18 个月或者 24 个月翻一倍。

后人扩展了它，变成：

工艺每三年升级一代

集成度每三年翻二番

特征线宽约 缩小 30％ 左右

逻辑电路（以 CPU 为代表）的工作频率提高约 30％

这套东西太好用了。因为只要制程节点往前推，芯片厂商、EDA、IP、架构、软件生态都能沿着这个节奏往前走。大家不用每次都重新发明路线图，只要等下一代工艺红利就行。

但问题是，这个红利越来越贵了。何止是贵，简直是天价。

Dennard scaling ^[1]早在 2005 年左右就先崩了，电压不再能随着尺寸等比例下降，于是暗硅问题出现；几何缩放靠 FinFET、GAA 等结构又续了一段时间，但 7nm 之后，纯粹缩尺寸的收益也开始变差。局部互连的寄生电阻电容越来越重要，EUV 成本越来越高，先进节点设计预算甚至可以冲到十亿美元级别。

但论文做了一个很有意思的转向。它说，摩尔定律表面上是几何定律，实际上用户感受到的是时间定律：

晶体管小了，所以切换更快；
线短了，所以 RC 延迟更小；
集成度高了，所以数据少跨边界；
系统更紧凑了，所以响应时间更短。

所以，过去几十年所谓“空间缩放”的结果，本质上都是在压缩时间。

这就引出了韬定律的核心观点：既然空间缩放只是压缩时间的一种手段，那在空间缩放不灵的时候，为什么不直接把时间当成第一优化目标？

何为 τ scaling ？

我们再看这个 τ。论文给了一个形式化表达，大意是：

$\Large \tau = f(\tau_\text{transistor}, \tau_\text{circuit}, \tau_\text{chip}, \tau_\text{system})$

也就是，一个系统的时间常数 τ，不是单独由晶体管决定的，而是由很多层共同决定的：

transistor 层：晶体管开关延迟、本地互连寄生 RC；
circuit 层：逻辑路径、布线长度、时钟偏斜、RC 传播延迟；
chip 层：缓存、内存访问、NoC、流水线、片上通信；
system 层：多芯片、多机柜、多协议栈之间的消息传递和同步。

这就和传统的“先进制程崇拜”不一样了。以前我们问的是“这个芯片几纳米”，而τ scaling 问的是“这个系统慢在哪里”。正如无形之刃最为致命一样，看不到的敌人最恐怖。但我们要是知道了问题所在，就有办法去优化。τ scaling也一样，它要知道，是晶体管本身切换慢，是关键路径线太长，是 SRAM 访问拖后腿，还是是片上 NoC 拥塞？

继续缩小晶体管当然还是有用，但它不再是唯一答案。先进封装、3D 堆叠、混合键合、背面供电、片上网络、内存语义互连、近封装光 I/O，都可以成为降低 τ 的手段。韬定律就是想找出那个最大的问题，再重排整个优化优先级，然后对症下药：谁占用了系统里最大的时间，谁就是下一轮优化对象。

大一统的评测指标

前面讲的都是重点转向优化延迟。但韬定律不仅限于此。既然要优化延迟，那就必须让各种指标都能用延迟来衡量。换句话说，就是让整个计算栈都用同一个单位说话。以往的节点、迁移率、时序、面积、IPC、带宽，各种不同层级的不同概念交织，使得优化牵一发而动全身。一个层里的改进，未必能传导到系统最终性能。甚至有时候某一层看起来很漂亮，放到全系统里却毫无卵用。而韬定律便提出了一个设想，将它们都换算为时间。

这真的很难，非常难，难到他们也只是在论文里提出了一个概念，没有任何实质性工作。

论文中指出，现有 EDA 是把 area、timing、power 分开优化，而 τ scaling 需要新的 τ-native toolchain。它还提出未来需要 τ-profile benchmarks，也就是用一个向量暴露每层 dominant τ 和剩余 headroom。换句话说，作者自己也承认：现在还缺一套真正可执行的 τ 评估体系。只能说，期待韬定律能被更多人接受，从而推动厂商去实现这一条评估体系。

当然，也不是所有指标都能换成时间。功耗、能量、成本、良率、面积密度，就不能简单换成 τ——

"τ is a time law, not a joule law."

所以 τ scaling 还需要一个 energy companion。

LogicFolding：把平面芯片折起来

这是论文的第一个重点案例：移动 SoC。

LogicFolding，名字清晰易懂，逻辑折叠。它的想法是，把原本摊在一个平面上的数字电路、模拟电路和存储电路，分到多个垂直堆叠的有源层里，再用超细间距混合键合连接起来。

在数字 CMOS 集成电路复习笔记：第三篇和数字 CMOS 集成电路复习笔记：第四篇中我们讲到，数字电路的性能上限经常卡在 critical path，也就是两个寄存器之间最长的组合逻辑路径。传统芯片是二维平面布局，门电路在平面上摆，金属层在上面绕，线一长，RC 延迟就上来。到了先进节点之后，很多时候不是晶体管本身不够快，而是线太长、RC 太大、时钟不好收。继续把晶体管做小也不一定能解决互连线延时的问题。

LogicFolding 的做法就是：既然平面绕线太长，那就不要只在平面上绕。把关键路径上的逻辑拆到上下两层，中间用混合键合连接。对电路设计者来说，两层更像一个连续的三维逻辑织物，而不是两个完全分离的芯片。这有点像以前城市扩张只会摊大饼，后来发现路太长、通勤太痛苦，于是开始搞立体交通和高密度综合体。芯片也是一样，二维平面放不下、走不动，那就往三维走。

论文给了 Kirin 2026 （某颗在产麒麟芯片，猜测为Mate90系列搭载的麒麟9050Pro，预计2026年秋季发布）上的一组数据：

晶体管密度从 155 MTr/mm² 提升到 238 MTr/mm²；
SoC 性能核心能效提升 41%；
最高频率提升接近 13%；
全局 NoC 数据路径面积减少 55%；
SRAM 工作频率提升 40% 以上；
典型核心中，clock buffer 数量减少 50% 以上，clock skew 减少 25%，线长减少约 30%。

数字看起来很猛，不知道是实验室数据还是真的能做到这样。先相信再质疑吧。

从技术逻辑上讲，它确实符合 τ scaling 的思路。，通过修改空间拓扑来剪短关键路径，RC 延迟更低了，时钟也更好收了。

LogicFolding vs Chiplet

再来说说Chiplet（常译为“芯粒”），也是近年来半导体行业最火的核心技术之一。在过去，传统的芯片设计采用的是 Monolithic（单片架构），即把CPU、GPU、内存控制器等所有部件，像在一张白纸上画画一样，全部用同一种制造工艺做在同一块硅片（Die）上。而Chiplet则是把这些不同的功能模块拆分开来，独立设计、独立制造，最后再通过先进的封装技术把它们像乐高积木一样组合、封装在一起，变成一颗大芯片。AMD、Apple、NVIDIA，大家都在搞。NVIDIA B300，顶级计算卡用的就是Chiplet。

要画图对比的话，Chiplet长的像这样：

1	[ CPU chiplet ] [ IO die ] [ HBM ]

模块之间边界比较清楚，互连也比较像“芯片之间通信”。

而 LogicFolding 更像这样：

1
2
3

Layer 2:  gate gate SRAM analog
          |    |    |    |
Layer 1:  gate gate logic logic

也就是把原来一个逻辑路径里的东西拆到不同有源层。理想情况下，两个 tier 对设计工具来说像一个连续设计空间。

这就对 EDA 提出了非常变态的要求。因为传统工具链主要还是面向二维芯片训练出来的，最多再支持一些封装级协同。而 LogicFolding 要求工具能在三维空间里做 cell-level partition、placement、routing、timing closure，还要考虑 TSV、混合键合、KOZ、跨晶圆工艺偏差。华为做麒麟的EDA已经实现基本国产化了，不知道是哪家国产厂商能实现这么强的技术。

但目前的EDA，即使能做LogicFolding ，依然是工艺优先，而非时延统一。这也是论文后面说“τ-native EDA toolchain”很关键的原因。工欲善其事，必先利其器；只有EDA设计工具进步，芯片设计才能更上一层楼。

从手机到 AI：尺度变大，问题依旧

这是论文的第二个重点案例：AI数据中心。手机 SoC 的 τ 可能卡在几瓦功耗下的 critical path、SRAM、NoC；AI 数据中心的 τ 就完全是另一个尺度了。成百上千甚至上万颗芯片一起工作，它们之间的数据搬运太慢、太贵、太耗电。

论文里有一个观点很直接： 现代 AI 系统的能源和成本，很大一部分花在数据上，而不是计算上。 大规模 AI 集群中，数据移动消耗了超过 80% 的能量，数据存储占系统成本超过 70%。这就很符合我们现在对 AI 硬件的直觉：算力当然重要，但带宽、互连、显存、通信同步才是集群规模化的地狱。单卡算得再猛，如果跨卡通信一坨，那训练一样卡住。宛如你玩生电做了全物品分类，结果中间的传输不用水流用漏斗，（物品）上不去下不来卡在那了。

所以 τ scaling 在 AI 场景下的目标就变成了：压缩系统级通信时间。论文提出了三件套，来实现上面的目标：

Unified Bus
Hi-ONE
3D Folding

Unified Bus：把协议栈砍薄

传统 AI 集群里，数据要跨很多层协议走：

1	PCIe -> NVLink / proprietary fabric -> Ethernet / InfiniBand -> software RDMA / message passing

每过一层，都可能有协议转换、序列化、DMA buffer、握手和同步。每一层都说自己开销不大，但叠起来就很恐怖。

Unified Bus 的想法是，用一个统一协议在机箱内和机箱间工作，并且直接暴露 memory semantics。简单说，它想让远端访问更像访问一块统一内存，而不是软件栈里来回搬消息。论文声称它可以把端到端远程访问延迟从几十微秒降到约 100 ns，约等于系统通信 τ 降低 500 倍。南无三，何等先进的技术！

优化的方向是合理的：AI 集群越大，协议栈越厚，通信开销越高。你不能只堆更多芯片，然后祈祷网络自己变快。真正要做的是把系统 fabric 当成计算机本体的一部分，而不是外挂网线。这也是论文里所谓 System-as-One-Chip 的意思，让多机柜系统在通信语义上尽量接近一颗大芯片。

Hi-ONE：铜线不够，光纤来凑

Unified Bus 降低了协议开销后，下一个问题就是物理互连。铜线不是不能用，但当每颗 AI 芯片都要数 Tb/s 带宽时，铜缆会迅速变成灾难：SerDes ^[2] 距离受限，线缆体积巨大，布线复杂，功耗和散热也顶不住。所以论文提出 Hi-ONE，也就是近封装光引擎。它的目标是每模块 8 Tb/s 带宽，把 SerDes 电传输距离从约 100 cm 缩短到约 5 cm，再用光把距离扩展到 100 m。

这里很有意思的一点是，Hi-ONE 并不是单纯追求物理层极致信号质量。论文中说它采用更线性的模拟方案，比如均衡增强 driver 和 TIA，同时让上层 UB 协议容忍更宽松的误码率。这就是典型的跨层优化：物理层少做一点，协议层多兜一点，总共的表现效果反而更好。以前各层独立优化时，物理层工程师可能会说：我要把 BER 做到最好。协议层工程师可能会说：我假设下面完全可靠。最后系统又贵又热又复杂……τ scaling 的思路则是：只要最终系统时间和可靠性满足需求，某一层不必追求洁癖式完美。

3D Folding：N² 和 N 的矛盾

论文里我觉得最值得单独拎出来讲的是 N² vs N dilemma。

传统 2.5D AI 加速器大概是这样的：逻辑 die 在中间，HBM、SerDes、电源围在边上。问题在于，如果芯片边长是 N：

$\large \begin{aligned} \text{compute}\propto & {N^2} \\ \text{bandwidth / IO / power}\propto & \textcolor{red}{N} \end{aligned}$

计算能力按面积增长，是平方级；
但内存带宽、I/O、电源很多东西靠边缘进出，只能按周长增长，是线性级。

这就很尴尬了。你把逻辑做得更大，计算单元变多了，但喂数据、供电、输出结果的边界没有同步变大。最后就是算力看起来很美，实际系统被边缘资源卡死。这不是靠晶体管变小就能解决的问题。因为它本质上是拓扑问题。

3D Folding 的做法是，把原来围在边上的资源搬到 “表面” 上：

供电通过 backside power 和集成电压调节器往垂直方向走；
高速内存通过混合键合更紧密贴近逻辑；
光 I/O 通过近封装方式进入系统；
带宽、电源、I/O 不再只依赖周长，而是可以利用面积。

于是：

$\large \begin{aligned} \text{compute}\propto & \textcolor{red}{N^2} \\ \text{bandwidth / IO / power}\propto & \textcolor{red}{N^2} \end{aligned}$

这样才对

这个思路其实非常关键。因为很多人讨论 AI 芯片还停留在“更多算力、更先进制程、更大封装”，但真正的问题可能是：你把算力堆上去了，系统有没有办法把数据、电力、同步和输出一起堆上去？如果没有，那就是屎上雕花。峰值 FLOPS 写得再漂亮，实际训练还是卡通信。

3D Folding 和英特尔的 PowerVia 有异曲同工之处，二者都在解决“平面太挤”的问题。只不过 PowerVia 是“供电从正面到背面”，3D Folding 是“边缘资源搬到表面”。

逻辑和内存的重新融合

论文还提出了一个很重要的判断：AI 时代正在把逻辑和内存重新推向融合。

早期计算机行业把 CPU 和内存分开，是非常成功的产业分工。处理器厂商沿摩尔定律狂奔，内存厂商也独立发展，标准总线把两边接起来。但 AI 时代，这个解耦开始变成瓶颈。因为模型越来越大，计算密度越来越高，数据移动越来越贵。HBM、3D SRAM、logic-memory hybrid bonding，本质上都在说明同一件事：

数据离计算太远了。

以前是以计算为中心，现在越来越以内存为中心，甚至以互联为中心。谁能把逻辑、内存、封装、互连一起做协同，谁就能在系统级 τ 上占便宜。先进封装、HBM、Chiplet、CPO、backside power 这些东西的重要程度又上一个台阶。

这里再评价一下牢英。

之前做LNL时，英特尔就试过把两颗 LPDDR5X 内存颗粒并排放在了 CPU 的封装基板上，紧挨着计算模块。这样不仅省去了主板上的内存走线，内存功耗降低了约 40%，并为笔记本主板节省了高达 250 平方毫米的空间，结果后面觉得产线销量不行、内存库存承担不了，然后砍了。没想到2026年内存暴涨，旧的LNL因为N-2和内存封装的原因，反而性价比上来了。办公买LNL还真没问题。

英特尔，如果给你一次选择，回到2024，你是否会狂屯内存，然后让ARL也用上封装内存设计？

可惜没如果。

韬定律真的是“定律”吗？

讲了优点，也该讲讲缺点了。

就目前论文的内容看，韬定律配不上叫“定律”，τ scaling 顶多只能算一个方法论。

那摩尔定律也有话说了：都多少年过去了，你也配和我平起平坐？别逗你摩尔定律笑了。摩尔定律厉害的地方在于，它是长期产业数据中长出来的经验规律。它不仅描述了技术趋势，还真的指导了几十年供应链、资本开支、EDA、工艺、架构和软件生态。反观韬定律，可能芯片的成功落地证明了方法论的有效，但在它被广泛接受、技术栈被全面（或者至少被龙头企业之一采用）之前，还配不上叫“定律”。

τ 是什么？

再看上面的公式：

$\Large \tau = f(\tau_\text{transistor}, \tau_\text{circuit}, \tau_\text{chip}, \tau_\text{system})$

但这个 f 到底怎么定义？不同系统怎么比较？不同 workload 的 dominant τ 怎么提取？这些都还没有一个行业统一模型。如果 τ 只是“哪里慢就优化哪里”，那它很有指导意义，但还不像一个严格定律。你让小学生来他也知道要去克服困难，问题是这个困难怎么去定义？

α 是多少？

论文给出不同应用的 scaling factor：移动设备约每年 1.3×，自动驾驶约 1.5×，AI 工作负载最高可到 10×。这说明它很灵活，但也说明它不像摩尔定律那样有一个统一节奏。不同 workload 的 α 不一样，甚至同一个 workload 在不同系统结构下也会变化。

灵活定义吗，你赢了。

数据不透明，或者说不可能透明

论文的数据都是来自论文作者和华为内部。倘若公开数据，必然会含各类商业机密。换句话说，目前能看的，也就是给你们看到你们想看的，真正要看的不会公开。数据无所谓，毕竟国内论文90%都没源代码，我都不知道是编的还是真做了。最后能拿出成果就行。

τ 不是能耗，也不能用来量化

论文自己也承认：τ 是时间定律，不是焦耳定律。这点非常重要。一个系统快 10 倍，但功耗也高 10 倍，从 τ scaling 看当然是进步；但从电网、散热、成本和可靠性看，肯定是一场灾难。AI 数据中心尤其如此。后摩尔时代不只是 latency 的战争，也是 energy 的战争。没有能耗约束的 τ 优化，很容易变成“跑得很快，烧得也很快”。未来的芯片产业，一定会往低功耗方面卷的更多。

总结

纵观全文，论文就是提出了一个对未来芯片的新优化方向，把后摩尔时代的优化方向从“继续缩小晶体管”转向了“压缩整个电子系统的时间”：

半导体进步不应该继续只围绕“几纳米”展开；
摩尔定律真正带来的收益，本质上是系统时间压缩；
后摩尔时代的优化对象，应该从晶体管面积转向系统主导 τ；
先进封装、三维集成、逻辑折叠、内存融合、光互连和统一 fabric，会变成新的主战场；
单层优化不够，未来芯片竞争越来越像全栈系统工程。

如果说摩尔定律是二维平面时代的增长叙事，那么 τ scaling 就是三维系统时代的增长叙事。

本来想说“先质疑，再相信”的，但考虑到这是华为，那还是“先相信，再质疑”吧。

For a generation of engineers educated to treat "Moore's Law" as synonymous with "progress," this is a difficult transition. The geometric era has, in fact, concluded; denial of that fact is not a viable strategy. The era of acceleration through miniaturization is giving way to an era of acceleration through τ optimization across the multi-layered electronic system — and the companies, research groups, and ecosystems that adopt τ as the primary objective in the next six to ten years will determine the shape of computing in the decade thereafter.

—Tingbo He, A Time Scaling Theory for Multi-Layer Electronic Systems

Dennard scaling（登纳德缩放定律），也被称为等比缩小定律，是由 IBM 科学家罗伯特·登纳德（Robert H. Dennard）在 1974 年提出的一条关于半导体微缩的规律。 ↑
SerDes ， Serializer（串行器） 和 Deserializer（解串器） 的合称，是一种时分复用、点对点的高速数据传输技术，在发送端把多路并行的慢速数据“打包”成一路串行的快速数据发出去；在接收端再把这一路快速数据“拆解”回原本的多路并行数据。 ↑