[文献导读] Tau Scaling:后摩尔时代的全栈时间优化
前言
在这个后摩尔时代,摩尔定律死了吗?
这个问题其实已经被问烂了。每隔几年就有人宣布一次摩尔定律死亡,然后又有人拿着新的制程、新的封装、新的架构告诉你,没死,还能抢救一下——宛如《三体II》中,山杉惠子与冬眠醒来的希恩斯的对话:
“传统结构?”
“传统结构,能从摩尔定律这个柠檬里又榨出这么多汁来,计算机科学界都很吃惊……但这次,亲爱的,这次真的到头了。”
这是空前的计算机,如果人类失败的话,也是绝后的。希恩斯这么想,但他没有说出来。
——刘慈欣,《三体II:黑暗森林》
但最近华为这篇 A Time Scaling Theory for Multi-Layer Electronic Systems,又被称为“韬定律”的东西,讲的不是简单的“摩尔定律还能不能续命”,而直接换了一种视角。倘若我们不局限于制程上的提升,那我们下一步应该提升什么?
延时,传输延时。
太显而易见了,任何一个集成电路专业的大学生都能说出来。但如此显而易见的问题为什么没有人去做?因为太难。华为提的这个定律,本质上是带着答案提出的。
摩尔定律真正卖的不是面积,而是时间
摩尔定律是什么?罚你去看 一天一道简答题:数字 CMOS。
通俗地来说,摩尔定律是指芯片上的晶体管数目每隔 18 个月或者 24 个月翻一倍。
后人扩展了它,变成:
- 工艺每三年升级一代
- 集成度每三年翻二番
- 特征线宽约 缩小 30% 左右
- 逻辑电路(以 CPU 为代表)的工作频率提高约 30%
这套东西太好用了。因为只要制程节点往前推,芯片厂商、EDA、IP、架构、软件生态都能沿着这个节奏往前走。大家不用每次都重新发明路线图,只要等下一代工艺红利就行。
但问题是,这个红利越来越贵了。何止是贵,简直是天价。
Dennard scaling [1]早在 2005 年左右就先崩了,电压不再能随着尺寸等比例下降,于是暗硅问题出现;几何缩放靠 FinFET、GAA 等结构又续了一段时间,但 7nm 之后,纯粹缩尺寸的收益也开始变差。局部互连的寄生电阻电容越来越重要,EUV 成本越来越高,先进节点设计预算甚至可以冲到十亿美元级别。
但论文做了一个很有意思的转向。它说,摩尔定律表面上是几何定律,实际上用户感受到的是时间定律:
- 晶体管小了,所以切换更快;
- 线短了,所以 RC 延迟更小;
- 集成度高了,所以数据少跨边界;
- 系统更紧凑了,所以响应时间更短。
所以,过去几十年所谓“空间缩放”的结果,本质上都是在压缩时间。
这就引出了韬定律的核心观点:既然空间缩放只是压缩时间的一种手段,那在空间缩放不灵的时候,为什么不直接把时间当成第一优化目标?
何为 τ scaling ?
我们再看这个 τ。论文给了一个形式化表达,大意是:
也就是,一个系统的时间常数 τ,不是单独由晶体管决定的,而是由很多层共同决定的:
- transistor 层:晶体管开关延迟、本地互连寄生 RC;
- circuit 层:逻辑路径、布线长度、时钟偏斜、RC 传播延迟;
- chip 层:缓存、内存访问、NoC、流水线、片上通信;
- system 层:多芯片、多机柜、多协议栈之间的消息传递和同步。
这就和传统的“先进制程崇拜”不一样了。以前我们问的是“这个芯片几纳米”,而τ scaling 问的是“这个系统慢在哪里”。正如无形之刃最为致命一样,看不到的敌人最恐怖。但我们要是知道了问题所在,就有办法去优化。τ scaling也一样,它要知道,是晶体管本身切换慢,是关键路径线太长,是 SRAM 访问拖后腿,还是是片上 NoC 拥塞?
继续缩小晶体管当然还是有用,但它不再是唯一答案。先进封装、3D 堆叠、混合键合、背面供电、片上网络、内存语义互连、近封装光 I/O,都可以成为降低 τ 的手段。韬定律就是想找出那个最大的问题,再重排整个优化优先级,然后对症下药:谁占用了系统里最大的时间,谁就是下一轮优化对象。
大一统的评测指标
前面讲的都是重点转向优化延迟。但韬定律不仅限于此。既然要优化延迟,那就必须让各种指标都能用延迟来衡量。换句话说,就是让整个计算栈都用同一个单位说话。以往的节点、迁移率、时序、面积、IPC、带宽,各种不同层级的不同概念交织,使得优化牵一发而动全身。一个层里的改进,未必能传导到系统最终性能。甚至有时候某一层看起来很漂亮,放到全系统里却毫无卵用。而韬定律便提出了一个设想,将它们都换算为时间。
这真的很难,非常难,难到他们也只是在论文里提出了一个概念,没有任何实质性工作。
论文中指出,现有 EDA 是把 area、timing、power 分开优化,而 τ scaling 需要新的 τ-native toolchain。它还提出未来需要 τ-profile benchmarks,也就是用一个向量暴露每层 dominant τ 和剩余 headroom。换句话说,作者自己也承认:现在还缺一套真正可执行的 τ 评估体系。只能说,期待韬定律能被更多人接受,从而推动厂商去实现这一条评估体系。
当然,也不是所有指标都能换成时间。功耗、能量、成本、良率、面积密度,就不能简单换成 τ——
"τ is a time law, not a joule law."
所以 τ scaling 还需要一个 energy companion。
LogicFolding:把平面芯片折起来
这是论文的第一个重点案例:移动 SoC。
LogicFolding,名字清晰易懂,逻辑折叠。它的想法是,把原本摊在一个平面上的数字电路、模拟电路和存储电路,分到多个垂直堆叠的有源层里,再用超细间距混合键合连接起来。
在 数字 CMOS 集成电路复习笔记:第三篇 和 数字 CMOS 集成电路复习笔记:第四篇 中我们讲到,数字电路的性能上限经常卡在 critical path,也就是两个寄存器之间最长的组合逻辑路径。传统芯片是二维平面布局,门电路在平面上摆,金属层在上面绕,线一长,RC 延迟就上来。到了先进节点之后,很多时候不是晶体管本身不够快,而是线太长、RC 太大、时钟不好收。继续把晶体管做小也不一定能解决互连线延时的问题。
LogicFolding 的做法就是:既然平面绕线太长,那就不要只在平面上绕。把关键路径上的逻辑拆到上下两层,中间用混合键合连接。对电路设计者来说,两层更像一个连续的三维逻辑织物,而不是两个完全分离的芯片。这有点像以前城市扩张只会摊大饼,后来发现路太长、通勤太痛苦,于是开始搞立体交通和高密度综合体。芯片也是一样,二维平面放不下、走不动,那就往三维走。
论文给了 Kirin 2026 (某颗在产麒麟芯片,猜测为Mate90系列搭载的麒麟9050Pro,预计2026年秋季发布)上的一组数据:
- 晶体管密度从 155 MTr/mm² 提升到 238 MTr/mm²;
- SoC 性能核心能效提升 41%;
- 最高频率提升接近 13%;
- 全局 NoC 数据路径面积减少 55%;
- SRAM 工作频率提升 40% 以上;
- 典型核心中,clock buffer 数量减少 50% 以上,clock skew 减少 25%,线长减少约 30%。
数字看起来很猛,不知道是实验室数据还是真的能做到这样。先相信再质疑吧。
从技术逻辑上讲,它确实符合 τ scaling 的思路。,通过修改空间拓扑来剪短关键路径,RC 延迟更低了,时钟也更好收了。
LogicFolding vs Chiplet
再来说说Chiplet(常译为“芯粒”),也是近年来半导体行业最火的核心技术之一。在过去,传统的芯片设计采用的是 Monolithic(单片架构),即把CPU、GPU、内存控制器等所有部件,像在一张白纸上画画一样,全部用同一种制造工艺做在同一块硅片(Die)上。而Chiplet则是把这些不同的功能模块拆分开来,独立设计、独立制造,最后再通过先进的封装技术把它们像乐高积木一样组合、封装在一起,变成一颗大芯片。AMD、Apple、NVIDIA,大家都在搞。NVIDIA B300,顶级计算卡用的就是Chiplet。
要画图对比的话,Chiplet长的像这样:
1 | [ CPU chiplet ] [ IO die ] [ HBM ] |
模块之间边界比较清楚,互连也比较像“芯片之间通信”。
而 LogicFolding 更像这样:
1 | Layer 2: gate gate SRAM analog |
也就是把原来一个逻辑路径里的东西拆到不同有源层。理想情况下,两个 tier 对设计工具来说像一个连续设计空间。
这就对 EDA 提出了非常变态的要求。因为传统工具链主要还是面向二维芯片训练出来的,最多再支持一些封装级协同。而 LogicFolding 要求工具能在三维空间里做 cell-level partition、placement、routing、timing closure,还要考虑 TSV、混合键合、KOZ、跨晶圆工艺偏差。华为做麒麟的EDA已经实现基本国产化了,不知道是哪家国产厂商能实现这么强的技术。
但目前的EDA,即使能做LogicFolding ,依然是工艺优先,而非时延统一。这也是论文后面说“τ-native EDA toolchain”很关键的原因。工欲善其事,必先利其器;只有EDA设计工具进步,芯片设计才能更上一层楼。
从手机到 AI:尺度变大,问题依旧
这是论文的第二个重点案例:AI数据中心。手机 SoC 的 τ 可能卡在几瓦功耗下的 critical path、SRAM、NoC;AI 数据中心的 τ 就完全是另一个尺度了。成百上千甚至上万颗芯片一起工作,它们之间的数据搬运太慢、太贵、太耗电。
论文里有一个观点很直接: 现代 AI 系统的能源和成本,很大一部分花在数据上,而不是计算上。 大规模 AI 集群中,数据移动消耗了超过 80% 的能量,数据存储占系统成本超过 70%。这就很符合我们现在对 AI 硬件的直觉:算力当然重要,但带宽、互连、显存、通信同步才是集群规模化的地狱。单卡算得再猛,如果跨卡通信一坨,那训练一样卡住。宛如你玩生电做了全物品分类,结果中间的传输不用水流用漏斗,(物品)上不去下不来卡在那了。
所以 τ scaling 在 AI 场景下的目标就变成了:压缩系统级通信时间。论文提出了三件套,来实现上面的目标:
- Unified Bus
- Hi-ONE
- 3D Folding
Unified Bus:把协议栈砍薄
传统 AI 集群里,数据要跨很多层协议走:
1 | PCIe -> NVLink / proprietary fabric -> Ethernet / InfiniBand -> software RDMA / message passing |
每过一层,都可能有协议转换、序列化、DMA buffer、握手和同步。每一层都说自己开销不大,但叠起来就很恐怖。
Unified Bus 的想法是,用一个统一协议在机箱内和机箱间工作,并且直接暴露 memory semantics。简单说,它想让远端访问更像访问一块统一内存,而不是软件栈里来回搬消息。论文声称它可以把端到端远程访问延迟从几十微秒降到约 100 ns,约等于系统通信 τ 降低 500 倍。南无三,何等先进的技术!
优化的方向是合理的:AI 集群越大,协议栈越厚,通信开销越高。你不能只堆更多芯片,然后祈祷网络自己变快。真正要做的是把系统 fabric 当成计算机本体的一部分,而不是外挂网线。这也是论文里所谓 System-as-One-Chip 的意思,让多机柜系统在通信语义上尽量接近一颗大芯片。
Hi-ONE:铜线不够,光纤来凑
Unified Bus 降低了协议开销后,下一个问题就是物理互连。铜线不是不能用,但当每颗 AI 芯片都要数 Tb/s 带宽时,铜缆会迅速变成灾难:SerDes [2] 距离受限,线缆体积巨大,布线复杂,功耗和散热也顶不住。所以论文提出 Hi-ONE,也就是近封装光引擎。它的目标是每模块 8 Tb/s 带宽,把 SerDes 电传输距离从约 100 cm 缩短到约 5 cm,再用光把距离扩展到 100 m。
这里很有意思的一点是,Hi-ONE 并不是单纯追求物理层极致信号质量。论文中说它采用更线性的模拟方案,比如均衡增强 driver 和 TIA,同时让上层 UB 协议容忍更宽松的误码率。这就是典型的跨层优化:物理层少做一点,协议层多兜一点,总共的表现效果反而更好。以前各层独立优化时,物理层工程师可能会说:我要把 BER 做到最好。协议层工程师可能会说:我假设下面完全可靠。最后系统又贵又热又复杂……τ scaling 的思路则是:只要最终系统时间和可靠性满足需求,某一层不必追求洁癖式完美。
3D Folding:N² 和 N 的矛盾
论文里我觉得最值得单独拎出来讲的是 N² vs N dilemma。
传统 2.5D AI 加速器大概是这样的:逻辑 die 在中间,HBM、SerDes、电源围在边上。问题在于,如果芯片边长是 N:
- 计算能力按面积增长,是平方级;
- 但内存带宽、I/O、电源很多东西靠边缘进出,只能按周长增长,是线性级。
这就很尴尬了。你把逻辑做得更大,计算单元变多了,但喂数据、供电、输出结果的边界没有同步变大。最后就是算力看起来很美,实际系统被边缘资源卡死。这不是靠晶体管变小就能解决的问题。因为它本质上是拓扑问题。
3D Folding 的做法是,把原来围在边上的资源搬到 “表面” 上:
- 供电通过 backside power 和集成电压调节器往垂直方向走;
- 高速内存通过混合键合更紧密贴近逻辑;
- 光 I/O 通过近封装方式进入系统;
- 带宽、电源、I/O 不再只依赖周长,而是可以利用面积。
于是:
这样才对
这个思路其实非常关键。因为很多人讨论 AI 芯片还停留在“更多算力、更先进制程、更大封装”,但真正的问题可能是:你把算力堆上去了,系统有没有办法把数据、电力、同步和输出一起堆上去?如果没有,那就是屎上雕花。峰值 FLOPS 写得再漂亮,实际训练还是卡通信。
3D Folding 和英特尔的 PowerVia 有异曲同工之处,二者都在解决“平面太挤”的问题。只不过 PowerVia 是“供电从正面到背面”,3D Folding 是“边缘资源搬到表面”。
逻辑和内存的重新融合
论文还提出了一个很重要的判断:AI 时代正在把逻辑和内存重新推向融合。
早期计算机行业把 CPU 和内存分开,是非常成功的产业分工。处理器厂商沿摩尔定律狂奔,内存厂商也独立发展,标准总线把两边接起来。但 AI 时代,这个解耦开始变成瓶颈。因为模型越来越大,计算密度越来越高,数据移动越来越贵。HBM、3D SRAM、logic-memory hybrid bonding,本质上都在说明同一件事:
数据离计算太远了。
以前是以计算为中心,现在越来越以内存为中心,甚至以互联为中心。谁能把逻辑、内存、封装、互连一起做协同,谁就能在系统级 τ 上占便宜。先进封装、HBM、Chiplet、CPO、backside power 这些东西的重要程度又上一个台阶。
这里再评价一下牢英。
之前做LNL时,英特尔就试过把两颗 LPDDR5X 内存颗粒并排放在了 CPU 的封装基板上,紧挨着计算模块。这样不仅省去了主板上的内存走线,内存功耗降低了约 40%,并为笔记本主板节省了高达 250 平方毫米的空间,结果后面觉得产线销量不行、内存库存承担不了,然后砍了。没想到2026年内存暴涨,旧的LNL因为N-2和内存封装的原因,反而性价比上来了。办公买LNL还真没问题。
英特尔,如果给你一次选择,回到2024,你是否会狂屯内存,然后让ARL也用上封装内存设计?
可惜没如果。
韬定律真的是“定律”吗?
讲了优点,也该讲讲缺点了。
就目前论文的内容看,韬定律配不上叫“定律”,τ scaling 顶多只能算一个方法论。
那摩尔定律也有话说了:都多少年过去了,你也配和我平起平坐?别逗你摩尔定律笑了。摩尔定律厉害的地方在于,它是长期产业数据中长出来的经验规律。它不仅描述了技术趋势,还真的指导了几十年供应链、资本开支、EDA、工艺、架构和软件生态。反观韬定律,可能芯片的成功落地证明了方法论的有效,但在它被广泛接受、技术栈被全面(或者至少被龙头企业之一采用)之前,还配不上叫“定律”。
τ 是什么?
再看上面的公式:
但这个 f 到底怎么定义?不同系统怎么比较?不同 workload 的 dominant τ 怎么提取?这些都还没有一个行业统一模型。如果 τ 只是“哪里慢就优化哪里”,那它很有指导意义,但还不像一个严格定律。你让小学生来他也知道要去克服困难,问题是这个困难怎么去定义?
α 是多少?
论文给出不同应用的 scaling factor:移动设备约每年 1.3×,自动驾驶约 1.5×,AI 工作负载最高可到 10×。这说明它很灵活,但也说明它不像摩尔定律那样有一个统一节奏。不同 workload 的 α 不一样,甚至同一个 workload 在不同系统结构下也会变化。
灵活定义吗,你赢了。
数据不透明,或者说不可能透明
论文的数据都是来自论文作者和华为内部。倘若公开数据,必然会含各类商业机密。换句话说,目前能看的,也就是给你们看到你们想看的,真正要看的不会公开。数据无所谓,毕竟国内论文90%都没源代码,我都不知道是编的还是真做了。最后能拿出成果就行。
τ 不是能耗,也不能用来量化
论文自己也承认:τ 是时间定律,不是焦耳定律。这点非常重要。一个系统快 10 倍,但功耗也高 10 倍,从 τ scaling 看当然是进步;但从电网、散热、成本和可靠性看,肯定是一场灾难。AI 数据中心尤其如此。后摩尔时代不只是 latency 的战争,也是 energy 的战争。没有能耗约束的 τ 优化,很容易变成“跑得很快,烧得也很快”。未来的芯片产业,一定会往低功耗方面卷的更多。
总结
纵观全文,论文就是提出了一个对未来芯片的新优化方向,把后摩尔时代的优化方向从“继续缩小晶体管”转向了“压缩整个电子系统的时间”:
- 半导体进步不应该继续只围绕“几纳米”展开;
- 摩尔定律真正带来的收益,本质上是系统时间压缩;
- 后摩尔时代的优化对象,应该从晶体管面积转向系统主导 τ;
- 先进封装、三维集成、逻辑折叠、内存融合、光互连和统一 fabric,会变成新的主战场;
- 单层优化不够,未来芯片竞争越来越像全栈系统工程。
如果说摩尔定律是二维平面时代的增长叙事,那么 τ scaling 就是三维系统时代的增长叙事。
本来想说“先质疑,再相信”的,但考虑到这是华为,那还是“先相信,再质疑”吧。
For a generation of engineers educated to treat "Moore's Law" as synonymous with "progress," this is a difficult transition. The geometric era has, in fact, concluded; denial of that fact is not a viable strategy. The era of acceleration through miniaturization is giving way to an era of acceleration through τ optimization across the multi-layered electronic system — and the companies, research groups, and ecosystems that adopt τ as the primary objective in the next six to ten years will determine the shape of computing in the decade thereafter.
—Tingbo He, A Time Scaling Theory for Multi-Layer Electronic Systems


![[文献导读] 从 MATLAB 到 FPGA:A2H-MAS 如何用多智能体重塑 HLS 自动化流程](https://webpn.esing.dev/img/120872181_p0_1280x2_2024-7-25_2038_v77pziokmt.png)