🤖 AI总结
主题
华为提出τ缩放原理,以时间优化替代几何缩放,引领后摩尔时代半导体发展。
摘要
华为提出τ缩放原理,以时间优化替代几何缩放,通过逻辑折叠等技术在固定工艺节点实现性能跃升,并规划至2035年AI系统集成度提升超100倍。
关键信息
- 1 τ缩放以时间而非晶体管面积为进步指标。
- 2 逻辑折叠技术在固定工艺节点下实现晶体管密度与能效大幅提升。
- 3 通过统一总线、Hi-ONE和3D折叠,AI系统集成度预计2035年提升超100倍。
![]()
摘要
六十年来,摩尔定律主导的几何尺寸缩放推动了半导体行业进步。如今这一行业共识已不再成立:单纯缩小尺寸的收益趋于平缓,先进芯片设计成本单颗超10亿美元,最先进工艺节点的单晶体管成本不再下降。本文提出新一代缩放原理——τ缩放,以时间而非晶体管面积作为核心进步指标,将单一特征时间常数τ作为全栈统一优化目标,覆盖从开关晶体管到数据中心业务的12个数量级时间跨度。文中展示两项量产级验证:在移动SoC上,逻辑折叠(LogicFolding) 技术将数字、模拟与存储电路垂直分层堆叠,在固定工艺节点下实现晶体管密度跃升55%、能效提升41%;在AI系统中,由内存语义统一总线、近封装Hi-ONE光I/O与全栈3D折叠构成的协同设计方案,预计到2035年可实现硬件集成度提升超100倍。本文核心方法论主张:τ缩放是自德纳尔德缩放以来,首个为全计算栈确立统一优化目标的缩放原理。
引言
自20世纪60年代中期以来,半导体行业一直以纳米为单位衡量技术进步。每18个月,晶体管尺寸缩小、频率提升、单逻辑门成本下降。摩尔定律既是经验规律,也成为支撑整个计算栈的行业共识。如今这一共识已失效。7纳米以下工艺节点,几何尺寸缩放无法再带来历史级收益。光刻工艺逼近物理极限,极紫外光刻(EUV)折旧成本主导晶圆成本,单晶体管价格曲线趋于平缓,部分场景甚至回升。对于先进光刻设备获取受限的企业,这一约束更早显现且影响更显著。
行业核心问题已转变:不再是“晶体管还能缩多小”,而是**“应该缩放什么、以什么为目标?”**
过去六年,华为半导体团队基于手机SoC、AI加速器、系统互联与封装技术开展硅基验证研究。结论是:答案不在于新工艺节点或新晶体管架构,而在于核心优化目标的转变。本文提出,未来十年电子系统演进应遵循时间缩放而非几何尺寸缩放——在全栈各层级系统性降低单一特征时间常数τ,覆盖皮秒级晶体管开关到秒级数据中心业务响应的全时间尺度。
本文基于2020年5月至2026年5月间381款量产芯片的工程经验,系统阐述τ缩放的科学原理与产业路线图。
1. 几何时代的终结
半导体行业发展史上,核心任务长期只有一个:把晶体管做小。1965年戈登·摩尔提出晶体管密度约每两年翻倍的规律,十年后罗伯特·德纳尔德提出缩放理论,证明电压与尺寸等比例缩小可维持恒定电场。几何缩放与德纳尔德缩放结合,近五十年持续带来每瓦性能、每美元性能的指数级提升。
这一体系分两步瓦解:2005年前后,德纳尔德缩放率先失效,电压不再随特征尺寸等比例缩小,暗硅时代来临。几何缩放依托鳍式场效应晶体管(FinFET)、环绕栅极(GAA)晶体管架构延续更久。但7纳米以下,纯尺寸缩放收益大幅衰减。核心原因已被广泛证实:
• 速度饱和使本征延迟与沟道长度的依赖关系从二次变为线性;
• 局部互联寄生电阻、电容占标准单元延迟比例持续攀升;
• 掩模成本、EUV折旧、设计规则复杂度推高2纳米节点单芯片设计成本至10亿美元以上。
经济后果同样明确:先进工艺节点单晶体管成本趋平,前沿工艺成本甚至上升。支撑行业半个世纪的“每代更多晶体管、更低成本”共识已不复存在。
对华为半导体而言,这一转型叠加额外约束:先进光刻设备获取受限。依赖下一代工艺解决问题已不可行。六年前,几何路线图陷入停滞,倒逼行业直面一个根本性问题——如今全行业终将共同面对。
2. 时间而非空间:摩尔时代的真正核心
从终端用户体验看,摩尔定律本质从未关乎几何尺寸。更小晶体管提升性能,是因为开关更快;更密集互联提升性能,是因为信号传输距离更短;更高集成度提升性能,是因为数据跨域更少。每代技术本质上都在压缩时间:器件层从皮秒到纳秒,芯片层从纳秒到微秒,系统层从微秒到秒。空间缩放只是压缩时间的手段。
认清这一点后,清晰的重构路径浮现:将时间本身作为核心指标。在晶体管、电路、芯片、系统各层级定义特征时间常数τ,以τ降低作为全栈统一优化目标。几何缩放成为降低τ的技术手段之一,而非唯一手段。
这一原理被命名为τ缩放,作为摩尔几何缩放的继任者,引领半导体行业演进。
形式化定义:τ为分层结构,可分解为
[τ = f(τ_{晶体管}, τ_{电路}, τ_{芯片}, τ_{系统})]
其中(τ_{晶体管})、(τ_{电路})、(τ_{芯片})、(τ_{系统})分别代表晶体管、电路、芯片、系统层级的时间常数。每一层级τ由下层τ与本层组织、通信开销共同构成。τ的工作空间覆盖约12个时间数量级(皮秒到秒)与相当的空间跨度(纳米到千米)。各层级降低τ的核心路径:
• 晶体管 :本征开关延迟,通过迁移率增强、应变工程、高κ/金属栅、GAA架构优化,更关键的是降低局部互联寄生电阻电容(当前已超本征渡越时间数倍)。
• 电路 :信号路径RC传输延迟,通过低阻导体、低κ介质优化,最关键的是 垂直集成缩短连线长度 。
• 芯片 :计算与访存延迟,通过架构选择、流水线深度、存储层级、片上互联优化。
• 系统 :端到端消息与同步时间,通过互联拓扑、协议栈、互联架构设计优化。
分层公式推导出实用代际规则:
[τ_{n+1}=\frac{τ_n}{α}]
缩放因子α随应用场景变化,非通用常数。量产经验显示:
• 功耗受限移动设备:α≈ 1.3倍/年
• 安全关键自动驾驶系统:α≈ 1.5倍/年
• AI业务:吞吐量直接转化为经济价值,α最高达 10倍/年
τ成为有效核心指标的关键:全栈统一度量。频率、延迟、带宽、吞吐量均由对应层级τ决定。工艺工程师、电路设计师、系统架构师可使用同一单位讨论同一指标。τ是实现全栈协同优化的通用语言——各层独立优化、时序作为残余结果的时代已结束。
3. 逻辑折叠:移动SoC验证案例
τ缩放的首个量产级验证在移动终端开展。智能手机SoC是单芯片构成完整系统的典型场景:无多插槽并行,无千节点集群掩盖低速链路,所有用户体验性能均来自单颗芯片,功耗仅数瓦,受手持形态热限制约束。
2020年后先进工艺获取受限,核心问题变为:固定工艺节点下,如何持续实现代际提升?
答案是:逻辑折叠(LogicFolding)。
定义
逻辑折叠是遵循时间缩放原理,将数字、模拟、存储电路垂直分层堆叠,协同优化性能、功耗、面积的设计方法。
数字电路分为组合逻辑(寄存器间布尔网络)与时序逻辑(锁存状态触发器)。数字系统性能上限由相邻触发器级间关键路径延迟决定,核心受路径上互联RC与门数量影响。传统优化将门电路平面布局,连线在上方金属层布线;连线越长,寄生RC越大,关键路径越慢。
逻辑折叠打破平面假设:将关键路径门电路分布到两层(未来更多层)垂直堆叠有源层,通过超细间距混合键合连接。对电路设计师而言,两层如同单一连续fabric,单元跨晶圆边界分布,等效于新增一层金属层。信号连线大幅缩短、寄生RC急剧下降、时钟偏斜收紧,同工艺节点下芯片可运行在更高主频。
为充分释放逻辑折叠收益,混合键合间距与顶层金属间距的传动比需控制在较低水平(实际约低于3),比值越低效果越好。当前顶层金属间距约720纳米,对应混合键合间距需低于2微米;理想传动比约1,键合接口的笼式布线开销基本消失。实现这一间距、叠加套准精度(<0.5微米)、TSV缩放(CD与KOZ小于1.5微米,间距小于6微米)、良率(智能冗余下接近100%),需要产业链多年协同工艺开发。
在麒麟2026芯片上实测成果明确:
• 晶体管密度单代从155跃升至 238百万晶体管/平方毫米 (按公式(\frac{2}{CPP×单元高度})计算,麒麟SoC设计面积利用率68%),提升幅度相当于过去三年几何缩放总和;
• SoC性能核能效提升 41% ,最高主频提升近 13% ;
• 跨上下层高速全局片上网络(NoC)数据通路使数据通路面积减少 55% ,供电稳定性提升;
• 硅后时钟偏斜调整方案独立贡献超5%的SoC性能;
• SRAM中,逻辑折叠缩短关键路径、降低单比特能耗,工作频率提升超 40% ;
• 典型处理核中,双层折叠架构使时钟缓冲器数量减少超50%、时钟偏斜降低25%、连线长度减少约30%。
所有提升均在固定工艺节点实现,不靠新工艺光刻,而是通过逻辑空间分布的三维拓扑重构达成。
麒麟2026搭载的逻辑折叠方案为保守设计:混合键合间距达1.5微米;TSV引出仅向下推进一层金属;折叠仅选择性应用于关键路径,而非全设计。即便如此,CPU性能核主频今年回归3.1GHz。
未来十年,逻辑折叠将从局部关键路径折叠演进为全栈多层折叠(单封装3层、4层及更多有源层),依托低温混合键合(放宽层间热预算)、TSV引出从顶层金属下移至M6层(释放超30%高层布线资源)实现。2026至2035年,晶体管密度预计突破400百万晶体管/平方毫米。同时,逻辑折叠助力麒麟CPU性能核主频持续攀升,迈向4GHz及以上(见表1)。该路线图技术可行、成本经济。
表1 麒麟CPU性能核工作频率趋势
年份
SoC型号
架构
主频(GHz)
状态
2023
麒麟9000S
平面
2.6
量产
2024
麒麟9020
平面
2.65
量产
2025
麒麟9030 pro
平面
2.75
量产
2026
麒麟2026
逻辑折叠
3.1
流片
2027
麒麟2027
逻辑折叠
3.39
流片
2028
麒麟2028
逻辑折叠
3.71
预流片
2029
麒麟2029
逻辑折叠
4
预流片
附注A:逻辑折叠核心指标
• 混合键合间距:低于2微米(麒麟2026为1.5微米;目标传动比≈1)
• 套准精度:低于0.5微米
• TSV CD/KOZ:低于1.5微米;间距低于6微米;失效率<100ppm;修复率99.9%
• 良率:智能冗余下接近100%
• 晶体管密度:155→238百万晶体管/平方毫米 单代跃升
• SoC性能核能效/主频增益:+41%/+13%
• SRAM工作频率:+40%以上
• 典型核时钟缓冲器数量/时钟偏斜/连线长度:-50%/-25%/-30%
4. 从皮秒到微秒:AI数据中心的τ缩放
自然疑问:毫瓦级手机场景的原理,能否适配吉瓦级AI训练与推理场景?AI业务处于τ尺度另一端:非单芯片,而是成百上千芯片协同工作,过去十年总计算量提升约六个数量级。答案是肯定的——只要将τ作为系统级目标,贯穿全链路而非仅单加速器内部。
AI侧τ缩放基于两个核心事实:
1. AI系统持续扩容:从单芯片到数十、数百、乃至数万芯片;
2. 现代AI系统的能耗与材料成本 由数据主导而非计算 。大型AI集群超80%能耗用于数据搬运,超70%系统成本用于数据存储。
直接结论:降低数据传输耗时(芯片间、机架间、封装内)与降低计算耗时同等重要。
τ缩放通过三层协同技术在AI规模落地:系统互联(统一总线)、近封装光引擎(Hi-ONE)、封装拓扑重构(3D折叠)。
4.1 统一总线:以τ为核心的系统互联
传统多节点、多加速器架构通过多层协议搬运数据:主机端PCIe、机箱内NVLink/私有互联、机箱间以太网/InfiniBand、上层软件栈远程访存。每层均需协议转换、额外串行化、DMA缓冲、握手交互。每次转换增加延迟、降低可靠性、提升成本。
统一总线(UB) 用单一协议替代全栈,机箱内外统一运行:全对等点对点互联,原生暴露内存语义,覆盖全系统。数据搬运简化为无转换、点对点内存语义层传输,硬件管理一致性替代软件栈消息传递。
实测收益约两个数量级:端到端远程访存延迟从TCP/IP栈典型数十微秒降至约100纳秒,核心通信链路系统τ降低约500倍。机架级尺度下,系统逼近单一互联一致性机器,内部命名为片上化系统(System-as-One-Chip)。
4.2 Hi-ONE:封装级光I/O
通信延迟降低后,下一瓶颈显现。单机架芯片密度提升推高功耗密度与可靠性极限,电串行器/解串器(SerDes)也达瓶颈。单AI芯片400Gb/s速率下,铜缆成熟可靠;单芯片数太比特(Tb/s)速率下,铜缆物理不可行:SerDes传输距离缩短、线缆体积过大、面板安装困难、热与供电余量耗尽。
华为半导体研发高密度光互联节点引擎(Hi-ONE):近封装光引擎,单模块8Tb/s带宽,单条光链路匹配AI芯片统一总线带宽。将SerDes所需传输距离从约100厘米降至约5厘米,取消大体积线缆,传输距离从1米内扩展至100米,让吉瓦级分布式数据中心高密度互联物理可行。
Hi-ONE设计哲学本身遵循τ缩放:放弃高信号保真度的重型数字信号处理器(DSP),采用线性方案(模拟均衡增强驱动器与跨阻放大器),允许统一总线协议容忍适度放宽的误码率。协议层与物理层跨层权衡降低功耗、成本、集成复杂度,是τ优先方法论的典型体现。
4.3 N²与N的困境:3D折叠的必然性
AI加速器不局限于2.5D扇出的深层原因是几何特性,直接决定2030年后路线图,需明确阐述。
传统2.5D AI芯片中,逻辑裸芯位于封装中心,高带宽内存(HBM)与SerDes排布在边缘,稳压器环绕封装。所有内存信号、互联信号、供电电流必须穿过裸芯边缘到达内部计算资源。若裸芯边长为N:
• 计算能力随 N²(面积) 缩放;
• 内存带宽、互联、供电(均沿边缘2.5D扇出)仅随 N(周长) 缩放。
二次与线性曲线的持续背离构成扇出困境,导致2.5D缩放停滞,与底层逻辑工艺先进性无关。晶体管级改进无法弥补拓扑缺陷。
3D折叠破解困境:将边缘绑定资源迁移至垂直表面。供电(背面供电与集成稳压器)、高速内存(逻辑混合键合)、光I/O(近封装Hi-ONE)均从边缘迁移至垂直表面;部署在表面后,可按N²缩放,与计算二次增速匹配。封装不再是逻辑裸芯被内存与SerDes环绕的结构,而是逻辑、内存、互联、供电协同缩放的垂直集成栈。
路线图明确时间节点:
• 2030年前,昇腾SuperPoD系列(2025年昇腾910C、2026年昇腾950、后续昇腾990)采用成熟技术组合:小芯片、2.5D扇出、微凸块与标准间距混合键合3D堆叠;
• 2030年前后,昇腾990将逻辑折叠引入AI加速器品类,此后3D折叠成为2035年前α缩放核心载体。
沿此路径,到2035年硬件集成度预计提升超100倍,τ降低分布于全栈各层,而非集中在器件层。
附注B:AI系统级τ核心指标
• 统一总线远程访存延迟:数十微秒→约100纳秒(τ降低约500倍)
• Hi-ONE单模块带宽:8Tb/s(匹配单芯片统一总线带宽)
• Hi-ONE SerDes传输距离:约100厘米→约5厘米;面板间传输距离:<1米→100米
• 扇出困境:计算N²,边缘绑定带宽/I/O/供电∝N
• 3D折叠:将带宽、光I/O、供电从边缘迁移至表面,恢复N²匹配
• 2026→2035年硬件集成度预计增长:>100倍
5. 逻辑与内存:从解耦到再融合
τ缩放的一项影响需单独讨论,因其兼具技术与产业意义。
8086时代,行业通过标准化内存总线刻意解耦处理器与内存。这一解耦让两大产业独立缩放:处理器性能沿摩尔曲线快速提升,内存厂商同步发展出庞大独立市场。
AI时代正在逆转这一解耦。计算密度持续扩张,将内存带宽、延迟、功耗、封装推向极限。HBM、混合键合、3D堆叠SRAM均指向同一事实:对现代AI业务,数据搬运与计算同等重要,逻辑与内存再次走向紧密物理集成。二者融合过程中,供应链影响力向内存与封装厂商倾斜。
技术方向明确,但经济格局尚未定型。AI硬件时代的长期成功,属于能在技术上融合逻辑与内存、并建立长期共享收益经济合作模式的主体。这不仅是研发问题,更是行业未来十年需解决的结构性问题。τ缩放让每一次解耦的跨层成本清晰可见,问题无法再拖延。
6. 开放挑战
将τ缩放描述为完整体系并不客观。多项关键问题仍待解决,本文明确列出以展示在研方向并邀请产业协同。
工具链与方法论
现有电子设计自动化(EDA)工具面向面积、时序、功耗独立优化的时代,系统τ为残余结果。全规模逻辑折叠要求工具链将多层堆叠裸芯视为单一连续设计实体:以单元级而非模块级划分逻辑,在统一成本函数下全空间布局,跨裸芯路径时序收敛——垂直互联寄生、禁布区(KOZ)、晶圆间工艺偏差的交互是传统二维工具无法充分处理的。内部已开发初步工具并取得有效结果,方法论细节将在未来数月公布。原生τ工具链(开放、多物理场、三维原生)是未来十年最重要的支撑性投入。
晶圆间工艺偏差
逻辑折叠键合的晶圆可能来自不同批次,甚至不同工艺节点。晶圆间阈值电压、驱动电流、互联RC偏差显著大于片内偏差,对时钟分配与保持时间裕量影响最大。智能冗余、自适应补偿、τ感知签核流程是必要应对手段。
垂直互联开销
每次混合键合与TSV均带来有限电阻电容损耗,TSV禁布区挤占标准单元。逻辑折叠需逐层满足简单不等式验证合理性:
[τ_{收益(有效硅面积+连线长度缩减)} > τ_{损耗(垂直互联RC)}]
移动关键路径与内存场景已突破该阈值;阈值随业务场景变化,边界随键合间距缩小持续迁移。
能耗
τ是时间法则,非能量法则。超节点速度提升10倍但功耗增加10倍,不违反缩放原理,却超出电网承载能力。因此τ缩放需配套能耗方案:
• 消除栈开销的内存语义互联;
• 将每比特功耗降低数个数量级的近/共封装光学;
• 背面供电、存内/近存计算;
• 将τ余量转化为功耗余量的严谨实践(数据中心级动态电压频率调节——与手机续航技术同源)。
重要的是:τ余量本身可定向转化为能耗余量。
基准测试
行业现有性能基准(Linpack、MLPerf、SPEC)面向单标量度量业务的时代。τ缩放行业需要τ剖面基准:暴露系统各层主导τ与剩余余量的向量指标。主导τ层级即为下一阶段投入重点。
7. 六年实践,十年展望
2020年5月至2026年5月,华为半导体面向移动、AI、汽车、工业、基础设施市场,设计并量产381款芯片。全产品组合验证τ缩放理论成立:
• 器件与电路层:晶体管密度从155向2031年400+百万晶体管/平方毫米迈进;
• 芯片层:逻辑折叠在旗舰移动SoC上证明,固定工艺节点下关键路径主频、能效、密度可持续提升;
• 系统层:统一总线与Hi-ONE证明,数百微秒通信τ可压缩至数百纳秒,多机架AI集群可等效为单一一致性机器;
• 未来展望:2029年CPU性能核主频迈向4GHz及以上;典型场景下麒麟SoC能效三到五年预计翻倍;2035年AI硬件集成度预计增长超100倍。
超越单一产品的核心主张是方法论:τ缩放是自德纳尔德缩放以来,首个为全栈提供统一优化目标的缩放原理。它向工艺工程师、电路设计师、架构师、系统工程师、软件团队明确:全行业正以同一单位优化同一指标,单一层级提升必须传导至系统τ才算有效。它也向行业战略与资本方指明:下一美元应投向τ而非工艺节点——竞争力不再依赖持续领跑光刻前沿,封装、内存带宽、互联设计已具备此前仅前沿逻辑工艺才有的战略权重。
对接受“摩尔定律即进步”教育的一代工程师而言,这是艰难转型。几何时代确已终结,否认并非可行策略。依靠微型化加速的时代,正让位于多层电子系统τ优化加速的时代。未来六到十年采纳τ作为核心目标的企业、研发机构与生态,将定义下一个十年的计算格局。
未来十年工作方向已明确,仍有大量开放问题待解,无单一机构可独立应对——工具链、标准、基准、器件物理、经济模型均需跨界协同。本文既是一线实践报告,也是产业合作邀请。
前路挑战艰巨,但方向清晰无疑。
作者
何庭波,华为半导体业务负责人。其带领团队2020至2026年面向移动、AI、汽车、基础设施市场设计并量产381款芯片,是τ缩放方法论与逻辑折叠、统一总线、Hi-ONE技术的提出与研发主体。
致谢
本文基于华为半导体及晶圆、设备、EDA、系统合作伙伴生态数千工程师六年工作成果。感谢客户的耐心支持,使本研究得以开展。
原文地址:https://chinaxiv.org/abs/202605.00224
3D芯体设想
传统摩尔定律时代的芯片,是典型的二维平面芯体。行业数十年的研发、设计、制造、封装体系,均建立在平面硅基工艺之上:晶体管、逻辑电路、存储单元、互联走线全部平铺于单晶硅片表层,芯片的性能上限、密度上限、延迟上限,始终被平面几何尺寸、边缘扇出距离、二维布线寄生参数牢牢束缚。无论FinFET、GAA等晶体管架构如何迭代,本质都是在平面空间内压缩器件尺寸,无法突破二维结构与生俱来的物理与拓扑瓶颈,这也是几何缩放逐步失效、先进工艺收益持续衰减的核心物理根源之一。
基于τ缩放全栈时间优化原理与逻辑折叠、3D垂直集成技术,未来取代平面芯片的下一代核心形态,是全立体3D芯体。3D芯体彻底打破传统芯片的平面设计范式,摒弃“二维平铺、边缘扇出、分层布线”的固有架构,以垂直堆叠为核心形态,将晶体管、逻辑电路、存储阵列、供电模块、光互联引擎、互联总线等全栈硬件资源,从平面延展转向立体纵深融合,构建起上下贯通、层间协同、全链路短路径的三维集成芯体结构,完美适配全层级τ值持续压缩的核心目标。
从外观形态来看,传统芯片是薄型平面薄片,长宽尺寸远大于厚度,核心算力、存储、互联资源全部集中于正面表层,背面仅作为承载基底,无有效功能布局;而3D芯体是规整立体集成结构体,厚度不再是可忽略的物理参数,而是核心算力扩容、延迟压缩、集成度提升的关键维度。芯体不再区分单一功能正面与空白背面,整体为多层有源硅基层垂直堆叠的一体化立体模块,外形规整、集成度均匀,彻底摆脱平面芯片“面积受限、边缘瓶颈、资源失衡”的形态缺陷。
从内部架构重构来看,3D芯体实现了四大核心资源的立体重构,彻底解决传统二维芯片的结构性短板。其一,逻辑-存储垂直融合,打破传统芯片逻辑区与存储区平面分区、长距离走线的模式,将数字逻辑、模拟电路、SRAM、高带宽存储逐层垂直堆叠,通过超细间距混合键合实现层间高速互联,大幅缩短计算与访存路径,极致压缩电路层、芯片层τ值,解决AI场景下数据搬运滞后的核心痛点。其二,算力资源立体扩容,不再依赖平面尺寸缩放提升晶体管密度,通过多层有源层堆叠实现单位体积内晶体管数量指数级增长,摆脱先进光刻工艺限制,在固定工艺节点下持续实现算力迭代升级,完美延续逻辑折叠技术的量产优势。
其三,供电与散热立体适配,针对三维堆叠带来的功耗与热管理问题,3D芯体集成背面供电、层间集成稳压器结构,将供电资源从传统平面边缘环绕布局,升级为立体全域供电,解决二维芯片供电随周长缩放的N级瓶颈,匹配算力N²级增长需求;同时依托垂直层间散热通道,优化高密度堆叠下的热扩散效率,解决立体集成的热约束难题,保障芯体高负载稳定运行。其四,互联系统立体全覆盖,将Hi-ONE近封装光I/O、统一总线架构嵌入芯体垂直表层与层间,摒弃传统边缘SerDes、线缆互联模式,实现芯体内部层间、芯片间、机架间的全链路高速低延迟传输,让单颗3D芯体成为全域一致性的微型计算集群,落地“片上化系统”的设计理念。
从τ缩放核心价值来看,3D芯体是时间优化的终极物理载体。传统平面芯片的所有优化,都是在二维空间内被动缩短路径、降低延迟,τ值压缩存在天然上限;而3D芯体通过立体拓扑重构,从物理底层缩短晶体管开关、电路传输、芯片访存、系统互联的全层级路径,实现皮秒到秒12个数量级时间尺度的全域τ值优化。移动终端场景下,3D芯体可进一步放大逻辑折叠的能效、主频、密度优势,持续推动麒麟系列SoC主频突破4GHz,实现能效逐年迭代升级;AI数据中心场景下,3D芯体彻底破解2.5D封装的扇出困境,让带宽、互联、供电资源与算力同步二次缩放,支撑2035年硬件集成度超100倍的跃升目标。
从未来演进路线来看,3D芯体将从当前局部双层逻辑折叠,逐步迭代为全栈多层一体化立体芯体。未来十年,通过低温混合键合、TSV深度缩放、三维EDA工具链适配、晶圆偏差自适应补偿等技术迭代,3D芯体将实现3层、4层乃至更多有源层的稳定堆叠,完成逻辑、存储、供电、光互联、散热的全维度立体融合。最终彻底终结依赖几何尺寸缩放的芯片迭代模式,形成以3D立体芯体为硬件核心、以τ缩放为统一优化准则的下一代半导体产业技术体系,成为后摩尔时代半导体与计算系统演进的核心形态。
![]()
![]()
目前芯片层数(豆包)
截至2026年5月,“芯片有多少层”要看是存储芯片(3D NAND)、高带宽内存(HBM)还是逻辑芯片(CPU/GPU),三者差别非常大:
一、3D NAND 闪存(最“多层”的芯片)
• SK海力士:321层 (已发布,2026年上半年量产)
• 三星:290层 (第9代V-NAND,已量产)
• 长江存储:294层 (Xtacking双晶圆堆叠,等效294层,已量产)
• 美光:276层
• 铠侠(原东芝):218层
趋势:2025–2026年主流进入300层+,2030年目标1000层。
二、HBM 高带宽内存(AI 常用堆叠内存)
• HBM3E:12层 (已量产,用于AI GPU)
• HBM4:16层 (研发中,预计2026年底供货)
三、逻辑芯片(CPU/GPU,“层”概念不同)
这里的“层”不是垂直堆叠的存储层,而是金属互连层 + 晶体管层:
• 先进制程(3nm/2nm): 10–15层金属互连 + 晶体管层(1–2层)
• 3D 堆叠逻辑(如华为“韬定律”、台积电SoIC): 2–4层芯片堆叠 (上下叠放)
一句话总结
• 存储芯片(3D NAND): 200–321层 (2026年量产)
• AI 内存(HBM): 12–16层
• CPU/GPU: 10–15层金属 + 1–4层堆叠