对话奇点光子谢崇进:当英伟达用 45 亿美元,「烧」火了赛道

🤖 AI总结

主题

光互连技术成为AI算力瓶颈的关键解决方案,奇点光子通过工程化路径切入市场。

摘要

光互连成为AI算力瓶颈的关键,奇点光子通过工程化路径,在2027-2028窗口期推出6.4T光芯片,聚焦客户当前需求,不赌技术终局。

关键信息

  • 1 光互连是AI算力下一个增长点,英伟达等巨头已重金投入。
  • 2 奇点光子创始人谢崇进选择不做终局赌注,而是聚焦客户当前需求,推出6.4T光芯片。
  • 3 公司采用NPO/CPO封装,预计2027年量产,客户包括云厂商和GPU厂商。

对话奇点光子谢崇进:当英伟达用 45 亿美元,「烧」火了赛道

AI 算力的下一个增长点,在互连。


作者|徐珊

编辑|郑玄

谢崇进做光通信,做了三十年。这三十年里,行业「凉」过两次。

第一次是 2002 年。他刚从读完博士后,进了贝尔实验室。那是当时全球做光通信最好的地方,但他进去没多久,互联网泡沫破裂,光通信成为受冲击最重的行业之一,朗讯一度十几万员工,三年内裁到只剩四、五万。他那个团队,进去七个,最后只剩谢崇进自己。

泡沫破灭后,行业一直低迷,从业者大批离开。谢崇进记得2013年去参加一个学术会议,对面的人听完他的介绍,甚至愣了一下,「你怎么还在做光通信?」虽然数据中心重新给给光通信续了口气,但光通信在那个年代的科技圈,仍是个非常小众的行业,基本不被外界关注。

但谢崇进没走。直到 2023 年,全球最大的光通信会议上,气氛开始改变。这一年所有人都在抢芯片、抢产能、抢交付。「2013 年的时候,我完全没想到,十年后这个行业会再次成为整个 AI 产业的主战场。」他说道。

而让光通信活过来的,是 GPU。

AI 算力现在卡在哪儿?谁都清楚。黄仁勋在2024年香港科技大学曾经说过,未来十年算力还要再涨 100 万倍。不少业内人士认为,其中单芯片还有 100 倍提升空间,互联提升 100 倍,以及集群规模扩大 100 倍。于是 AI 芯片和超算中心被盯得很紧。但中间那个 100 倍,也就是 GPU 和 GPU 怎么连接的问题,很长一段时间没多少人真当回事。

直到英伟达自己下场。今年 3 月,英伟达拿出 40 亿美元,砸向北美两家光通信龙头 Lumentum 和 Coherent,各投大约 20 亿,外加数十亿美元的长期采购协议。到了 5 月,又掏了 5 亿美元绑定康宁,把对方在美国本土的光纤连接产能拉高了十倍。这几十亿美金,押的全是同一件事,第二个 100 倍,最终得用光来解。

谢崇进的想法不一样。在这个行业里浮沉了三十年,他不去押「光互连是不是会赢电互连」更强的结论,这种长达十年的技术赌局,他自己也认为没人能给确切的答案。他押的是另一件事,在共识形成之前的创业窗口里,先把客户当下要用的东西做出来,站稳脚跟。

在这个思路下,他创办的奇点光子第一代产品就是把 800G 的光模块直接压缩成一块 6.4T 的芯片,在同等的传输能力之下,体积只有原来的十分之一。

至于光互连这件事到底有没有未来,他给的回答却相对谨慎,「我不认为现在能够看到技术终局。」一个三十年都在场的人,选择不押终局,这件事在硬科技领域是少见的。近期,极客公园独家对话了谢崇进,在阿里担任了十年首席通信科学家后,他究竟看到了什么新变化,决定离开阿里、自己出来做这件事?当英伟达、博通这些巨头都在自己下场的时候,一家做光互连芯片的初创公司,还有没有真正的位置?

01

光互连,怎么成了 AI 算力的主战场?

过去十年,互联网每一次大流量爆发,都靠光通信在底层撑着。光通信单波长速率从 10G 涨到了 1.6T,足足提升了 160 倍。而在过去二十年里,芯片的原始计算性能涨了 6 万倍。同期,传统电互连的带宽只涨了 30 倍。

两个数字相差两千倍。这个差距,正在变成 AI 算力真正关键的地方。

放在以前,这其实并不奇怪。过去三十年,算力问题大多数时候靠单颗芯片就能解决。一颗 CPU 跑通用计算,一颗 GPU 跑图形和并行任务,再大的需求撑死了也就几台服务器拼一拼,互连就是个配套服务。

但 AGI 对算力的需求持续增长,改变了这一切。目前,大模型的训练规模每年涨四到十倍。单颗芯片的性能跟不上,HBM 的带宽也开始触顶。但行业发展的速度并没有放慢,所有人都相信,靠堆算力把模型智能推上去这条路还远没到头。所以接下来几年,整个产业逻辑要从「单芯片时代」切换到「超算中心时代」,把成千上万颗 GPU 拼成一个集群,当一台机器用。

当需要算力的形态从一颗芯片变成一座超算中心时,互连的位置就变了。它开始决定这座超算中心能不能跑起来,站上了最强辅助的位置。没有它,再强的 GPU 也只是一座孤岛,终有算力见顶的时刻。押光通信,本质上就是在押 AI 算力的下一个增长。

行业里看明白这件事的人不少,给出的解法也不一样。

最主流的一条路,是把传统光模块的速度做得更快,直接拉参数将单波长速度从 400G 一路提到 1.6T、3.2T。这条路技术成熟、产能集中,中际旭创、新易盛、Coherent、Lumentum ,据说不少企业的订单已经排到 2027 年之后。但它主要解决的是机柜之间的光互联,不是 GPU 之间的连接。传统光模块的尺寸、功耗、延迟,都装不进 GPU 旁边那几厘米的空间。

更激进的一派,想要一步到位,押注下一个芯片技术架构。

一种是想用光直接替代电做计算,从根本上绕开电信号的物理极限。这条路最难的地方在于,光做计算的精度、能效、可扩展性很难同时满足,光信号微小的强度波动就会让复杂运算出错。曦智科技、Lightmatter 这类公司过去十年都在这个方向上探索,但最好的结果整体能效也远不及当代 GPU。据推测,这条路线上的产品想要真正能走到客户机房,至少还要五到十年。

另一种更前沿的技术路线则是看好微环,也是一种比传统结构更小、更省电的光学路径,理论上可以做下一代光互联的终极形态。量引科技、映讯芯光这类初创公司在押这条路,但目前还卡在最基础的良率和工艺一致性上,而它的大规模量产时间线,最快也要 2028 年到 2030 年。

从这里就能看出,它们押的是五到十年后的市场,但客户的服务器等不了那么久。

过去两年,AI 训练规模每年涨四到十倍。云厂商的 GPU 集群从 H100 换到 GB200,再到下一代,扩容节奏被持续压缩。原本计划一年完成的部署,常常被迫提前半年。「够用就行,能用就先上」这已经成为被算力增长折磨已久的服务器企业最真实的状态。

谢崇进看到的也是当下市场最急迫的需求。他需要的不是抵达光通信的终局,而是一个能尽快装进客户机房的产品。

奇点光子,就是从这个切入点切进整个赛道的。

02

做客户最需要的,比做最强的更重要

光互连这道题的难度,不在于看出光互联是AI算力下半场的瓶颈。这个判断到 2024 年,行业里很多人都看见了。难的是看见之后,知道用什么技术、做什么形态、用多长时间做出来。这件事卡住了大多数人。

技术型创业者容易陷入哪种技术最先进的争论里,光计算、微环、IPO 终极形态,每一条路都能讲出十年后的故事,但很难判断客户三年内真正用什么。而从产业视角里走出来的人则反过来,知道客户要什么,也理解每种光学结构、每种封装工艺在物理上的边界以及短期内能够达到技艺上限。

这两种身份,谢崇进都有,他 1996 年读光通信博士,2001 年进贝尔实验室做研究。光通信里每一代光学结构、每一种封装工艺的物理边界,都在实验室里研究了十多年。2014 年,他加入阿里之后作为首席通信科学家创建和领导阿里光网络团队做了十余年的数据中心光互联技术和产品,了解客户机房里真正卡住的是什么,容忍度在哪里、什么时候必须有产品,这些方向,他也站在在甲方也看了十年。

两段经历叠加,这也让他解光互连这道题时,判断依据不只是技术终局应该长什么样,也包括客户在哪个时间点会买什么样的产品。但即便如此,这条路也并不容易。把光从机房外的长距离传输搬到 GPU 之间的近距离传输,听起来只是物理位置的转移,但几乎所有原来成熟的东西都要重做一遍。

「今天 1.6T 和 10G 的通信不是同一件事」,谢崇进说。速度高了之后,材料、工艺、所有的补偿机制都要重新设计。「但光通信不仅仅是一个技术学科,更是一个工程学科。光通信里出来的好公司,最后都是工程能力赢的,不是理论领先赢的。」

对话奇点光子谢崇进:当英伟达用 45 亿美元,「烧」火了赛道

把这个问题放在工程上,他拆成三个方面:光芯片、电芯片、封装。每一件事想要做好都不容易,其中封装更难。

在光芯片上,奇点光子目前想要做的是世界上最高速度的光芯片,单路200G,整片 6.4T,等于把市面上 8 个主流光模块的传输能力塞进一颗芯片。想要达到这个传输速度上,材料、工艺、信号补偿全部要重新做。谢崇进选择的是工艺成熟的路线,一种几十年来在长距离光通信里跑得最稳的光学结构,工艺成熟,能快速量产,现在就能满足客户需求。

有了光芯片,不代表着就没有电芯片。相反,光信号最终还是要和电信号对接。光负责跑得远、跑得快,电负责和 GPU 对话。两者需要在同一块基板上同步、对齐、协同,才能得到又快又稳的传输。「大多数光 IO 公司只做光,把电交给别人。」谢崇进说道,他们也曾想过,但最后发现,光和电,少了任何一块,整套系统跑起来的效果都不好,最后只好全做。

但最难的步骤还是在封装上。尽管当下的封装设计已经比较多样,但想要同时在一块板上光、电等几种完全不同的封装工艺要同时跑通,还要保证可量产的良率,这放在当下,仍然是一个工程难题。

也因此,奇点光子在封装上做了两个反共识的决定。

一是产品形态上,采用芯粒架构,封装形式选择更满足客户和系统需求的产品,如 NPO(近封装光学)和 CPO(共封装光学),而不是IPO(集成封装光学)。他们的区别是IPO是把光器件和GPU芯片直接集成在一起,CPO 是把光器件和 GPU 芯片共封装在同一基板上,距离小于 1 厘米,NPO 是把光器件放在 GPU 芯片旁边 1 到 10 厘米的位置。此外还要考虑客户在易部署和易维护方面的要求,解决客户痛点,而不是把技术强推给客户。

「NPO/CPO 这条路上的技术已经走通了,」谢崇进说,「我们的产品做出来,就能直接装进客户机房。」

第一代产品的结果是,体积只有传统光模块的五分之一到十分之一,功耗降到三分之一,延迟降到百分之一。

对话奇点光子谢崇进:当英伟达用 45 亿美元,「烧」火了赛道

传统电互连技术 vs 光 I/O 架构 |来源:奇点光子

二是工程方法上。常规做法是先把芯片做出来,再去考虑怎么封装。奇点光子反过来,第一天就开始跑封装工艺,用空白测试芯片把整个封装流程提前跑通。「我们第一天就在考虑封装怎么做」,谢崇进说。

其实这几个选择背后是同一个判断,不追求理论上最好,追求今天就能上手。到今年,奇点光子的芯片已经完成测试点亮,封装工艺同步在跑,客户那一头已经开始排队测试,预计 2027 年下半年量产。

但产品做出来只是一半,光通信公司能不能跑通,还要看怎么卖给客户。谢崇进观察到 AI 芯片这一波热度里,大公司都想卖系统。像是英伟达卖 GB200 NVL72 整套服务器机柜,博通卖 CPO 整条光互联路线图,华为卖 Cloud Matrix 9384 整个超节点方案。理由很清楚,芯片要算钱,系统要算更多钱,把更多东西打包卖出去,才能撑得起一个估值更高的算力市场故事。

但客户却已经不再是原来全托管的形态了,云厂商在过去几年里,已经开始变成自己集成一切的玩家。「我们在阿里时候,自己集成系统、服务器自、交换机,模块,基本上不再依靠系统方案商了。」他发现如今这种自己设计、找代工生产的模式,已经从阿里扩散到字节、微软、Meta,这些客户的目标越来越清楚,不被任何一家供应商绑死。

过去,业内总认为系统厂商做不好真正顶级的部件,部件厂商也做不好系统,两类公司的能力曲线、组织方式、定价逻辑都不一样。但 AI 这一波,云厂商把「做系统」的角色收回了自己手里,更多开放出来的是「做最好的部件」这个位置。

为此,在商业化路径上,奇点光子的选择是不卖系统,只卖关键部件。「把 GPU 之间互联的光芯片做到极致,让客户拿回去自己集成。」谢崇进说道。这放在当下来看,同样是一个反共识的选择。所有 AI 芯片公司都想做下一个英伟达,但奇点光子从一开始就明确说,「我们不和英伟达竞争,反而英伟达是我们的潜在客户」。

对话奇点光子谢崇进:当英伟达用 45 亿美元,「烧」火了赛道

现阶段主要推进的产品 |来源:奇点光子

谢崇进将奇点光子的客户分成四类。第一类是云厂商,阿里、字节、微软、Meta 这一类自己搭超节点的公司,也是第一阶段的核心客户。第二类是GPU 厂商,像是英伟达、AMD、华为,奇点光子的芯片可以作为它们系统里的一颗,加入其中。第三类是服务器和交换机厂家,做超节点系统集成的,他们可以买奇点光子的器件再集成进自己的产品,提升通信效率。第四类是光模块厂家,奇点光子可以将其中光芯片可以单独拆出来卖,作为光模块的核心部件。

「让产业链每个位置都能买上一颗芯片,不和任何一类客户抢生态位,也不依赖任何一类客户活下去。」这是谢崇进对奇点光子的定位。但他在这之上还有一条更严格的判断标准,「不是做最难的,是做客户最需要的,但你做的事情不能让客户三年后就抛弃。」

目前,奇点光子已完成数千万美元 Pre-A 轮融资,由凌云光在内的产业投资方领投。在此之前,公司已完成由明势创投领投的天使轮融资。

「中国硬科技投资过去三年最大的错位是,所有人都在投技术天才,但客户已经不需要技术天才了,客户需要的是能在 12 个月内出货的供应商。」一位接近早期天使轮的投资人告诉极客公园。奇点光子的判断比别人快,能够知道客户三年后真正要用什么,也知道现在就能用什么把它做出来,会是更具有价值的地方。

03

光互连的答案,还尚未有定论

把奇点光子押的这件事放在更大的产业框架里看,它的解法本身仍然有几个未被回答的问题。

这些问题不是关于这家公司的执行力。目前从测试结果到客户反应,目前看奇点光子都走在自己的预期之内。真正的不确定性,在光互连这条路本身。这也是不少投资人犹豫的地方。「投光通信不是赌某一种技术会赢,是赌产业链上的’卡点’。」一位光通信赛道的投资人告诉极客公园,「但卡点的存在,不等于卡点的解法已经被验证。」

比如说,光真的是解决互连的唯一答案吗。

在业内,其实还有一种声音认为,AI 算力真正的瓶颈最终不会落在「光还是电」这个层面,而会落在材料和制程。摩尔定律走到 1 纳米以下之后,电传输的物理边界确实会更尖锐,但光也未必能解决所有问题。下一代答案,也有可能拿在「赌对下一代材料的公司」,像是二维材料、碳基、硅光的材料企业手里。如果新材料能在物理层面突破电传输的瓶颈,光的角色就会被重新定义。

如果从这个角度看,光互连可能不是终局,只是一个过渡态产品,或许它在 2027 到 2030 这个窗口里有非常确定的价值,但更长的时间维度上,会被谁取代,今天没人说得清楚。

这一点谢崇进其实也看到了。「我不认为现在能够看到技术终局」他说。「我们做的就是这个窗口期里的事。我们内部对什么节点该用什么技术,是有自己的判断的。」他从一开始就没有把奇点光子定死在某条路线上,而是在2027 到 2028 这个具体窗口里能不能把产品做出来、能不能装进客户机房、能不能站稳市场。但公司能不能在窗口期之后存活,这更像是一个产业级问题,不是一家公司能单独回答的。

第二个问题是关于工程路径本身。奇点光子采用了「先解决好当下的算力短缺问题」,选择了工艺成熟及对客户更友好的技术路线,尽快交付产品。从交付角度是没有问题的,它把不确定性切小,把可量产的部分先做出来,让企业用上。但这种思路也带来一个新的问题先有技术的应用能不能帮助企业更快进入到下一个关键产业节点?尤其是在光通信领域,单点突破从来都不是难点,难点在系统协同。

超节点不是单一部件的堆叠,是光芯片、电芯片、封装、协议、调度、散热、机柜机构件一整套系统的协同。即使奇点光子把自己负责的那一颗芯片做好了,最终能不能在客户的整套系统里跑出 「1+1>2」 的协同效率,也取决于整个产业链上其他几十个环节是否同步推进。

第三个问题是关于场景本身。奇点光子押的场景是 AGI 路径上的算力升级,超节点、十万卡集群、百万倍算力跃升。这个场景今天看是高度确定的,几乎所有的大模型公司、所有的云厂商都在朝这个方向跑。

但这个场景本身能不能按照今天预期的方向跑下去,还比较难确定。我们也曾在硬科技领域有过类似的剧本,AI 四小龙押的场景是城市级智能化和大规模 to B 落地,那个场景在 2017 到 2019 年看也是高度确定的,几乎没人怀疑。但走到今天,那个场景没有走到当年所有人预期的那个体量。

奇点光子其实也是同理,如果在这个过程中 AGI 不需要那么多算力、比如分布式训练范式变了、比如算力被压缩到更小的模型上,那 GPU 之间高密度互联作为一个高度专精的问题,可能就不再是最关键的瓶颈。

如此看来,你会发现奇点光子的未来方向很大程度上还是依赖于产业判断。它押注光会在 2027 到 2030 这个窗口里更重要、单点芯片的提升能够在系统协同层发挥更大的作用,而 AGI 对算力的需求也没有到达极限。

但奇点光子并不是唯一一家这么押的公司。硅谷估值最高的光子公司 Lightmatter,过去几年累计融资 8.5 亿美元、估值 44 亿。它名义上是一家光子计算公司,2025 年 4 月还在 Nature 上发表了关于光子 AI 处理器的论文。但仔细看它的产品线,Passage M1000、L200、L20。你会发现全部都是光互连的产品,2025、2026 年陆续送样、上市。「2026 年是硅光的元年,2027 年产品会开始放量。」 Lightmatter创始人 Nicholas Harris 说道。

这也表示,光通信这一波热度里,最有钱、最受关注、最敢押的那些公司,其实也和奇点光子看好的是同一个方向,2027 年光互连将展现出其最强辅助位的能力,从一定程度上解决算力增长困境。

「过去几年押光通信的钱大多在赌技术终局,但技术终局到来之前,市场已经会跑出至少一轮赢家。」这是产业里少数押窗口期的投资人对奇点光子这条路的判断。

从现在到 2027 年下半年,留给奇点光子的时间是 18 个月。这也是谢崇进自己设定的观察期,「你要做客户三年后还要的东西,但你出现的时间应该在客户提出明确需求之前的 12 到 18 个月。」它能不能在这 18 个月里把自己负责的那一颗芯片做出来,是能力问题,而能不能在 18 个月之后赢得这个赛道,是产业问题。前者它自己可以决定,后者,更多的是看准时间线。

谢崇进在光通信赛道即将迎来第 30 年。这一次,他不是在看行业会不会死,是在看自己会不会在算好时间节点的那一年里,把产品送到客户手里。

*头图来源:奇点光子

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待光互连?

© 版权声明

相关文章