🤖 AI总结
主题
摩尔线程发布全栈AI智算产品矩阵
摘要
摩尔线程发布夸娥集群、AICUBE等全栈产品,以全功能GPU降低推理成本,打通云边端,实现从训练到具身智能的国产算力闭环。
关键信息
- 1 摩尔线程推出夸娥万卡集群、AICUBE/AIBOOK终端设备及MT Lambda仿真平台
- 2 核心在于通过全功能GPU和统一MUSA架构降低推理成本、打通云边端
- 3 实现从模型训练到具身智能的全链路国产算力闭环
作者:毛烁
![]()
最近,国内大模型公司的技术负责人最不愿意聊的话题,或许就是“Token”。
过去一年,大模型公司最常被问到的问题是缺不缺卡。今年再聊,缺卡已经不是重点了。
随着模型参数量迈向万亿乃至十万亿级,日均Token消耗量动辄突破百万亿,算力竞争的底层逻辑正在发生变化。系统级工程能力、推理成本控制能力,以及AI进入物理世界、走向具身智能之后,底层架构能否支撑数字仿真与现实交互的统一,成为新一轮竞争的核心变量。
5月18日,摩尔线程创始人兼CEO张建中给出了一个颇具穿透力的判断。他将当下AI产业拆解为“三大工厂”:产出大模型的“模型训练工厂”、聚焦推理服务的“Token生产工厂”,以及服务日常工作和生活的“智能体(Agent)生产工厂”。
![]()
摩尔线程创始人兼CEO 张建中
基于这一判断,摩尔线程构建了以“全功能GPU(Universal GPU)”为核心的全栈智算矩阵。
01 堆卡易,成阵难,“夸娥”万卡级集群攻克工程化难题
谈算力,绕不开大模型训练。如今,国内大模型公司几乎都陷入了迭代周期的焦虑。
两三年前,一个大版本更新往往还能按年度推进,后来变成8个月、6个月,而现在,越来越多团队开始把目标定在“一个月一次checkpoint”。有的公司甚至要求,竞品模型一发布,内部训练体系必须在几天内完成评估、复现、蒸馏和对标。
在这种节奏下,算力集群就必须7×24 持续运转,不能停机,不能掉速,更不能在关键训练阶段出现大规模通信抖动。因为一旦训练中断,不但GPU利用率会降低,更会拖慢整个版本的节奏。
产业界一直有句心照不宣的话——“堆卡易,成阵难”。
其实,大模型训练并不是把几万张GPU插进机柜、连上网络那么简单。它更像是一台持续高速运转的精密工业设备。然而,是设备就会出故障,集群中任何一个节点的显存溢出、网络拥塞,乃至微小的过热掉线,都会让整个训练任务中断,导致梯度异常、数据回滚,甚至让数周训练成果直接作废。
而且,集群规模越大,系统反而越脆弱。
在海外,即便是头部玩家,万卡级预训练集群也很难做到“绝对稳定”。此前Meta公开的Llama 3训练日志里就提到,训练过程中故障率最高的部件,恰恰是GPU本身和高速互联组件。原因是,硬件密度越高、通信规模越大,整个系统里的不确定性就会被指数级放大。一次链路抖动、交换机异常,就会触发负面的连锁反应。
这也是大模型基础设施领域的一个工程规律,越先进的集群,往往越难稳定。
其实,很多集群真正进入高强度预训练阶段后,问题才开始集中暴露。有的网络拓扑撑不起高强度AllReduce,有的散热系统压不住长期满载功耗,还有的在数千卡同步训练时频繁出现节点失联。最终,不少集群只能去做SFT微调、推理托管,或者中小规模实验,真正的大规模预训练反而跑不起来。
然而,摩尔线程推出的“夸娥(KUAE)”万卡级智算集群,瞄准的正是这一工程难题。
先从底层计算单元来看,夸娥万卡级智算集群的核心计算单元是“MTT S5000智算卡”,单卡稠密AI算力可达1000 TFLOPS,配备80GB显存,显存带宽达到1.6TB/s,卡间互联带宽达约800GB/s,并支持从FP8到FP64的全精度计算。
FP8精度的支持,是MTT S5000面向新一代大模型训练的重要抓手。随着MoE、长上下文和高并发推理成为主流,系统瓶颈越来越多地出现在显存容量、显存带宽和集群通信上。FP8通过降低数据位宽,减少显存占用和数据搬运压力,在训练和推理中都能提升吞吐效率。到了万卡规模,底层数据效率的提升会被进一步放大,直接影响训练周期和推理成本。
![]()
再来看集群,搭载MTT S5000的夸娥万卡级智算集群,浮点运算能力达到了10 Exa-FLOPS,Dense大模型训练MFU达到60%,MoE大模型训练MFU达到40%,训练线性扩展效率达到95%。
![]()
需要解释一下,MFU衡量的是理论算力中有多少真正转化为有效训练计算。这个指标越高,说明芯片互联、通信调度、并行框架和算子优化越成熟。对模型公司而言,训练效率提升,意味着训练任务缩短,模型的迭代节奏会明显提升。
稳定性,是万卡训练能不能真正进入生产环节的关键。所以,摩尔线程在夸娥集群中引入“KUAE零中断容错技术”,当硬件故障发生时,系统不必让整个训练任务停下来,只通过隔离受影响的节点组,其余节点继续训练,并通过备机接入维持任务运行。
这对长周期预训练来说,这类机制的价值在于减少大规模checkpoint回滚,把故障带来的算力浪费降到更低。
即便模型完成了训练,成本压力也并不会消失。目前,大模型推理需求正在快速放大。早期业内对日均Token消耗量的预测,在30万亿到180万亿之间,而现在,单个头部应用的日均Token消耗已经突破120 万亿。
这意味着,大模型真正接入业务系统之后,算力压力并不会停留在训练阶段,而是在推理阶段随着调用、对话、Agent 执行,被持续放大。
摩尔线程展示的AIGC微短剧流水线,就是很典型的推理成本样本。基于夸娥集群,以及自研语音生成引擎,该系统可以完成剧本、配音、视频等多个环节的自动生成。一部约2分钟的短片,整体算力成本在500元以内,生成耗时约30小时。
其实,一条AIGC短片从剧本、分镜、语音到视频生成,往往需要多个模型连续调用。链路越长,Token消耗越大,对显存、带宽、调度和算子效率的要求也越高。过去这类内容很难规模化生产,原因就在于其每一次生成背后的推理成本过高。
而摩尔线程把一部约2分钟短片的算力成本压到500元以内,说明推理侧已经具备了支撑复杂内容生产的成本空间。成本降下来后,短剧、广告、个性化视频这些受成本制约的场景,便能走向“批量生产”。
这背后,在于其将软硬件一起打通。推理框架、关键算子效率、显存和带宽,都会影响最终成本。这也是为什么摩尔线程持续推进MUSA软件栈,适配vLLM、SGLang,并完善TileLang-MUSA、FlashAttention等算子生态,目的就是在把GPU接进真实的推理生产线。
这样一来,开发者就不用再围绕底层硬件反复修改代码,应用方也不必关心API背后是哪种GPU在跑。
走到这一步,其实也不难看出来,摩尔线程想要证明的是,国产GPU不只可以作为替代选项出现,也可以成为大模型公司控制推理成本的一项基础工具。
02 从“第一性原理”出发,AICUBE与AIBOOK背后的端侧范式
云端万卡级集群解决了模型的能力上限和模型训练的效率,让AI走向大规模应用。
但是,如果每一次任务,都必须调用云端API,那么高昂的Token成本,以及数据持续上云带来的隐私风险,最终都会反过来限制C端AI的普及
这也正是“智能体(Agent)工厂”必须走向端侧、边缘侧的底层逻辑。
尽管现在市面上已经出现了很多“AI PC”和“AI 家庭设备”,但很多产品还是在传统PC架构上做局部改良。无非是在原有CPU 和操作系统体系里,加上一块小算力NPU,跑一些背景虚化、语音唤醒之类的轻量任务。
可一旦进入复杂的大模型推理、多模态理解、长上下文记忆,这些设备还是要把数据重新传回云端。也就是说,看起来是“端侧 AI”,实际核心能力依然跑在云端。
随之而来的问题,首先来自隐私。家庭照片、个人数据、企业代码,只要持续上传云端,数据安全就始终是个绕不过去的问题;其次是成本。所有能力都依赖云端推理,意味着每一次调用都在持续消耗Token,规模越大,成本压力越明显;再往后,就是体验问题。一旦网络波动,响应速度就会下降。
面对这一产业痛点,摩尔线程选择契合第一性原理,彻底抛弃“修补”逻辑,从底层SoC芯片和操作系统开始,重构端侧设备的物理形态。
摩尔线程最近发布的家庭AI中枢AICUBE,以及全面升级的AI算力本AIBOOK,就是这一理念的实体载体。两者的算力基座,是由摩尔线程自研的智能SoC芯片——“长江”。
![]()
“长江”采用“全大核CPU+全功能GPU+高能效NPU+统一高速内存”的异构计算架构,CPU负责通用任务,GPU承担图形渲染和并行计算,NPU处理高能效AI推理,统一内存则减少了不同计算单元之间的数据搬运。
统一内存值得重点强调,传统PC架构下,内存、显存相对独立,但运行大模型时,参数权重、中间结果和数据需要在CPU、GPU之间反复搬运,PCIe总线很容易成为瓶颈。这导致模型越大、上下文越长、任务链路就越复杂,延迟和卡顿越明显。对智能体而言,这种损耗会直接影响连续任务体验。
正因如此,“长江”配备了64GB LPDDR5X高速统一内存,带宽做到136GB/s。放到端侧大模型场景中,以一个100亿参数、FP16精度的模型为例,模型权重本身大约占20GB,再加上KV Cache、多模态输入缓存和智能体并发时各自的上下文,64GB的余量完全够用。136GB/s的带宽意味着,按当前主流7B到13B的端侧模型推算,对应的生成速度大约在每秒40~60Token,足够支撑流畅的对话和多Agent调度。
有了“长江”这块SoC打底,硬件性能进一步提升。但端侧设备最终能跑出多少有效性能,除了看硬件,还看操作系统能不能把硬件能力释放出来。这就不得不说摩尔线程推出的原生MTT AIOS操作系统(基于Linux深度定制)+ 自研Agent开源框架MTClaw。
![]()
![]()
摩尔线程为什么要新增一套基于Linux的原生操作系统?背后的原因有两个:
第一,Windows是为通用PC设计的系统,桌面环境、后台服务、各种兼容层加在一起,空载就要占掉相当一部分内存和算力。
第二,也是更关键的一点,AI开发者的工具链底层代码全部跑在Linux上。Windows要跑这些,要么靠WSL转译,要么靠各种兼容层,每多一层都是性能损耗和稳定性风险。一台主打AI的端侧设备,如果系统底座不是Linux,等于一开始就降低了自己的性能上限。
到这里,AICUBE和AIBOOK的底盘就讲清楚了,再来回看两款产品。
硬件由“长江”打底,系统由MTT AIOS承接,框架由MTClaw负责调度。这种“同构异用”的产品结构,其实也是端侧AI走向“平台化”的标志,毕竟这也是过去苹果在移动端验证的路径。
回到两款设备,先看AICUBE。
摩尔线程把AICUBE定位在“全域智能体+AI PC+AI NAS”三合一的角色,过去家庭场景里三种不同设备,现在被合并到硬件中。分别来看:
![]()
作为AI NAS,AICUBE标配1TB全闪存SSD,家庭照片、视频、办公文档全部本地存储;作为家庭大脑,搭载的全域智能体“小麦”集成了90 余项CLI 系统工具,预装 60 余项技能(Skills),支持超36款APP跨应用控制。
作为AI PC和娱乐中枢,依托“长江”SoC的50 TOPS算力全功能GPU,AICUBE能声控点播高清电影并做实时视频超分修复,也支持安卓容器环境,可以流畅运行《王者荣耀》《原神》等高画质手游。
坦白讲,过去十年,语音助手始终没能真正走进日常生活,原因就是“能听懂,调不动工具”,也就是端侧算力和系统协同能力不够。
因为,一个可用的家庭智能体,需要在本地完成“意图理解—任务拆解—应用调用—内容生成”整条链路。过去的端侧硬件,根本撑不起这样的实时闭环,一旦涉及跨应用协同、多步骤任务执行,系统就会失灵。
而AICUBE的价值,就在于它把端侧的闭环跑通了,让家庭智能体具备执行复杂任务的能力。
相比AICUBE偏向家庭智能中枢,AIBOOK的定位是专业生产力用户与开发者。AIBOOK核心优势之一,是支持本地同时运行12个以上独立智能体。再配合“五屏智联”技术,单机可扩展四台外接显示器、多屏独立桌面、跨屏拖拽联动。
而这对应的场景是最近两年正在快速成形的一种新商业范式:OPC(One Person Company,一人公司)。
所谓OPC,是AI Agent开始重构生产范式之后,创业模式发生的变化。过去,一个完整业务流程往往需要产品、运营、市场、研发、客服等多个岗位协同;但现在,越来越多超小型团队,甚至单人创业者,开始借助AI Agent,把原本需要十几个人才能运转的工作流,压缩成“一个人 + 一套AI系统”就能完成。
这是继SaaS之后,B端生产工具颠覆性的一次范式迁移。
但问题在于,这套模式在此前始终缺少可落地的硬件基础。
因为,OPC长期面临两个瓶颈:
第一,多Agent如果全部跑在云端API上,Token成本会非常高,每增加一个数字员工,都会成倍消耗Token,单人创业者很难长期负担一支“AI员工团队”的成本。
第二,如果尝试本地化运行,端侧硬件又无法支撑十几个Agent同时调度。CPU、GPU、内存带宽很快触顶。
然而,在AIBOOK上,一个创业者可以在完全离线、商业数据不外泄的环境里,本地同时拉起由AI驱动的“CEO”“市场分析师”“资深程序员”“产品经理”等多个数字员工。不同智能体基于MTClaw框架协同分工、并行运行、互不干扰。
至此,摩尔线程的硬件矩阵,在“云—边—端”这条AI基础设施链路上,完成了闭环。
03 跨越Sim-to-Real,“算、渲、仿”一体化底座
云端和边缘端解决的是数字世界里的问题。而AI的下一阶段,正在从数字世界走向物理世界——具身智能(Embodied AI)开始成为新的主战场。
但问题也随之而来。
相比数字世界,物理世界最大的难点在于真实环境无法被穷举。机器人、自动驾驶、工业智能体,不仅要“理解”世界,还要进入现实环境中行动。但如今,整个行业,都卡在Sim-to-Real这道“从仿真到现实”的鸿沟之上。
为什么仿真如此重要?因为真实世界的数据稀缺、采集太慢太贵,也有风险。具身智能想要进化,必须依赖虚拟世界的大规模合成数据。
“我们不可能拿机器人或者机器狗来回摔跟头。”张建中如是说。
但现实的痛点在于,市面上许多专用的AI加速卡虽然单芯片算力强劲,却无法将AI计算、图形渲染和物理仿真放在同一颗芯片里协同完成。而这方面,摩尔线程从一开始就推出了“全功能GPU + 统一MUSA 架构”。
摩尔线程将AI计算、图形渲染、物理仿真、超高清视频编解码四大引擎,统一封装在了同一套架构之下。这意味着,物理解算、画面渲染和模型训练,可以直接在同一份显存里闭环完成,数据无需在不同芯片之间来回搬运。这种能力被称为“零拷贝”(Zero Copy),这也恰恰是传统单一AI加速卡难以企及的优势。
基于这套统一架构,摩尔线程推出了首个全栈国产化具身智能仿真平台——MT Lambda。该平台由下至上可以拆解为三大核心层。
![]()
第一层:物理引擎。 摩尔线程开源了MuJoCo Warp MUSA,将全球工业界和学术界广泛使用的物理仿真引擎MuJoCo,成功搬到了国产GPU上。借助该引擎,四足机器狗训练任务的仿真吞吐量比CPU方案提升了40倍;在宇树G1人形机器人的动作跟踪任务中,单卡仅需4.8天即可完成模仿学习的收敛。
第二层:渲染引擎。 MT Lambda搭载了MT Photon光子引擎,并引入荣获SIGGRAPH Asia奖项的3DGS技术,打通了光线追踪与AI生成式渲染的壁垒。
第三层:AI引擎。 摩尔线程联合智源研究院,成功跑通了具身大脑模型RoboBrain 2.5的端到端训练,其关键指标与海外旗舰GPU训练出的模型偏差小于0.62%。
在发布会现场的Live Demo中,这套系统的价值得到了直观的展现。一只搭载E300模组的机器狗,在收到IM软件发来的一句自然语言指令后,OpenClaw Agent自动拆解任务,机器狗随即实现自主导航、执行动作,甚至连续完成了几个完美的后空翻。
最令人惊叹的是,这套运动策略完全是在虚拟仿真环境中训练出来的,迁移到真机上几乎无需重新调参
04 写在最后:用AI进化AI,摩尔线程拿出国产算力的“全栈底牌”
除了硬件层面的破局,摩尔线程MUSA生态展现出的“自我演进”能力同样令人震撼。
依托大模型Agent的“零干预”能力,MUSACODE与Automusify工具不仅实现了业界Top 100开源仓库的100%自动迁移,更由AI智能体自动编写并交付了超过万个底层算子,让部分核心性能暴增60%。
“摩尔线程正在‘用AI进化AI’。”张建中强调,AI正形成自我增强的闭环。
而这种可自进化的形态,与“全功能GPU”的统一架构相结合,摩尔线程彻底完成了从“追赶者”、“备选方案”向智能算力“定义者”的自信转身。
在看完摩尔线程这场“云-边-端”的“全栈阅兵”后,我有一个很明显的体感:过去几年,国产算力的底层逻辑一直在“替代”的逻辑里。默认前提是,只能巨头后面,努力补齐生态,做一张“能用”的平替卡。
但摩尔线程这套打法,并没有沿着巨头的路径追赶,而是在重新定义战场。
更深层来看,背后其实对应着三个关键判断:
第一,AI竞争的核心,正在从“训练算力堆叠”转向“推理成本压缩”。
大模型进入下半场后,决定产业落地速度的,不再只是训练能力,而是推理成本。无论是云端夸娥集群把微短剧生成成本压到500元以内,还是端侧“长江”SoC支撑本地Agent矩阵,本质上都在降低AI使用门槛,实现算力平权。
只有当推理成本持续下降,AI才会从少数大厂的“技术秀场”,变成企业和个人都能用得起的生产力工具。
第二,回归“全功能GPU”。
过去几年,很多AI芯片公司选择砍掉图形能力,专注做纯AI加速卡。但随着多模态、3D生成和具身智能兴起,纯AI芯片又很难支撑物理仿真、3D渲染,以及Sim-to-Real闭环。
而摩尔线程从一开始坚持“全功能GPU(算力+渲染+仿真+编解码)”,虽然更难但今天反而成了关键优势。因为下一代AI,不只存在于数字世界,还会进入机器人、自动驾驶和物理环境。谁能统一底层算力,谁就更有机会拿到未来十年的入场券。
第三,用“同构异用”打通云、边、端。
摩尔线程的MUSA架构,让云端集群、家庭AI中枢、个人AI设备共享同一套底层算力支撑。模型可以从云端无损下发到端侧,端侧Agent也能复用同样的算子和工具链。更通过“用AI进化AI”的方式,自动迁移代码、生成算子,用AI生产力加速软件生态建设。
全功能GPU、MUSA、夸娥、长江、全域Agent,全栈底牌一张张摊开时,我们骤然发现,“牌桌”已然焕新。
而新的牌局,才刚刚开始!