摩尔线程“云、边、端”全栈“阅兵”，国产算力开启“新牌局”

网易专栏2天前发布 nxnqh

3 0 0

发布时间：2026-05-20 22:14:18

#AI | #摩尔线程

来源：网易专栏作者：至顶头条
🔗 查看原文

🤖 AI总结

主题

摩尔线程发布全栈AI智算产品矩阵

摘要

摩尔线程发布夸娥集群、AICUBE等全栈产品，以全功能GPU降低推理成本，打通云边端，实现从训练到具身智能的国产算力闭环。

关键信息

1 摩尔线程推出夸娥万卡集群、AICUBE/AIBOOK终端设备及MT Lambda仿真平台
2 核心在于通过全功能GPU和统一MUSA架构降低推理成本、打通云边端
3 实现从模型训练到具身智能的全链路国产算力闭环

作者：毛烁

摩尔线程“云、边、端”全栈“阅兵”，国产算力开启“新牌局”

最近，国内大模型公司的技术负责人最不愿意聊的话题，或许就是“Token”。

过去一年，大模型公司最常被问到的问题是缺不缺卡。今年再聊，缺卡已经不是重点了。

随着模型参数量迈向万亿乃至十万亿级，日均Token消耗量动辄突破百万亿，算力竞争的底层逻辑正在发生变化。系统级工程能力、推理成本控制能力，以及AI进入物理世界、走向具身智能之后，底层架构能否支撑数字仿真与现实交互的统一，成为新一轮竞争的核心变量。

5月18日，摩尔线程创始人兼CEO张建中给出了一个颇具穿透力的判断。他将当下AI产业拆解为“三大工厂”：产出大模型的“模型训练工厂”、聚焦推理服务的“Token生产工厂”，以及服务日常工作和生活的“智能体（Agent）生产工厂”。

摩尔线程“云、边、端”全栈“阅兵”，国产算力开启“新牌局”

摩尔线程创始人兼CEO 张建中

基于这一判断，摩尔线程构建了以“全功能GPU（Universal GPU）”为核心的全栈智算矩阵。

01 堆卡易，成阵难，“夸娥”万卡级集群攻克工程化难题

谈算力，绕不开大模型训练。如今，国内大模型公司几乎都陷入了迭代周期的焦虑。

两三年前，一个大版本更新往往还能按年度推进，后来变成8个月、6个月，而现在，越来越多团队开始把目标定在“一个月一次checkpoint”。有的公司甚至要求，竞品模型一发布，内部训练体系必须在几天内完成评估、复现、蒸馏和对标。

在这种节奏下，算力集群就必须7×24 持续运转，不能停机，不能掉速，更不能在关键训练阶段出现大规模通信抖动。因为一旦训练中断，不但GPU利用率会降低，更会拖慢整个版本的节奏。

产业界一直有句心照不宣的话——“堆卡易，成阵难”。

其实，大模型训练并不是把几万张GPU插进机柜、连上网络那么简单。它更像是一台持续高速运转的精密工业设备。然而，是设备就会出故障，集群中任何一个节点的显存溢出、网络拥塞，乃至微小的过热掉线，都会让整个训练任务中断，导致梯度异常、数据回滚，甚至让数周训练成果直接作废。

而且，集群规模越大，系统反而越脆弱。

在海外，即便是头部玩家，万卡级预训练集群也很难做到“绝对稳定”。此前Meta公开的Llama 3训练日志里就提到，训练过程中故障率最高的部件，恰恰是GPU本身和高速互联组件。原因是，硬件密度越高、通信规模越大，整个系统里的不确定性就会被指数级放大。一次链路抖动、交换机异常，就会触发负面的连锁反应。

这也是大模型基础设施领域的一个工程规律，越先进的集群，往往越难稳定。

其实，很多集群真正进入高强度预训练阶段后，问题才开始集中暴露。有的网络拓扑撑不起高强度AllReduce，有的散热系统压不住长期满载功耗，还有的在数千卡同步训练时频繁出现节点失联。最终，不少集群只能去做SFT微调、推理托管，或者中小规模实验，真正的大规模预训练反而跑不起来。

然而，摩尔线程推出的“夸娥（KUAE）”万卡级智算集群，瞄准的正是这一工程难题。

先从底层计算单元来看，夸娥万卡级智算集群的核心计算单元是“MTT S5000智算卡”，单卡稠密AI算力可达1000 TFLOPS，配备80GB显存，显存带宽达到1.6TB/s，卡间互联带宽达约800GB/s，并支持从FP8到FP64的全精度计算。

FP8精度的支持，是MTT S5000面向新一代大模型训练的重要抓手。随着MoE、长上下文和高并发推理成为主流，系统瓶颈越来越多地出现在显存容量、显存带宽和集群通信上。FP8通过降低数据位宽，减少显存占用和数据搬运压力，在训练和推理中都能提升吞吐效率。到了万卡规模，底层数据效率的提升会被进一步放大，直接影响训练周期和推理成本。

摩尔线程“云、边、端”全栈“阅兵”，国产算力开启“新牌局”

再来看集群，搭载MTT S5000的夸娥万卡级智算集群，浮点运算能力达到了10 Exa-FLOPS，Dense大模型训练MFU达到60%，MoE大模型训练MFU达到40%，训练线性扩展效率达到95%。

摩尔线程“云、边、端”全栈“阅兵”，国产算力开启“新牌局”

需要解释一下，MFU衡量的是理论算力中有多少真正转化为有效训练计算。这个指标越高，说明芯片互联、通信调度、并行框架和算子优化越成熟。对模型公司而言，训练效率提升，意味着训练任务缩短，模型的迭代节奏会明显提升。

稳定性，是万卡训练能不能真正进入生产环节的关键。所以，摩尔线程在夸娥集群中引入“KUAE零中断容错技术”,当硬件故障发生时，系统不必让整个训练任务停下来，只通过隔离受影响的节点组，其余节点继续训练，并通过备机接入维持任务运行。

这对长周期预训练来说，这类机制的价值在于减少大规模checkpoint回滚，把故障带来的算力浪费降到更低。

即便模型完成了训练，成本压力也并不会消失。目前，大模型推理需求正在快速放大。早期业内对日均Token消耗量的预测，在30万亿到180万亿之间，而现在，单个头部应用的日均Token消耗已经突破120 万亿。

这意味着，大模型真正接入业务系统之后，算力压力并不会停留在训练阶段，而是在推理阶段随着调用、对话、Agent 执行，被持续放大。

摩尔线程展示的AIGC微短剧流水线，就是很典型的推理成本样本。基于夸娥集群，以及自研语音生成引擎，该系统可以完成剧本、配音、视频等多个环节的自动生成。一部约2分钟的短片，整体算力成本在500元以内，生成耗时约30小时。

其实，一条AIGC短片从剧本、分镜、语音到视频生成，往往需要多个模型连续调用。链路越长，Token消耗越大，对显存、带宽、调度和算子效率的要求也越高。过去这类内容很难规模化生产，原因就在于其每一次生成背后的推理成本过高。

而摩尔线程把一部约2分钟短片的算力成本压到500元以内，说明推理侧已经具备了支撑复杂内容生产的成本空间。成本降下来后，短剧、广告、个性化视频这些受成本制约的场景，便能走向“批量生产”。

这背后，在于其将软硬件一起打通。推理框架、关键算子效率、显存和带宽，都会影响最终成本。这也是为什么摩尔线程持续推进MUSA软件栈，适配vLLM、SGLang，并完善TileLang-MUSA、FlashAttention等算子生态，目的就是在把GPU接进真实的推理生产线。

这样一来，开发者就不用再围绕底层硬件反复修改代码，应用方也不必关心API背后是哪种GPU在跑。

走到这一步，其实也不难看出来，摩尔线程想要证明的是，国产GPU不只可以作为替代选项出现，也可以成为大模型公司控制推理成本的一项基础工具。

02 从“第一性原理”出发，AICUBE与AIBOOK背后的端侧范式

云端万卡级集群解决了模型的能力上限和模型训练的效率，让AI走向大规模应用。

但是，如果每一次任务，都必须调用云端API，那么高昂的Token成本，以及数据持续上云带来的隐私风险，最终都会反过来限制C端AI的普及

这也正是“智能体（Agent）工厂”必须走向端侧、边缘侧的底层逻辑。

尽管现在市面上已经出现了很多“AI PC”和“AI 家庭设备”，但很多产品还是在传统PC架构上做局部改良。无非是在原有CPU 和操作系统体系里，加上一块小算力NPU，跑一些背景虚化、语音唤醒之类的轻量任务。

可一旦进入复杂的大模型推理、多模态理解、长上下文记忆，这些设备还是要把数据重新传回云端。也就是说，看起来是“端侧 AI”，实际核心能力依然跑在云端。

随之而来的问题，首先来自隐私。家庭照片、个人数据、企业代码，只要持续上传云端，数据安全就始终是个绕不过去的问题；其次是成本。所有能力都依赖云端推理，意味着每一次调用都在持续消耗Token，规模越大，成本压力越明显；再往后，就是体验问题。一旦网络波动，响应速度就会下降。

面对这一产业痛点，摩尔线程选择契合第一性原理，彻底抛弃“修补”逻辑，从底层SoC芯片和操作系统开始，重构端侧设备的物理形态。

摩尔线程最近发布的家庭AI中枢AICUBE，以及全面升级的AI算力本AIBOOK，就是这一理念的实体载体。两者的算力基座，是由摩尔线程自研的智能SoC芯片——“长江”。

摩尔线程“云、边、端”全栈“阅兵”，国产算力开启“新牌局”

“长江”采用“全大核CPU+全功能GPU+高能效NPU+统一高速内存”的异构计算架构，CPU负责通用任务，GPU承担图形渲染和并行计算，NPU处理高能效AI推理，统一内存则减少了不同计算单元之间的数据搬运。

统一内存值得重点强调，传统PC架构下，内存、显存相对独立，但运行大模型时，参数权重、中间结果和数据需要在CPU、GPU之间反复搬运，PCIe总线很容易成为瓶颈。这导致模型越大、上下文越长、任务链路就越复杂，延迟和卡顿越明显。对智能体而言，这种损耗会直接影响连续任务体验。

正因如此，“长江”配备了64GB LPDDR5X高速统一内存，带宽做到136GB/s。放到端侧大模型场景中，以一个100亿参数、FP16精度的模型为例，模型权重本身大约占20GB，再加上KV Cache、多模态输入缓存和智能体并发时各自的上下文，64GB的余量完全够用。136GB/s的带宽意味着，按当前主流7B到13B的端侧模型推算，对应的生成速度大约在每秒40～60Token，足够支撑流畅的对话和多Agent调度。

有了“长江”这块SoC打底，硬件性能进一步提升。但端侧设备最终能跑出多少有效性能，除了看硬件，还看操作系统能不能把硬件能力释放出来。这就不得不说摩尔线程推出的原生MTT AIOS操作系统（基于Linux深度定制）+ 自研Agent开源框架MTClaw。

摩尔线程“云、边、端”全栈“阅兵”，国产算力开启“新牌局”

摩尔线程为什么要新增一套基于Linux的原生操作系统？背后的原因有两个：

第一，Windows是为通用PC设计的系统，桌面环境、后台服务、各种兼容层加在一起，空载就要占掉相当一部分内存和算力。

第二，也是更关键的一点，AI开发者的工具链底层代码全部跑在Linux上。Windows要跑这些，要么靠WSL转译，要么靠各种兼容层，每多一层都是性能损耗和稳定性风险。一台主打AI的端侧设备，如果系统底座不是Linux，等于一开始就降低了自己的性能上限。

到这里，AICUBE和AIBOOK的底盘就讲清楚了，再来回看两款产品。

硬件由“长江”打底，系统由MTT AIOS承接，框架由MTClaw负责调度。这种“同构异用”的产品结构，其实也是端侧AI走向“平台化”的标志，毕竟这也是过去苹果在移动端验证的路径。

回到两款设备，先看AICUBE。

摩尔线程把AICUBE定位在“全域智能体+AI PC+AI NAS”三合一的角色，过去家庭场景里三种不同设备，现在被合并到硬件中。分别来看：

摩尔线程“云、边、端”全栈“阅兵”，国产算力开启“新牌局”

作为AI NAS，AICUBE标配1TB全闪存SSD，家庭照片、视频、办公文档全部本地存储；作为家庭大脑，搭载的全域智能体“小麦”集成了90 余项CLI 系统工具，预装 60 余项技能(Skills)，支持超36款APP跨应用控制。

作为AI PC和娱乐中枢，依托“长江”SoC的50 TOPS算力全功能GPU，AICUBE能声控点播高清电影并做实时视频超分修复，也支持安卓容器环境，可以流畅运行《王者荣耀》《原神》等高画质手游。

坦白讲，过去十年，语音助手始终没能真正走进日常生活，原因就是“能听懂，调不动工具”，也就是端侧算力和系统协同能力不够。

因为，一个可用的家庭智能体，需要在本地完成“意图理解—任务拆解—应用调用—内容生成”整条链路。过去的端侧硬件，根本撑不起这样的实时闭环，一旦涉及跨应用协同、多步骤任务执行，系统就会失灵。

而AICUBE的价值，就在于它把端侧的闭环跑通了，让家庭智能体具备执行复杂任务的能力。

相比AICUBE偏向家庭智能中枢，AIBOOK的定位是专业生产力用户与开发者。AIBOOK核心优势之一，是支持本地同时运行12个以上独立智能体。再配合“五屏智联”技术，单机可扩展四台外接显示器、多屏独立桌面、跨屏拖拽联动。

而这对应的场景是最近两年正在快速成形的一种新商业范式：OPC（One Person Company，一人公司）。

所谓OPC，是AI Agent开始重构生产范式之后，创业模式发生的变化。过去，一个完整业务流程往往需要产品、运营、市场、研发、客服等多个岗位协同；但现在，越来越多超小型团队，甚至单人创业者，开始借助AI Agent，把原本需要十几个人才能运转的工作流，压缩成“一个人 + 一套AI系统”就能完成。

这是继SaaS之后，B端生产工具颠覆性的一次范式迁移。

但问题在于，这套模式在此前始终缺少可落地的硬件基础。

因为，OPC长期面临两个瓶颈：

第一，多Agent如果全部跑在云端API上，Token成本会非常高，每增加一个数字员工，都会成倍消耗Token，单人创业者很难长期负担一支“AI员工团队”的成本。

第二，如果尝试本地化运行，端侧硬件又无法支撑十几个Agent同时调度。CPU、GPU、内存带宽很快触顶。

然而，在AIBOOK上，一个创业者可以在完全离线、商业数据不外泄的环境里，本地同时拉起由AI驱动的“CEO”“市场分析师”“资深程序员”“产品经理”等多个数字员工。不同智能体基于MTClaw框架协同分工、并行运行、互不干扰。

至此，摩尔线程的硬件矩阵，在“云—边—端”这条AI基础设施链路上，完成了闭环。

03 跨越Sim-to-Real，“算、渲、仿”一体化底座

云端和边缘端解决的是数字世界里的问题。而AI的下一阶段，正在从数字世界走向物理世界——具身智能（Embodied AI）开始成为新的主战场。

但问题也随之而来。

相比数字世界，物理世界最大的难点在于真实环境无法被穷举。机器人、自动驾驶、工业智能体，不仅要“理解”世界，还要进入现实环境中行动。但如今，整个行业，都卡在Sim-to-Real这道“从仿真到现实”的鸿沟之上。

为什么仿真如此重要？因为真实世界的数据稀缺、采集太慢太贵，也有风险。具身智能想要进化，必须依赖虚拟世界的大规模合成数据。

“我们不可能拿机器人或者机器狗来回摔跟头。”张建中如是说。

但现实的痛点在于，市面上许多专用的AI加速卡虽然单芯片算力强劲，却无法将AI计算、图形渲染和物理仿真放在同一颗芯片里协同完成。而这方面，摩尔线程从一开始就推出了“全功能GPU + 统一MUSA 架构”。

摩尔线程将AI计算、图形渲染、物理仿真、超高清视频编解码四大引擎，统一封装在了同一套架构之下。这意味着，物理解算、画面渲染和模型训练，可以直接在同一份显存里闭环完成，数据无需在不同芯片之间来回搬运。这种能力被称为“零拷贝”（Zero Copy），这也恰恰是传统单一AI加速卡难以企及的优势。

基于这套统一架构，摩尔线程推出了首个全栈国产化具身智能仿真平台——MT Lambda。该平台由下至上可以拆解为三大核心层。

摩尔线程“云、边、端”全栈“阅兵”，国产算力开启“新牌局”

第一层：物理引擎。摩尔线程开源了MuJoCo Warp MUSA，将全球工业界和学术界广泛使用的物理仿真引擎MuJoCo，成功搬到了国产GPU上。借助该引擎，四足机器狗训练任务的仿真吞吐量比CPU方案提升了40倍；在宇树G1人形机器人的动作跟踪任务中，单卡仅需4.8天即可完成模仿学习的收敛。

第二层：渲染引擎。 MT Lambda搭载了MT Photon光子引擎，并引入荣获SIGGRAPH Asia奖项的3DGS技术，打通了光线追踪与AI生成式渲染的壁垒。

第三层：AI引擎。摩尔线程联合智源研究院，成功跑通了具身大脑模型RoboBrain 2.5的端到端训练，其关键指标与海外旗舰GPU训练出的模型偏差小于0.62%。

在发布会现场的Live Demo中，这套系统的价值得到了直观的展现。一只搭载E300模组的机器狗，在收到IM软件发来的一句自然语言指令后，OpenClaw Agent自动拆解任务，机器狗随即实现自主导航、执行动作，甚至连续完成了几个完美的后空翻。

最令人惊叹的是，这套运动策略完全是在虚拟仿真环境中训练出来的，迁移到真机上几乎无需重新调参

04 写在最后：用AI进化AI，摩尔线程拿出国产算力的“全栈底牌”

除了硬件层面的破局，摩尔线程MUSA生态展现出的“自我演进”能力同样令人震撼。

依托大模型Agent的“零干预”能力，MUSACODE与Automusify工具不仅实现了业界Top 100开源仓库的100%自动迁移，更由AI智能体自动编写并交付了超过万个底层算子，让部分核心性能暴增60%。

“摩尔线程正在‘用AI进化AI’。”张建中强调，AI正形成自我增强的闭环。

而这种可自进化的形态，与“全功能GPU”的统一架构相结合，摩尔线程彻底完成了从“追赶者”、“备选方案”向智能算力“定义者”的自信转身。

在看完摩尔线程这场“云-边-端”的“全栈阅兵”后，我有一个很明显的体感：过去几年，国产算力的底层逻辑一直在“替代”的逻辑里。默认前提是，只能巨头后面，努力补齐生态，做一张“能用”的平替卡。

但摩尔线程这套打法，并没有沿着巨头的路径追赶，而是在重新定义战场。

更深层来看，背后其实对应着三个关键判断：

第一，AI竞争的核心，正在从“训练算力堆叠”转向“推理成本压缩”。

大模型进入下半场后，决定产业落地速度的，不再只是训练能力，而是推理成本。无论是云端夸娥集群把微短剧生成成本压到500元以内，还是端侧“长江”SoC支撑本地Agent矩阵，本质上都在降低AI使用门槛，实现算力平权。

只有当推理成本持续下降，AI才会从少数大厂的“技术秀场”，变成企业和个人都能用得起的生产力工具。

第二，回归“全功能GPU”。

过去几年，很多AI芯片公司选择砍掉图形能力，专注做纯AI加速卡。但随着多模态、3D生成和具身智能兴起，纯AI芯片又很难支撑物理仿真、3D渲染，以及Sim-to-Real闭环。

而摩尔线程从一开始坚持“全功能GPU（算力+渲染+仿真+编解码）”，虽然更难但今天反而成了关键优势。因为下一代AI，不只存在于数字世界，还会进入机器人、自动驾驶和物理环境。谁能统一底层算力，谁就更有机会拿到未来十年的入场券。

第三，用“同构异用”打通云、边、端。

摩尔线程的MUSA架构，让云端集群、家庭AI中枢、个人AI设备共享同一套底层算力支撑。模型可以从云端无损下发到端侧，端侧Agent也能复用同样的算子和工具链。更通过“用AI进化AI”的方式，自动迁移代码、生成算子，用AI生产力加速软件生态建设。

全功能GPU、MUSA、夸娥、长江、全域Agent，全栈底牌一张张摊开时，我们骤然发现，“牌桌”已然焕新。

而新的牌局，才刚刚开始！

网易专栏 # AI # 摩尔线程

文章版权归作者所有，未经允许请勿转载。

摩尔线程“云、边、端”全栈“阅兵”，国产算力开启“新牌局”

🤖 AI总结

主题

摘要

关键信息

Nagel与Staubli Robotics达成合作，强化工厂自动化战略

沃尔沃如何为一辆两吨半重的移动装置开发软件

相关文章

FortiGate设备遭攻击者利用入侵网络并窃取服务账户凭证

ChatGPT Images 2.0 图像模型：文字生成能力大幅提升

GitHub高危RCE漏洞曝光，数百万代码仓库面临风险

Google推出iOS离线AI语音转写应用