Agent会协作还会决策？我对Mavis的技术实现很好奇

网易专栏6天前发布 nxnqh

11 0 0

发布时间：2026-05-17 15:51:57

#AI | #Mavis

来源：网易专栏作者：AI异类
🔗 查看原文

🤖 AI总结

主题

MiniMax发布多Agent协作系统Mavis，通过Leader-Worker-Verifier分权制衡架构解决长任务可靠性问题。

摘要

MiniMax的Mavis通过分权制衡的多Agent架构，实现长任务自动执行与质量闭环，提升交付可靠性。

关键信息

1 Mavis采用Leader-Worker-Verifier三权分立架构，实现Agent间对抗式质量验收。
2 系统通过代码状态机驱动，支持任务拆解、并行执行和可追溯的迭代流程。
3 对比Manus和CrewAI，Mavis的对抗式质检机制更适应多样化任务，成本可控。

Agent会协作还会决策？我对Mavis的技术实现很好奇

前段时间一直在研究Claude Code的Agent Team，直到他们把我给封了……

说来气人，用CC这么久了，时而还是出一些账号层面的bug，让人代码写到一半，一口老血噎在那里，真难受啊。

最近网上关于Agent Teams的声音不少，很多人觉得多Agent就是写几个角色扮演的Prompt，然后让模型来回对话。

但是背后的技术含量，说实话不低，在之前，不管是国内还是国外，CC的替代品，不好找。

更新了最近版本的MiniMax家的Agent，Jarvis一样的超级助手，叫Mavis。

用起来，别的不说，最近大部分的工作时间，不知不觉就花在上面了，好像一度忘了CC的存在。

而且很好玩，像在玩一个工作任务版的我的世界，在Mavis里，Leader、Worker、Verifier，三拨Agent在里面开会、分工、来回对账、互相验收。

像在玩一个大型的CEO指令游戏。

Agent产品，终于更接近一套完整的运行系统了。

Agent会协作还会决策？我对Mavis的技术实现很好奇

01谁当选手谁当裁判，这事在架构上就不成立

很多人其实没意识到，单Agent的根本瓶颈不是模型不够强，是它一个人又当选手又裁判这件事，本身就是个悖论。

给一个Agent一个长任务，比如让它写一份市场调研报告。

它要自己拆解自己要查什么资料，自己写出来自己看对不对，写错了自己检查自己改。

这不光是个能力问题，是个权力分离的问题。就像你不能同时是命题人又是考生，结果自己考了个满分，拿出去谁都不认。

MiniMax这次提出来的Teams架构，核心就是引入分权制衡。

一个团队里，Leader负责拆任务，Worker负责干活，Verifier负责验收。

这三类角色的目标函数是互逆的：Worker只管把东西做出来，Verifier只管挑毛病，两边的目标天然对抗。

Agent会协作还会决策？我对Mavis的技术实现很好奇

这种对抗关系挺有意思。

它不是那种硬编码的规则校验，是让两个Agent站在不同的立场上博弈。

Verifier挑出来的毛病，Worker必须吸收后重新做，双方来回几次，直到Verifier认为合格为止。

这套机制跑起来之后，最后交付的东西可靠性比单Agent高了太多。

具体来说，这套Team Engine采用的是代码状态机驱动，不是依赖Prompt编排。

在Mavis内部，Leader收到用户指令后，会自动拆解成可并行执行的子任务清单，Team Engine按照依赖关系调度Worker执行，Worker每完成一个交付物，Verifier立刻介入验收。

验收不通过怎么办？Worker自动被驳回重做，不通过就继续迭代，直到通过为止。

整个过程有状态记录，每一步是谁做的、谁验收的、验收结论是什么，全部可追溯。

这跟那些所谓的Prompt层多Agent不一样。

Prompt层的话，你只看到了几个角色在对话，但没有系统在背后管任务进度、管谁卡住了怎么办、管谁做完了谁接棒、管失败了怎么处理。

写几个角色扮演的Prompt确实也能让模型模拟对话，但那不是真正的多Agent协作，那只是让一个模型换不同语气说话。

Mavis把这件事做成了一个完整的运行时系统，有专门的角色分工，有状态机驱动，有三权分立的质量门禁。

简单来说，这套Harness 的优点就是，把 Agent 的运行绑定到确定性可观测的外部系统，而不是依赖模型自己判断什么时候该重试、停止或者交接。

Agent会协作还会决策？我对Mavis的技术实现很好奇

其实看看行业动向就知道了。

OpenAI去年还拿Swarm当玩具让大家玩，今年3月就把它升级成Agents SDK，加进去的东西恰好就是Guardrails、Tracing、Sandboxing这些基础设施能力。

AWS在re:Invent上宣布了Amazon Bedrock的多Agent编排功能，反复强调Supervisor Agent怎么协调子Agent、怎么共享上下文、怎么做任务路由。

还有Google，也在Cloud Next 2026把Vertex AI整个包装成Gemini Enterprise Agent Platform，核心卖点也不是模型多强，额外强调了Agent Designer、Agent Engine Sessions这些基础设施工具。

大厂的信号很明确：做多Agent系统的重心已经从prompt和context，转向怎么建好这套基础设施。

谁跑得快谁就占先手，谁跑得慢后面就得补大量的工程债。

说白了，真正的多Agent系统是一个Runtime，不是一套Prompt编排。

02Worker和Verifier天天互相PUA，效率反而上来了

前面提到Verifier和Worker的对抗机制。这个东西听起来有点反直觉。本来工就是工、验就是验，同一个模型做这两件事怎么会站在对立面?

原因就在于Mavis把Worker和Verifier的上下文完全隔离了。Worker只知道自己要干的事情和自己以前的执行记录，Verifier只知道验收标准、质检规则和历史验收数据。两边看不到对方的完整上下文，只能通过结构化的摘要信息来回通信。这种上下文隔离的设计，就是为了让两端的目标真正产生张力。

最直观的例子来自网上一个比较火的测试。

有人让Mavis做一个复杂的HTML专题页，只有一句目标描述，没有任何分步骤指令。

收到的交付物是一个星尘背景加粒子动效的交互页面，完整自述了Agent Team的工作流程，还贴心地附了下载链接。而侧边栏里，Verifier足足跑了一整套验收流程：从事实准确性到代码可运行性，从页面可读性到体验一致性，逐项打分、逐条提修改意见。

你看，一个Worker负责内容创作、设计、前端开发，一个Verifier专职挑刺，Leader在中间协调。做完一个版本，Verifier驳回，Worker重做，再验收再驳回，几个来回之后交出一个双方都没得说的最终版。

这不就是最理想的软件工程交付流程吗?

Agent会协作还会决策？我对Mavis的技术实现很好奇

有人把这种配合调侃为互相对着PUA。话糙理不糙，这种对抗机制确实把一个模型自我审视的弱项，转化成了两个模型互相制衡的强项。

Worker不会因为面子问题坚持自己的错方案，Verifier不会因为偷懒降低验收标准，双方在系统约束下完成了高质量博弈。

这正好反了所谓AI自检的那套叙事。很多人都幻想过让AI自己检查自己的错误。但问题在于，同一个模型看自己写的东西，逻辑上就是局限的。

让同一个大脑既做方案又复盘，自己看的永远是自己习惯的角度，盲区永远是盲区。但是让两个目标互逆的模型独立运作，一个只管往前冲，一个只管挑刺，这就有本质区别了。

这种协作模式在整个行业里也处于领先位置。跟我测试过的Manus和CrewAI对比，Mavis的对抗式质检机制是目前最到位的。Manus本身架构和质检细节未完全公开，但测试下来调度透明度偏低，对抗色彩不够强。

CrewAI依赖Guardrails规则和Pydantic输出校验来做质量保障，用预定义的规则和类型校验来保证输出格式正确，但这种方式的问题是只能拦截已知类型的错误，遇到没见过的场景就偏了。

而Mavis用Verifier这个独立Agent做动态验收，不依赖预定义规则，能适应更多样的任务类型，只不过引入额外Agent意味着要多跑一次推理，算力成本要稍微高一点。

再说成本。很多人担心多Agent协作会不会把Token消耗拖爆。

MiniMax在技术文章中坦承过，多Agent协作确实会引入新的交接成本、共享成本和聚合成本。但你仔细算:对于过去那种30分钟打一堆继续的长任务，单Agent要来回切上下文，每一次暂停都是在消耗算力。

多Agent模式虽然开头花得多，但换来的是一个确定性的结果，没结果的成本才是最高的，你已经花了钱但没有拿到可用的东西。

用控制论的视角理解这个闭环更清爽:Worker是正向执行，目标是尽可能完成任务;Verifier是负向反馈，目标是尽可能找出差距。两者不是一个流水线的上下游关系，而是一个闭环的稳态逼近过程。

通过这个闭环，系统可以自己收敛到满足验收标准的交付物，不需要用户在半路打断做判断。

没有结构、没有验证、没有停止条件的多Agent，只是把单一模型的不确定性并行扩散了。而在Mavis的Engine约束下，不确定性是在收敛的。

03更自动化的体验感受

说完架构，说点实在的。Mavis拿在手里用起来怎么样。

开箱体验很顺。官网下载安装包，直接点开就行。

Agent会协作还会决策？我对Mavis的技术实现很好奇

搜索MiniMax Agent官网，下载桌面端应用，安装登录之后，在界面里选择Mavis模式启用多Agent协作工作流。

Agent会协作还会决策？我对Mavis的技术实现很好奇

对话框里能看到，自动开启了Team Plan模式。接下来用自然语言下达指令就行，不用写什么复杂的提示词。

Mavis会自动生成任务计划，确认计划后Team Engine就开始调度。你可以在侧边栏看到各个Agent之间的执行全过程和思考记录，Leader分拆了什么任务、Worker在做什么、Verifier验收了什么，每一步都显示得很清楚。

跟市面上那些需要写代码配置的框架比起来，这个体验拉高了不少。

另一个让我比较舒服的变化是订阅体系。

之前TokenPlan和Agent Plan是分开两条线在走，API调用走TokenPlan，Agent对话走Agent Plan，两边额度不通。

这次合并之后一份订阅能同时用在CLI、API、Agent三个端口。M2.7、音乐模型、视频模型、语音模型、图像模型全都能用，Credits额度在Agent和API之间共享。如果之前同时订了两个套餐的用户，官方还额外送一个月会员。

Agent会协作还会决策？我对Mavis的技术实现很好奇

最后还有一个隐形的工程化亮点是IM异步执行的支撑能力。

一般长任务在AI身上跑的时候，用户往往只能干等着，要么眼睁睁看它转圈没有反馈。而Mavis的设计很巧妙，即时响应和后台执行是分离的。

用户扔一个长任务，Mavis先在IM界面秒回确认收到，然后后台启动整个Agent Team的执行流程。

每一个关键节点：Leader拆解完成、Worker阶段性产出、Verifier验收通过。

Mavis都会主动回来汇报进度，就像真人助理在执行过程中定期给你汇报一样。

这种同步异步混合的工程化方案，把真实协作场景里最让人头疼的问题一次性解决了。

04让AI像真人一样组队干活

思考了这么多关于多Agent系统的东西之后，我越来越觉得，行业对Agent的想象可能局限了。

很多人希望AI是一个超级助手，什么都能干、什么都干得最好。

用单Agent的思路能持续投入算力训练更大的模型，但这种策略的天花板其实已经能看到了。

从行业发展趋势来看，多智能体系统已经不仅仅是方向选择了，它正在成为解决长程复杂任务的必需品。

企业内部一个简单的业务目标往往包含跨系统跨数据源的调用链，需要智能体具备跨领域协作能力。

产业调研表明超过50%的企业将在2026年之前部署AI智能体来自动化复杂多环节的工作流，而AI Agent的核心瓶颈已经不再是模型规模，而是架构层面的任务规划、跨智能体协作和过程追溯能力。

Mavis这次更新，技术上，很扎实。

它用Leader Worker Verifier的角色分工，把过去长任务里那些让用户头疼的操作变成了后台自动消化的事情。

IM场景里发一条消息不用再担心卡住，Coding场景里执行多步骤任务不用再一直点继续，行业调研和办公文档场景里质量管控不再依赖人工逐段审阅。做出来的东西可以直接拿去用，交付靠谱。

丢一个任务让Agent Team自己折腾，然后安心去午睡。

醒来发现工作已经做完了。这种感觉，说实话，挺爽。

网易专栏 # AI # Mavis

文章版权归作者所有，未经允许请勿转载。

Agent会协作还会决策？我对Mavis的技术实现很好奇

🤖 AI总结

主题

摘要

关键信息

龙虾之父月烧940万元的token！要不是入职OpenAI还真用不起

Agent、多模态、应用、算力一天看尽，峰会亮点在此｜5.20日

相关文章

GPT-5.5 来了，但这次 OpenAI 想证明的不只是「更聪明」

openclaw v2026.4.21 更新：图像生成、权限安全、插件修复、Slack 线程、浏览器与 npm 安装全面优化

顺丰邮政仓库干活的机器人，顺手拿了个具身高考第一

redis 8.6.2 发布：流 IDMP、命令处理、模块配置全修复，稳定性大幅提升