🤖 AI总结
主题
MiniMax发布多Agent协作系统Mavis,通过Leader-Worker-Verifier分权制衡架构解决长任务可靠性问题。
摘要
MiniMax的Mavis通过分权制衡的多Agent架构,实现长任务自动执行与质量闭环,提升交付可靠性。
关键信息
- 1 Mavis采用Leader-Worker-Verifier三权分立架构,实现Agent间对抗式质量验收。
- 2 系统通过代码状态机驱动,支持任务拆解、并行执行和可追溯的迭代流程。
- 3 对比Manus和CrewAI,Mavis的对抗式质检机制更适应多样化任务,成本可控。
![]()
前段时间一直在研究Claude Code的Agent Team,直到他们把我给封了……
说来气人,用CC这么久了,时而还是出一些账号层面的bug,让人代码写到一半,一口老血噎在那里,真难受啊。
最近网上关于Agent Teams的声音不少,很多人觉得多Agent就是写几个角色扮演的Prompt,然后让模型来回对话。
但是背后的技术含量,说实话不低,在之前,不管是国内还是国外,CC的替代品,不好找。
更新了最近版本的MiniMax家的Agent,Jarvis一样的超级助手,叫Mavis。
用起来,别的不说,最近大部分的工作时间,不知不觉就花在上面了,好像一度忘了CC的存在。
而且很好玩,像在玩一个工作任务版的我的世界,在Mavis里,Leader、Worker、Verifier,三拨Agent在里面开会、分工、来回对账、互相验收。
像在玩一个大型的CEO指令游戏。
Agent产品,终于更接近一套完整的运行系统了。
![]()
01谁当选手谁当裁判,这事在架构上就不成立
很多人其实没意识到,单Agent的根本瓶颈不是模型不够强,是它一个人又当选手又裁判这件事,本身就是个悖论。
给一个Agent一个长任务,比如让它写一份市场调研报告。
它要自己拆解自己要查什么资料,自己写出来自己看对不对,写错了自己检查自己改。
这不光是个能力问题,是个权力分离的问题。就像你不能同时是命题人又是考生,结果自己考了个满分,拿出去谁都不认。
MiniMax这次提出来的Teams架构,核心就是引入分权制衡。
一个团队里,Leader负责拆任务,Worker负责干活,Verifier负责验收。
这三类角色的目标函数是互逆的:Worker只管把东西做出来,Verifier只管挑毛病,两边的目标天然对抗。
![]()
这种对抗关系挺有意思。
它不是那种硬编码的规则校验,是让两个Agent站在不同的立场上博弈。
Verifier挑出来的毛病,Worker必须吸收后重新做,双方来回几次,直到Verifier认为合格为止。
这套机制跑起来之后,最后交付的东西可靠性比单Agent高了太多。
具体来说,这套Team Engine采用的是代码状态机驱动,不是依赖Prompt编排。
在Mavis内部,Leader收到用户指令后,会自动拆解成可并行执行的子任务清单,Team Engine按照依赖关系调度Worker执行,Worker每完成一个交付物,Verifier立刻介入验收。
验收不通过怎么办?Worker自动被驳回重做,不通过就继续迭代,直到通过为止。
整个过程有状态记录,每一步是谁做的、谁验收的、验收结论是什么,全部可追溯。
这跟那些所谓的Prompt层多Agent不一样。
Prompt层的话,你只看到了几个角色在对话,但没有系统在背后管任务进度、管谁卡住了怎么办、管谁做完了谁接棒、管失败了怎么处理。
写几个角色扮演的Prompt确实也能让模型模拟对话,但那不是真正的多Agent协作,那只是让一个模型换不同语气说话。
Mavis把这件事做成了一个完整的运行时系统,有专门的角色分工,有状态机驱动,有三权分立的质量门禁。
简单来说,这套Harness 的优点就是,把 Agent 的运行绑定到确定性可观测的外部系统,而不是依赖模型自己判断什么时候该重试、停止或者交接。
![]()
其实看看行业动向就知道了。
OpenAI去年还拿Swarm当玩具让大家玩,今年3月就把它升级成Agents SDK,加进去的东西恰好就是Guardrails、Tracing、Sandboxing这些基础设施能力。
AWS在re:Invent上宣布了Amazon Bedrock的多Agent编排功能,反复强调Supervisor Agent怎么协调子Agent、怎么共享上下文、怎么做任务路由。
还有Google,也在Cloud Next 2026把Vertex AI整个包装成Gemini Enterprise Agent Platform,核心卖点也不是模型多强,额外强调了Agent Designer、Agent Engine Sessions这些基础设施工具。
大厂的信号很明确:做多Agent系统的重心已经从prompt和context,转向怎么建好这套基础设施。
谁跑得快谁就占先手,谁跑得慢后面就得补大量的工程债。
说白了,真正的多Agent系统是一个Runtime,不是一套Prompt编排。
02Worker和Verifier天天互相PUA,效率反而上来了
前面提到Verifier和Worker的对抗机制。这个东西听起来有点反直觉。本来工就是工、验就是验,同一个模型做这两件事怎么会站在对立面?
原因就在于Mavis把Worker和Verifier的上下文完全隔离了。Worker只知道自己要干的事情和自己以前的执行记录,Verifier只知道验收标准、质检规则和历史验收数据。两边看不到对方的完整上下文,只能通过结构化的摘要信息来回通信。这种上下文隔离的设计,就是为了让两端的目标真正产生张力。
最直观的例子来自网上一个比较火的测试。
有人让Mavis做一个复杂的HTML专题页,只有一句目标描述,没有任何分步骤指令。
收到的交付物是一个星尘背景加粒子动效的交互页面,完整自述了Agent Team的工作流程,还贴心地附了下载链接。而侧边栏里,Verifier足足跑了一整套验收流程:从事实准确性到代码可运行性,从页面可读性到体验一致性,逐项打分、逐条提修改意见。
你看,一个Worker负责内容创作、设计、前端开发,一个Verifier专职挑刺,Leader在中间协调。做完一个版本,Verifier驳回,Worker重做,再验收再驳回,几个来回之后交出一个双方都没得说的最终版。
这不就是最理想的软件工程交付流程吗?
![]()
有人把这种配合调侃为互相对着PUA。话糙理不糙,这种对抗机制确实把一个模型自我审视的弱项,转化成了两个模型互相制衡的强项。
Worker不会因为面子问题坚持自己的错方案,Verifier不会因为偷懒降低验收标准,双方在系统约束下完成了高质量博弈。
这正好反了所谓AI自检的那套叙事。很多人都幻想过让AI自己检查自己的错误。但问题在于,同一个模型看自己写的东西,逻辑上就是局限的。
让同一个大脑既做方案又复盘,自己看的永远是自己习惯的角度,盲区永远是盲区。但是让两个目标互逆的模型独立运作,一个只管往前冲,一个只管挑刺,这就有本质区别了。
这种协作模式在整个行业里也处于领先位置。跟我测试过的Manus和CrewAI对比,Mavis的对抗式质检机制是目前最到位的。Manus本身架构和质检细节未完全公开,但测试下来调度透明度偏低,对抗色彩不够强。
CrewAI依赖Guardrails规则和Pydantic输出校验来做质量保障,用预定义的规则和类型校验来保证输出格式正确,但这种方式的问题是只能拦截已知类型的错误,遇到没见过的场景就偏了。
而Mavis用Verifier这个独立Agent做动态验收,不依赖预定义规则,能适应更多样的任务类型,只不过引入额外Agent意味着要多跑一次推理,算力成本要稍微高一点。
再说成本。很多人担心多Agent协作会不会把Token消耗拖爆。
MiniMax在技术文章中坦承过,多Agent协作确实会引入新的交接成本、共享成本和聚合成本。但你仔细算:对于过去那种30分钟打一堆继续的长任务,单Agent要来回切上下文,每一次暂停都是在消耗算力。
多Agent模式虽然开头花得多,但换来的是一个确定性的结果,没结果的成本才是最高的,你已经花了钱但没有拿到可用的东西。
用控制论的视角理解这个闭环更清爽:Worker是正向执行,目标是尽可能完成任务;Verifier是负向反馈,目标是尽可能找出差距。两者不是一个流水线的上下游关系,而是一个闭环的稳态逼近过程。
通过这个闭环,系统可以自己收敛到满足验收标准的交付物,不需要用户在半路打断做判断。
没有结构、没有验证、没有停止条件的多Agent,只是把单一模型的不确定性并行扩散了。而在Mavis的Engine约束下,不确定性是在收敛的。
03更自动化的体验感受
说完架构,说点实在的。Mavis拿在手里用起来怎么样。
开箱体验很顺。官网下载安装包,直接点开就行。
![]()
搜索MiniMax Agent官网,下载桌面端应用,安装登录之后,在界面里选择Mavis模式启用多Agent协作工作流。
![]()
对话框里能看到,自动开启了Team Plan模式。接下来用自然语言下达指令就行,不用写什么复杂的提示词。
Mavis会自动生成任务计划,确认计划后Team Engine就开始调度。你可以在侧边栏看到各个Agent之间的执行全过程和思考记录,Leader分拆了什么任务、Worker在做什么、Verifier验收了什么,每一步都显示得很清楚。
跟市面上那些需要写代码配置的框架比起来,这个体验拉高了不少。
另一个让我比较舒服的变化是订阅体系。
之前TokenPlan和Agent Plan是分开两条线在走,API调用走TokenPlan,Agent对话走Agent Plan,两边额度不通。
这次合并之后一份订阅能同时用在CLI、API、Agent三个端口。M2.7、音乐模型、视频模型、语音模型、图像模型全都能用,Credits额度在Agent和API之间共享。如果之前同时订了两个套餐的用户,官方还额外送一个月会员。
![]()
最后还有一个隐形的工程化亮点是IM异步执行的支撑能力。
一般长任务在AI身上跑的时候,用户往往只能干等着,要么眼睁睁看它转圈没有反馈。而Mavis的设计很巧妙,即时响应和后台执行是分离的。
用户扔一个长任务,Mavis先在IM界面秒回确认收到,然后后台启动整个Agent Team的执行流程。
每一个关键节点:Leader拆解完成、Worker阶段性产出、Verifier验收通过。
Mavis都会主动回来汇报进度,就像真人助理在执行过程中定期给你汇报一样。
这种同步异步混合的工程化方案,把真实协作场景里最让人头疼的问题一次性解决了。
04让AI像真人一样组队干活
思考了这么多关于多Agent系统的东西之后,我越来越觉得,行业对Agent的想象可能局限了。
很多人希望AI是一个超级助手,什么都能干、什么都干得最好。
用单Agent的思路能持续投入算力训练更大的模型,但这种策略的天花板其实已经能看到了。
从行业发展趋势来看,多智能体系统已经不仅仅是方向选择了,它正在成为解决长程复杂任务的必需品。
企业内部一个简单的业务目标往往包含跨系统跨数据源的调用链,需要智能体具备跨领域协作能力。
产业调研表明超过50%的企业将在2026年之前部署AI智能体来自动化复杂多环节的工作流,而AI Agent的核心瓶颈已经不再是模型规模,而是架构层面的任务规划、跨智能体协作和过程追溯能力。
Mavis这次更新,技术上,很扎实。
它用Leader Worker Verifier的角色分工,把过去长任务里那些让用户头疼的操作变成了后台自动消化的事情。
IM场景里发一条消息不用再担心卡住,Coding场景里执行多步骤任务不用再一直点继续,行业调研和办公文档场景里质量管控不再依赖人工逐段审阅。做出来的东西可以直接拿去用,交付靠谱。
丢一个任务让Agent Team自己折腾,然后安心去午睡。
醒来发现工作已经做完了。这种感觉,说实话,挺爽。