🤖 AI总结
主题
小米MiMo大模型实现万亿参数推理速度超1000 tokens/s
摘要
小米MiMo大模型在通用GPU上实现万亿参数推理速度超1000 tokens/s,10秒生成小游戏或网站,API兼容主流格式,开启AI速度新纪元。
关键信息
- 1 MiMo-V2.5-Pro UltraSpeed在通用GPU上达到1000+ tokens/s
- 2 10秒可生成小游戏或网站
- 3 API兼容OpenAI和Anthropic格式,支持流式输出
![]()
「快」这件事,对于模型来说,意味着什么呢?
今天,小米 MiMo 让模型速度这件事,具像化了。
在单台标准 8 卡 GPU 服务器上,把 1 万亿参数的大模型推理速度跑到了超过 1000 tokens/s,峰值甚至达到 1200 tokens/s。
亲测,10秒做出一款小游戏、做成一个网站。
比小米汽车刷新纽北圈速纪录,给我带来的感官刺激还要直接。
![]()
让我想起,23年底,月之暗面Kimi用超长文本形成了专属记忆点,25年初DeepSeek R1横空出世,第一次把推理过程可视化。
今天,小米 MiMo 开启了新的速度时刻,很犀利,很鲜明。
下面带大家具体来感受一下。
01速度比我敲代码快200倍不止
我自以为是个码字、码代码都挺快的人。
但看到小米 MiMo 执行任务,只让人觉得有点目不暇接。
![]()
先说几个数字,帮你建立直觉:
• 人类打字速度:约5 tokens/s(一个汉字/字符约 1-2 tokens)
• 普通大模型推理速度:约100-300 tokens/s
• MiMo-V2.5-Pro UltraSpeed:1000+ tokens/s,峰值 1200
换句话说,这个模型生成文字的速度是人类打字的 200 倍。刚看完上一句,它已经把下一段写完了。
对于需要实时交互的场景,比如 AI 助手对话、Agent 自动化任务、代码实时补全,这种速度已经有了真正的”零等待”体验。
![]()
我之前有个习惯,每天晚上睡前给AI布置任务,批量发指令,因为很多复杂任务很难确定什么时候完成,这样一早醒来就可以直接验收。
但现在看来,所谓的习惯,在每秒上千tokens的生成速度面前,显得那么没必要。
就像我做的这个贪吃蛇小游戏。
真的只用了不到8秒的时间,一个会动的小蛇就水灵灵跑了出来。
02
1分钟注册,开启体验
MiMo开放平台地址是 platform.xiaomimimo.com。
有账号直接登,没有就手机号注册,1分钟搞定。
![]()
目前还是需要做一下内测申请,身边有朋友申请了很快就通过。
想想也合理,万亿参数模型跑通用GPU,背后得堆多少卡才能支撑1000 tokens每秒?
注册完别忘了实名认证,地址:
platform.xiaomimimo.com/profile
不认证后面拿不到API Key。认证不复杂,填信息传证件,也是顺手的事。
个人中心能看到账号信息和基础配置,界面清爽,没广告,好评。
现在还在内测阶段,建议可以尽早申请。
03效果实测,眼睛不够用了
MiMo 1000 TPS给了两种体验方式:Playground网页版和API接口。
想快速感受一下这速度到底多离谱,Playground够了。
想集成到自己的应用里,比如实时翻译、游戏NPC、批量任务,那就得上API。
先说Playground,入口独立域名是这个:
https://ultraspeed.xiaomimimo.com/
进去界面简洁,左边对话框,右边预置Demo。可以点Demo试水,也可以自己输。
![]()
每轮输出完会展示几个关键数据:输出tok/s、思考tok/s、首响应时延TTFT、总token数。
这里重点说输出tok/s。
官方说能破1000,我实测大部分在800到1200之间浮动,最快甚至到2000多。
TTFT做到200到300毫秒,按回车眨个眼就开始出字。
再说API。现在也已经开放。入口同样在开放平台。
采用的是限时体验价,定价为 MiMo-V2.5-Pro 的 3 倍,同时提供输出速度的约 10 倍提升!
3 倍价格提升,10 倍输出体验,亲测还是很有惊喜的。
![]()
API兼容OpenAI和Anthropic两种主流格式。
之前写过调用GPT或Claude的代码,只需要改model name和base url,基本直接跑。
model name是 mimo-v2.5-pro-ultraspeed,别写错。
官方建议开启 stream=true。只有流式接收才能直观感受那个速度。
不开流式,等全生成完再一次性返回,就算内部跑了1000,体感也只是转了几秒圈突然蹦出文字。浪费。
先跑预置Demo,代码生成、文本摘要、逻辑推理都试试,感受瀑布式输出的快感。
我最推荐大体量代码生成。
比如让它用Python写一个完整的电商系统,用户认证、商品管理、订单处理、支付对接,完整注释和测试用例。普通模型要么输出一半断掉,要么慢得想砸电脑。
MiMo可以在几十秒内输出上万行代码,不截断。
我实测让它写一个量化交易回测系统,输出8000多token,不到10秒。
![]()
就是刚打完字,代码已经出来了,目光来不及从键盘移到屏幕。
最终完成的质量也很高,完全看不出来是10秒完成的代码作品。
![]()
还有HTML互动页面和小游戏。
让它实现复杂规则交互的卡牌游戏,能输出完整HTML,没有任何外部依赖。
保存成.html文件直接双击就能玩。
对前端开发或快速验证想法的人来说,神器。
![]()
像我做的这个七龙珠小游戏,就是8秒做出来的。
虽然说画面不算特别精致细腻,但900行代码、高完成度的可玩性,还是很让人惊喜的。
我还给自己做了一个个人网页,10多秒完成的,质感审美都很到位,信息也是准确清晰的。
![]()
![]()
私以为这种能力最实用的不是炫技,是快速原型开发。
脑子里有个想法,想先看看效果,又不想花时间写前端,直接让MiMo帮你生成可交互Demo。
快的话几分钟拿到能跑的东西,以前不敢想。
当然,高峰期可能会排队。
文件里说了,算力资源有限,高峰期可能出现不稳定、需要排队
1000 tokens每秒背后消耗的算力巨大。再怎么优化,物理极限摆在那。高峰期排队不是小米的锅,所有高负载推理服务都这样。
区别在于别的服务慢的时候从100降到30,MiMo如果从1000降到200,依然比绝大多数模型快。
遇到系统繁忙提示,稍后刷新重试就行。别一直点,越点越卡。
04API才是真·生产力
真正让开发者兴奋的永远是API。
因为只有API,才能把模型能力嵌入你自己的产品。
文件里给了几个典型场景,我挨个说说理解。
![]()
第一个是Coding Agent。让模型当编程助手,通过多轮工具调用自主完成复杂任务。配置function calling,模型自己拆解任务一步步执行。
说帮我爬某个网站数据并分析,模型自己决定先调哪个API,拿到数据再调另一个API处理,最后整理结果给你。不需要你每一步下指令。
第二个是高频率量化交易或实时风控。
核心诉求是并发吞吐高、毫秒级响应。
量化交易场景下,行情数据实时推过来,你需要在几毫秒内决策下单。模型推理慢半拍就错过最佳买卖点。
MiMo的低延迟特性在这里有用武之地。当然,上实盘前必须充分测试,真金白银不能开玩笑。
第三个是实时语音、游戏NPC、同声传译。
共同点是流式输出低延迟,需要实时交互。
对着手机说话,模型一边听一边理解一边生成回答,整个过程要顺滑得像和真人对话。MiMo的TTFT 200毫秒级别,加上1000 tokens每秒生成速度,理论上完全可以支撑。
我觉得最有想象空间的是游戏NPC。
传统游戏NPC对话都是预设脚本,翻来覆去几句。
如果把MiMo这种高速模型嵌入游戏,就能实现真正的动态对话。你对NPC说什么,它根据当前游戏状态和角色设定实时回应。因为速度快,不会有那种点完对话按钮等两三秒才出字的尴尬。
![]()
当然,这需要算力成本和工程实现配合,短期内可能看不到成熟商业产品。但方向对了,技术跑通了,剩下就是时间和成本的问题。
调用API时确保model name正确,建议stream=true。参考开放平台示例代码,几分钟就能发起第一次调用。
05这可能是新的「小米时刻」
从小米宣布做大模型,外界就有很多声音。
有人说小米没有AI基因,有人说只会做硬件,有人说入局太晚没机会了。
但这些质疑,在MiMo 1000 TPS面前,至少有一部分被击碎。
全球首个在通用GPU上突破1000 tokens每秒的万亿参数旗舰模型,这个头衔不是随便说的。
![]()
它背后是算法优化、工程实现、硬件调度多个环节的深度协同。
能在通用GPU上跑出这个速度,意味着小米没有依赖特殊定制AI芯片,是在现有大家都能买到的硬件上,把性能压榨到极致。
比性能、比参数、比性价比,是时候让大模型圈来感受一下来自小米的震撼了。
大模型的赛场上,也许和汽车领域一样,新的赛道之王正在诞生。
因为如果只有特殊芯片才能跑得快,就会形成新垄断。
小公司买不起定制芯片,就只能用慢的模型。
但如果在通用GPU上就能跑出高速,门槛被大大降低。
更多开发者、更多小团队,都有机会用上顶级模型能力。
![]()
作为一个从GPT-3时代折腾AI的人,见过很多次所谓的颠覆,最后大多不了了之。
但这一次,当屏幕上一行行文字以肉眼无法跟上的速度往外蹦,我真切感受到,有些事情确实在变化。
就像当你体验过电车的零百3秒级加速、像手机一样丝滑的智能化体验,再去开传统油车,真的回不去了。
强烈建议,去试试!
毕竟,只要十秒,也许你就能拥有一个coding作品了,不快吗?
![]()