8秒做一个网站,小米MiMo 1000 TPS上手实测

网易专栏19小时前发布 nxnqh
1 0 0

🤖 AI总结

主题

小米MiMo大模型实现万亿参数推理速度超1000 tokens/s

摘要

小米MiMo大模型在通用GPU上实现万亿参数推理速度超1000 tokens/s,10秒生成小游戏或网站,API兼容主流格式,开启AI速度新纪元。

关键信息

  • 1 MiMo-V2.5-Pro UltraSpeed在通用GPU上达到1000+ tokens/s
  • 2 10秒可生成小游戏或网站
  • 3 API兼容OpenAI和Anthropic格式,支持流式输出

8秒做一个网站,小米MiMo 1000 TPS上手实测

「快」这件事,对于模型来说,意味着什么呢?

今天,小米 MiMo 让模型速度这件事,具像化了。

在单台标准 8 卡 GPU 服务器上,把 1 万亿参数的大模型推理速度跑到了超过 1000 tokens/s,峰值甚至达到 1200 tokens/s。

亲测,10秒做出一款小游戏、做成一个网站。

比小米汽车刷新纽北圈速纪录,给我带来的感官刺激还要直接。

8秒做一个网站,小米MiMo 1000 TPS上手实测

让我想起,23年底,月之暗面Kimi用超长文本形成了专属记忆点,25年初DeepSeek R1横空出世,第一次把推理过程可视化。

今天,小米 MiMo 开启了新的速度时刻,很犀利,很鲜明。

下面带大家具体来感受一下。

01速度比我敲代码快200倍不止

我自以为是个码字、码代码都挺快的人。

但看到小米 MiMo 执行任务,只让人觉得有点目不暇接。

8秒做一个网站,小米MiMo 1000 TPS上手实测

先说几个数字,帮你建立直觉:

• 人类打字速度:约5 tokens/s(一个汉字/字符约 1-2 tokens)

• 普通大模型推理速度:约100-300 tokens/s

• MiMo-V2.5-Pro UltraSpeed:1000+ tokens/s,峰值 1200

换句话说,这个模型生成文字的速度是人类打字的 200 倍。刚看完上一句,它已经把下一段写完了。

对于需要实时交互的场景,比如 AI 助手对话、Agent 自动化任务、代码实时补全,这种速度已经有了真正的”零等待”体验。

8秒做一个网站,小米MiMo 1000 TPS上手实测

我之前有个习惯,每天晚上睡前给AI布置任务,批量发指令,因为很多复杂任务很难确定什么时候完成,这样一早醒来就可以直接验收。

但现在看来,所谓的习惯,在每秒上千tokens的生成速度面前,显得那么没必要。

就像我做的这个贪吃蛇小游戏。

真的只用了不到8秒的时间,一个会动的小蛇就水灵灵跑了出来。

02

1分钟注册,开启体验

MiMo开放平台地址是 platform.xiaomimimo.com。

有账号直接登,没有就手机号注册,1分钟搞定。

8秒做一个网站,小米MiMo 1000 TPS上手实测

目前还是需要做一下内测申请,身边有朋友申请了很快就通过。

想想也合理,万亿参数模型跑通用GPU,背后得堆多少卡才能支撑1000 tokens每秒?

注册完别忘了实名认证,地址:

platform.xiaomimimo.com/profile

不认证后面拿不到API Key。认证不复杂,填信息传证件,也是顺手的事。

个人中心能看到账号信息和基础配置,界面清爽,没广告,好评。

现在还在内测阶段,建议可以尽早申请。

03效果实测,眼睛不够用了

MiMo 1000 TPS给了两种体验方式:Playground网页版和API接口。

想快速感受一下这速度到底多离谱,Playground够了。

想集成到自己的应用里,比如实时翻译、游戏NPC、批量任务,那就得上API。

先说Playground,入口独立域名是这个:

https://ultraspeed.xiaomimimo.com/

进去界面简洁,左边对话框,右边预置Demo。可以点Demo试水,也可以自己输。

8秒做一个网站,小米MiMo 1000 TPS上手实测

每轮输出完会展示几个关键数据:输出tok/s、思考tok/s、首响应时延TTFT、总token数。

这里重点说输出tok/s。

官方说能破1000,我实测大部分在800到1200之间浮动,最快甚至到2000多。

TTFT做到200到300毫秒,按回车眨个眼就开始出字。

再说API。现在也已经开放。入口同样在开放平台。

采用的是限时体验价,定价为 MiMo-V2.5-Pro 的 3 倍,同时提供输出速度的约 10 倍提升!

3 倍价格提升,10 倍输出体验,亲测还是很有惊喜的。

8秒做一个网站,小米MiMo 1000 TPS上手实测

API兼容OpenAI和Anthropic两种主流格式。

之前写过调用GPT或Claude的代码,只需要改model name和base url,基本直接跑。

model name是 mimo-v2.5-pro-ultraspeed,别写错。

官方建议开启 stream=true。只有流式接收才能直观感受那个速度。

不开流式,等全生成完再一次性返回,就算内部跑了1000,体感也只是转了几秒圈突然蹦出文字。浪费。

先跑预置Demo,代码生成、文本摘要、逻辑推理都试试,感受瀑布式输出的快感。

我最推荐大体量代码生成。

比如让它用Python写一个完整的电商系统,用户认证、商品管理、订单处理、支付对接,完整注释和测试用例。普通模型要么输出一半断掉,要么慢得想砸电脑。

MiMo可以在几十秒内输出上万行代码,不截断。

我实测让它写一个量化交易回测系统,输出8000多token,不到10秒。

8秒做一个网站,小米MiMo 1000 TPS上手实测

就是刚打完字,代码已经出来了,目光来不及从键盘移到屏幕。

最终完成的质量也很高,完全看不出来是10秒完成的代码作品。

8秒做一个网站,小米MiMo 1000 TPS上手实测

还有HTML互动页面和小游戏。

让它实现复杂规则交互的卡牌游戏,能输出完整HTML,没有任何外部依赖。

保存成.html文件直接双击就能玩。

对前端开发或快速验证想法的人来说,神器。

8秒做一个网站,小米MiMo 1000 TPS上手实测

像我做的这个七龙珠小游戏,就是8秒做出来的。

虽然说画面不算特别精致细腻,但900行代码、高完成度的可玩性,还是很让人惊喜的。

我还给自己做了一个个人网页,10多秒完成的,质感审美都很到位,信息也是准确清晰的。

8秒做一个网站,小米MiMo 1000 TPS上手实测

8秒做一个网站,小米MiMo 1000 TPS上手实测

私以为这种能力最实用的不是炫技,是快速原型开发。

脑子里有个想法,想先看看效果,又不想花时间写前端,直接让MiMo帮你生成可交互Demo。

快的话几分钟拿到能跑的东西,以前不敢想。

当然,高峰期可能会排队。

文件里说了,算力资源有限,高峰期可能出现不稳定、需要排队

1000 tokens每秒背后消耗的算力巨大。再怎么优化,物理极限摆在那。高峰期排队不是小米的锅,所有高负载推理服务都这样。

区别在于别的服务慢的时候从100降到30,MiMo如果从1000降到200,依然比绝大多数模型快。

遇到系统繁忙提示,稍后刷新重试就行。别一直点,越点越卡。

04API才是真·生产力

真正让开发者兴奋的永远是API。

因为只有API,才能把模型能力嵌入你自己的产品。

文件里给了几个典型场景,我挨个说说理解。

8秒做一个网站,小米MiMo 1000 TPS上手实测

第一个是Coding Agent。让模型当编程助手,通过多轮工具调用自主完成复杂任务。配置function calling,模型自己拆解任务一步步执行。

说帮我爬某个网站数据并分析,模型自己决定先调哪个API,拿到数据再调另一个API处理,最后整理结果给你。不需要你每一步下指令。

第二个是高频率量化交易或实时风控。

核心诉求是并发吞吐高、毫秒级响应。

量化交易场景下,行情数据实时推过来,你需要在几毫秒内决策下单。模型推理慢半拍就错过最佳买卖点。

MiMo的低延迟特性在这里有用武之地。当然,上实盘前必须充分测试,真金白银不能开玩笑。

第三个是实时语音、游戏NPC、同声传译。

共同点是流式输出低延迟,需要实时交互。

对着手机说话,模型一边听一边理解一边生成回答,整个过程要顺滑得像和真人对话。MiMo的TTFT 200毫秒级别,加上1000 tokens每秒生成速度,理论上完全可以支撑。

我觉得最有想象空间的是游戏NPC。

传统游戏NPC对话都是预设脚本,翻来覆去几句。

如果把MiMo这种高速模型嵌入游戏,就能实现真正的动态对话。你对NPC说什么,它根据当前游戏状态和角色设定实时回应。因为速度快,不会有那种点完对话按钮等两三秒才出字的尴尬。

8秒做一个网站,小米MiMo 1000 TPS上手实测

当然,这需要算力成本和工程实现配合,短期内可能看不到成熟商业产品。但方向对了,技术跑通了,剩下就是时间和成本的问题。

调用API时确保model name正确,建议stream=true。参考开放平台示例代码,几分钟就能发起第一次调用。

05这可能是新的「小米时刻」

从小米宣布做大模型,外界就有很多声音。

有人说小米没有AI基因,有人说只会做硬件,有人说入局太晚没机会了。

但这些质疑,在MiMo 1000 TPS面前,至少有一部分被击碎。

全球首个在通用GPU上突破1000 tokens每秒的万亿参数旗舰模型,这个头衔不是随便说的。

8秒做一个网站,小米MiMo 1000 TPS上手实测

它背后是算法优化、工程实现、硬件调度多个环节的深度协同。

能在通用GPU上跑出这个速度,意味着小米没有依赖特殊定制AI芯片,是在现有大家都能买到的硬件上,把性能压榨到极致。

比性能、比参数、比性价比,是时候让大模型圈来感受一下来自小米的震撼了。

大模型的赛场上,也许和汽车领域一样,新的赛道之王正在诞生。

因为如果只有特殊芯片才能跑得快,就会形成新垄断。

小公司买不起定制芯片,就只能用慢的模型。

但如果在通用GPU上就能跑出高速,门槛被大大降低。

更多开发者、更多小团队,都有机会用上顶级模型能力。

8秒做一个网站,小米MiMo 1000 TPS上手实测

作为一个从GPT-3时代折腾AI的人,见过很多次所谓的颠覆,最后大多不了了之。

但这一次,当屏幕上一行行文字以肉眼无法跟上的速度往外蹦,我真切感受到,有些事情确实在变化。

就像当你体验过电车的零百3秒级加速、像手机一样丝滑的智能化体验,再去开传统油车,真的回不去了。

强烈建议,去试试!

毕竟,只要十秒,也许你就能拥有一个coding作品了,不快吗?

8秒做一个网站,小米MiMo 1000 TPS上手实测

© 版权声明

相关文章