8秒做一个网站，小米MiMo 1000 TPS上手实测

网易专栏19小时前发布 nxnqh

1 0 0

发布时间：2026-06-09 21:33:50

#AI | #小米MiMo

来源：网易专栏作者：AI异类
🔗 查看原文

🤖 AI总结

主题

小米MiMo大模型实现万亿参数推理速度超1000 tokens/s

摘要

小米MiMo大模型在通用GPU上实现万亿参数推理速度超1000 tokens/s，10秒生成小游戏或网站，API兼容主流格式，开启AI速度新纪元。

关键信息

1 MiMo-V2.5-Pro UltraSpeed在通用GPU上达到1000+ tokens/s
2 10秒可生成小游戏或网站
3 API兼容OpenAI和Anthropic格式，支持流式输出

8秒做一个网站，小米MiMo 1000 TPS上手实测

「快」这件事，对于模型来说，意味着什么呢？

今天，小米 MiMo 让模型速度这件事，具像化了。

在单台标准 8 卡 GPU 服务器上，把 1 万亿参数的大模型推理速度跑到了超过 1000 tokens/s，峰值甚至达到 1200 tokens/s。

亲测，10秒做出一款小游戏、做成一个网站。

比小米汽车刷新纽北圈速纪录，给我带来的感官刺激还要直接。

8秒做一个网站，小米MiMo 1000 TPS上手实测

让我想起，23年底，月之暗面Kimi用超长文本形成了专属记忆点，25年初DeepSeek R1横空出世，第一次把推理过程可视化。

今天，小米 MiMo 开启了新的速度时刻，很犀利，很鲜明。

下面带大家具体来感受一下。

01速度比我敲代码快200倍不止

我自以为是个码字、码代码都挺快的人。

但看到小米 MiMo 执行任务，只让人觉得有点目不暇接。

8秒做一个网站，小米MiMo 1000 TPS上手实测

先说几个数字，帮你建立直觉：

• 人类打字速度：约5 tokens/s（一个汉字/字符约 1-2 tokens）

• 普通大模型推理速度：约100-300 tokens/s

• MiMo-V2.5-Pro UltraSpeed：1000+ tokens/s，峰值 1200

换句话说，这个模型生成文字的速度是人类打字的 200 倍。刚看完上一句，它已经把下一段写完了。

对于需要实时交互的场景，比如 AI 助手对话、Agent 自动化任务、代码实时补全，这种速度已经有了真正的”零等待”体验。

8秒做一个网站，小米MiMo 1000 TPS上手实测

我之前有个习惯，每天晚上睡前给AI布置任务，批量发指令，因为很多复杂任务很难确定什么时候完成，这样一早醒来就可以直接验收。

但现在看来，所谓的习惯，在每秒上千tokens的生成速度面前，显得那么没必要。

就像我做的这个贪吃蛇小游戏。

真的只用了不到8秒的时间，一个会动的小蛇就水灵灵跑了出来。

1分钟注册，开启体验

MiMo开放平台地址是 platform.xiaomimimo.com。

有账号直接登，没有就手机号注册，1分钟搞定。

8秒做一个网站，小米MiMo 1000 TPS上手实测

目前还是需要做一下内测申请，身边有朋友申请了很快就通过。

想想也合理，万亿参数模型跑通用GPU，背后得堆多少卡才能支撑1000 tokens每秒？

注册完别忘了实名认证，地址：

platform.xiaomimimo.com/profile

不认证后面拿不到API Key。认证不复杂，填信息传证件，也是顺手的事。

个人中心能看到账号信息和基础配置，界面清爽，没广告，好评。

现在还在内测阶段，建议可以尽早申请。

03效果实测，眼睛不够用了

MiMo 1000 TPS给了两种体验方式：Playground网页版和API接口。

想快速感受一下这速度到底多离谱，Playground够了。

想集成到自己的应用里，比如实时翻译、游戏NPC、批量任务，那就得上API。

先说Playground，入口独立域名是这个：

https://ultraspeed.xiaomimimo.com/

进去界面简洁，左边对话框，右边预置Demo。可以点Demo试水，也可以自己输。

8秒做一个网站，小米MiMo 1000 TPS上手实测

每轮输出完会展示几个关键数据：输出tok/s、思考tok/s、首响应时延TTFT、总token数。

这里重点说输出tok/s。

官方说能破1000，我实测大部分在800到1200之间浮动，最快甚至到2000多。

TTFT做到200到300毫秒，按回车眨个眼就开始出字。

再说API。现在也已经开放。入口同样在开放平台。

采用的是限时体验价，定价为 MiMo-V2.5-Pro 的 3 倍，同时提供输出速度的约 10 倍提升！

3 倍价格提升，10 倍输出体验，亲测还是很有惊喜的。

8秒做一个网站，小米MiMo 1000 TPS上手实测

API兼容OpenAI和Anthropic两种主流格式。

之前写过调用GPT或Claude的代码，只需要改model name和base url，基本直接跑。

model name是 mimo-v2.5-pro-ultraspeed，别写错。

官方建议开启 stream=true。只有流式接收才能直观感受那个速度。

不开流式，等全生成完再一次性返回，就算内部跑了1000，体感也只是转了几秒圈突然蹦出文字。浪费。

先跑预置Demo，代码生成、文本摘要、逻辑推理都试试，感受瀑布式输出的快感。

我最推荐大体量代码生成。

比如让它用Python写一个完整的电商系统，用户认证、商品管理、订单处理、支付对接，完整注释和测试用例。普通模型要么输出一半断掉，要么慢得想砸电脑。

MiMo可以在几十秒内输出上万行代码，不截断。

我实测让它写一个量化交易回测系统，输出8000多token，不到10秒。

8秒做一个网站，小米MiMo 1000 TPS上手实测

就是刚打完字，代码已经出来了，目光来不及从键盘移到屏幕。

最终完成的质量也很高，完全看不出来是10秒完成的代码作品。

8秒做一个网站，小米MiMo 1000 TPS上手实测

还有HTML互动页面和小游戏。

让它实现复杂规则交互的卡牌游戏，能输出完整HTML，没有任何外部依赖。

保存成.html文件直接双击就能玩。

对前端开发或快速验证想法的人来说，神器。

8秒做一个网站，小米MiMo 1000 TPS上手实测

像我做的这个七龙珠小游戏，就是8秒做出来的。

虽然说画面不算特别精致细腻，但900行代码、高完成度的可玩性，还是很让人惊喜的。

我还给自己做了一个个人网页，10多秒完成的，质感审美都很到位，信息也是准确清晰的。

8秒做一个网站，小米MiMo 1000 TPS上手实测

私以为这种能力最实用的不是炫技，是快速原型开发。

脑子里有个想法，想先看看效果，又不想花时间写前端，直接让MiMo帮你生成可交互Demo。

快的话几分钟拿到能跑的东西，以前不敢想。

当然，高峰期可能会排队。

文件里说了，算力资源有限，高峰期可能出现不稳定、需要排队

1000 tokens每秒背后消耗的算力巨大。再怎么优化，物理极限摆在那。高峰期排队不是小米的锅，所有高负载推理服务都这样。

区别在于别的服务慢的时候从100降到30，MiMo如果从1000降到200，依然比绝大多数模型快。

遇到系统繁忙提示，稍后刷新重试就行。别一直点，越点越卡。

04API才是真·生产力

真正让开发者兴奋的永远是API。

因为只有API，才能把模型能力嵌入你自己的产品。

文件里给了几个典型场景，我挨个说说理解。

8秒做一个网站，小米MiMo 1000 TPS上手实测

第一个是Coding Agent。让模型当编程助手，通过多轮工具调用自主完成复杂任务。配置function calling，模型自己拆解任务一步步执行。

说帮我爬某个网站数据并分析，模型自己决定先调哪个API，拿到数据再调另一个API处理，最后整理结果给你。不需要你每一步下指令。

第二个是高频率量化交易或实时风控。

核心诉求是并发吞吐高、毫秒级响应。

量化交易场景下，行情数据实时推过来，你需要在几毫秒内决策下单。模型推理慢半拍就错过最佳买卖点。

MiMo的低延迟特性在这里有用武之地。当然，上实盘前必须充分测试，真金白银不能开玩笑。

第三个是实时语音、游戏NPC、同声传译。

共同点是流式输出低延迟，需要实时交互。

对着手机说话，模型一边听一边理解一边生成回答，整个过程要顺滑得像和真人对话。MiMo的TTFT 200毫秒级别，加上1000 tokens每秒生成速度，理论上完全可以支撑。

我觉得最有想象空间的是游戏NPC。

传统游戏NPC对话都是预设脚本，翻来覆去几句。

如果把MiMo这种高速模型嵌入游戏，就能实现真正的动态对话。你对NPC说什么，它根据当前游戏状态和角色设定实时回应。因为速度快，不会有那种点完对话按钮等两三秒才出字的尴尬。

8秒做一个网站，小米MiMo 1000 TPS上手实测

当然，这需要算力成本和工程实现配合，短期内可能看不到成熟商业产品。但方向对了，技术跑通了，剩下就是时间和成本的问题。

调用API时确保model name正确，建议stream=true。参考开放平台示例代码，几分钟就能发起第一次调用。

05这可能是新的「小米时刻」

从小米宣布做大模型，外界就有很多声音。

有人说小米没有AI基因，有人说只会做硬件，有人说入局太晚没机会了。

但这些质疑，在MiMo 1000 TPS面前，至少有一部分被击碎。

全球首个在通用GPU上突破1000 tokens每秒的万亿参数旗舰模型，这个头衔不是随便说的。

8秒做一个网站，小米MiMo 1000 TPS上手实测

它背后是算法优化、工程实现、硬件调度多个环节的深度协同。

能在通用GPU上跑出这个速度，意味着小米没有依赖特殊定制AI芯片，是在现有大家都能买到的硬件上，把性能压榨到极致。

比性能、比参数、比性价比，是时候让大模型圈来感受一下来自小米的震撼了。

大模型的赛场上，也许和汽车领域一样，新的赛道之王正在诞生。

因为如果只有特殊芯片才能跑得快，就会形成新垄断。

小公司买不起定制芯片，就只能用慢的模型。

但如果在通用GPU上就能跑出高速，门槛被大大降低。

更多开发者、更多小团队，都有机会用上顶级模型能力。

8秒做一个网站，小米MiMo 1000 TPS上手实测

作为一个从GPT-3时代折腾AI的人，见过很多次所谓的颠覆，最后大多不了了之。

但这一次，当屏幕上一行行文字以肉眼无法跟上的速度往外蹦，我真切感受到，有些事情确实在变化。

就像当你体验过电车的零百3秒级加速、像手机一样丝滑的智能化体验，再去开传统油车，真的回不去了。

强烈建议，去试试！

毕竟，只要十秒，也许你就能拥有一个coding作品了，不快吗？

8秒做一个网站，小米MiMo 1000 TPS上手实测

网易专栏 # AI # 小米MiMo

文章版权归作者所有，未经允许请勿转载。

Oracle加快安全补丁发布节奏以应对AI网络安全威胁

网易专栏 # IT # Oracle

4周前

Mozilla推出cq项目，被称为”智能体的Stack Overflow”

网易专栏 # AI # cq

3个月前

科技高管如何引导企业AI试点项目走向成功

网易专栏 # AI # CIO

2周前

新一代具身智能仿真框架：高吞吐并行高保真渲染助力规模化训练

网易专栏 # AI # GS-Playground

1个月前

8秒做一个网站，小米MiMo 1000 TPS上手实测

🤖 AI总结

主题

摘要

关键信息

没有星图和蒲公英的海外市场，品牌的百亿预算怎么花？

内蒙跑通AI逆袭新解法

相关文章

Oracle加快安全补丁发布节奏以应对AI网络安全威胁

Mozilla推出cq项目，被称为”智能体的Stack Overflow”

科技高管如何引导企业AI试点项目走向成功

新一代具身智能仿真框架：高吞吐并行高保真渲染助力规模化训练