2026-06-10

MiMo UltraSpeed：1000 tps 的价值在实时交互成本曲线

MiMo-V2.5-Pro-UltraSpeed 的 1000 tps 价值不是速度炫技，而是让长输出、并行采样和实时交互的单位时间成本重新计算。

概述

MiMo-V2.5-Pro-UltraSpeed 的 1000 tokens/s 很容易被看成速度炫技，但它更值得被放进推理经济学里理解。速度本身只是手段，真正改变的是同一段时间里能完成多少候选生成、多少长输出、多少交互轮次，以及用户愿不愿意等待。对 builder 来说，1000 tps 的意义在于实时交互的成本曲线被压低，而不在海报数字。

小米官方把 UltraSpeed 定位为 1T 参数模型突破 1000 tokens/s，并强调不依赖 custom silicon，路线是 FP4 mixed-precision quantization、DFlash speculative decoding 和 TileRT 系统优化。平台文档也给出很现实的产品信号：API Access 和 Playground 可试，但资源入口明显受控。这说明它更像一次把极限速度推到用户面前的能力展示，还不是已经无限供给的通用入口。

本文的判断是：MiMo UltraSpeed 的价值在实时交互成本曲线，速度炫技只是表层。它真正适合长代码生成、可验证任务并行探索、实时 agent 回合压缩和高等待成本场景；把它包装成所有 LLM 应用的默认推理形态，会误导产品判断。

发生了什么

小米 MiMo 团队与 TileRT 团队发布 MiMo-V2.5-Pro-UltraSpeed，官方称其在 1T 参数模型上实现 1000 tokens/s 级生成速度。实现路径被拆成两层：模型侧用 FP4 mixed-precision quantization 和 DFlash speculative decoding，系统侧用 TileRT 的 persistent kernel engine 与 heterogeneous pipeline collaboration。这个拆分很重要，因为它说明速度来自模型、投机解码和 kernel 调度共同对齐，单点技巧撑不起这个数字。

FP4 部分的判断价值在于「只量化 MoE Experts」。官方文档写明，FP4 quantization 只应用在 MoE Experts，其余部分保留原精度，并配合 FP4 QAT 来尽量保住能力。这个选择比全模型低精度更稳，因为 Experts 占参数大头，也更适合用低精度换带宽。对推理经济性而言，它是把单位 token 的硬件压力往下拉。

DFlash 部分则改变了 decode 的串行瓶颈。官方说它用 block-level masked parallel prediction 替代传统 autoregressive drafting，draft model 用 SWA 把 prediction compute 降到常数级，再配合 Muon optimizer 和 self-distillation 提高接受率。这里的判断是：1000 tps 的关键在投机路径减少必须串行等待的 token 数，不能只理解成主模型更快。

为何重要

实时交互的成本不只按 token 算，也按时间算。用户等待一段长代码、长分析或多候选方案时，延迟会直接改变产品体验；系统为了在同一时间里跑 best-of-N，也会把吞吐变成质量杠杆。MiMo UltraSpeed 的速度如果稳定可用，最先被改变的会是长输出和可验证任务的交互节奏，短问答反而不是主战场。

这对 agent 尤其重要。很多 agent 的瓶颈来自每轮生成、执行、观察、再生成的循环太慢，未必来自模型不聪明。1000 tps 不能减少工具执行时间，也不能替代验证器；但它能压缩模型生成环节，让 agent 在同一墙钟时间里尝试更多候选路径。判断要精确：速度本身不制造正确性，但在代码、数学和结构化任务里，它能放大验证器的价值。

成本曲线也会影响产品形态。过去长输出常被设计成异步任务，因为等待太长；如果 decode 足够快，部分长输出可以回到实时体验里。反过来，如果官方资源仍然受限，团队就不能把这种体验当默认 SLA。速度展示打开了产品想象，供给约束决定它能不能规模化。

对建设者的影响

第一，优先评估「等待成本高」的场景。长代码生成、批量重写、报告草稿、可验证推理、多候选生成，这些场景最可能从 1000 tps 受益。短客服回复、检索后摘要、一次几十个 token 的 UI 辅助，很可能感受不到速度红利，因为瓶颈不在 decode。

第二，把速度用于并行探索，而不是只用于更快吐一个答案。MiMo UltraSpeed 的真正杠杆，是在同一时间预算内生成多个候选，再用测试、规则或用户选择来筛。没有验证机制的开放问答，跑得更快只是更快地产生不可判优内容；有验证机制的代码和数学，速度才可能转成质量。

第三，区分官方能力展示和生产入口。平台文档提供 API Access 和 Playground，但 UltraSpeed 的供给显然不是无限公共容量。建设者如果要集成，应把它作为高价值路径或实验路径，而不是把全量请求默认打过去。更稳的架构是常规模型承担普通流量，UltraSpeed 只在长输出或实时高价值任务上触发。

该忽略什么

第一，忽略「1000 tps 适合所有产品」的泛化。大多数 LLM 产品的瓶颈在检索、工具调用、首 token、业务规则或用户确认，不在长段 decode。把 UltraSpeed 当万能加速器，会让团队优化错地方。

第二，忽略「快就等于智能」的叙事。速度可以让系统尝试更多路径，但只有在结果可验证时，更多路径才会变成更高质量。没有验证器的实时聊天，1000 tps 只是体验更顺滑，不会自动带来更好的判断。

第三，忽略供给限制。官方开放 API 与 Playground 入口值得测试，但资源受控意味着它还不是可无脑依赖的基础设施。对 builder 最理性的读法，是把 MiMo UltraSpeed 当成推理范式信号和高价值路径选项，而不是全站默认后端。

来源

MiMo-V2.5-Pro-UltraSpeed: Pushing 1T-Parameter Model Generation Speed to 1000 TPS / official
MiMo-V2.5-Pro-UltraSpeed Model Introduction / official