小米深夜放了个"核弹"：三大自研 MiMo-V2模型，这次真要"为发烧而生"-踏浪而行生活圈

今天（3月19日），小米悄然上线了 MiMo-V2 系列三款重磅模型。作为一个从 V1 一路追过来的体验者，说实话，看到参数的那一刻，我愣了一下。

目前，这些模型已经登陆 Xiaomi miclaw、MiMo Studio、金山办公、小米浏览器，通过 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 接入，可限时免费体验一周。

从手机公司到大模型玩家，小米走了多远？

先说个背景。很多人对小米做 AI 大模型这件事，第一反应是"手机厂凑什么热闹"。这不奇怪，毕竟在大家的印象里，小米的核心标签是性价比、是供应链、是雷总的"Are You OK"。

但其实小米布局大模型的时间比很多人想象的要早——2023年4月就组建了AI大模型团队。2023年8月，雷军明确提出小米的技术路线：轻量化和本地部署。同年，首款模型 MiLM-6B 登陆 GitHub。而小米大模型的核心负责人，是一位95后的AI天才——罗福莉。

我第一次看到 MiMo-V2-Flash 的技术报告时，就觉得不太一样。那些架构设计不是在堆参数炫技，而是在解决实际工程问题：怎么跑得更快？怎么花更少的钱？怎么塞进手机和车里？这种"工程洁癖"，确实很小米。

今天，V2 系列的发布，可以说是把这份执念推到了极致。

今天的主角：MiMo-V2-Pro——万亿参数的"Agent怪兽"

先聊重头戏。

MiMo-V2-Pro，小米把它定位为"专为现实世界高强度 Agent 工作场景而打造"的旗舰模型。我们看看它到底有多"硬核"：

指标	数据
总参数量	超过1T（对，一万亿）
激活参数量	42B
架构	MoE + 创新混合注意力
上下文长度	1M（100万 token）
API 定价	256K内： $1/M输入，$ 3/M输出；1M内： $2/M输入，$ 6/M输出

AI 大模型参数量对比
（万亿参数，听起来就很有分量）

一万亿参数意味着什么？这意味着它理论上可以学习和存储极其庞大的知识体系。但更让我在意的是那个42B激活参数——这说明小米用了 MoE（混合专家）架构，每次推理只激活总参数的一小部分，但效果却能逼近甚至超越全量参数模型。

换句话说：它很强，但没有你想象的那么"贵"。

再说那个 1M 上下文长度。这不是一个小数字。100万 token 大约相当于一本完整的长篇小说。你可以把一整个项目的代码库扔给它分析，也可以把几十页的学术论文一次性让它理解和总结。

在 Agent 场景——比如让 AI 自主调用工具、完成多步骤复杂任务——这种长上下文能力就变成了刚需。Agent 需要在漫长的交互过程中记住所有的上下文，1M 的窗口意味着它不会在第50轮对话时"忘了"你一开始要求它做的事。

定价方面，说句实话，在这个量级的模型里，小米给出的价格相当有竞争力。$1/M 输入的价格，已经和 DeepSeek-V3.2 接近了。

V2-Flash：那个速度与成本的"甜点"

虽然今天的焦点是 Pro，但如果不提 V2-Flash，这篇文章就不完整。去年12月发布的 MiMo-V2-Flash，才是小米真正"秀肌肉"的起点。

它的参数是 309B 总量 / 15B 激活，看起来比 Pro"小"不少，但它的杀手锏从来不是体量，而是速度和成本。

说几个让我印象深刻的数字：

推理速度：150 tokens/s，大约是 DeepSeek-V3.2 的3倍
价格： $0.1/M输入，$ 0.3/M输出——是的，你没看错
AIME 2025 数学竞赛：开源模型前两名
SWE-bench Verified（修bug测试）：73.4%，超越所有开源模型

AI 推理速度对比
（150 tokens/s，读起来像刷屏一样）

我实际体验了一下，确实快得有点离谱。20秒吐出4000字，而且不是胡言乱语那种"快"，是真的在认真回答你的问题。这种体验，说实话，比很多更大、更贵的模型还要好。

而小米做到这一点的技术手段，我觉得非常值得聊聊。

混合注意力：像人一样"选择性专注"

V2-Flash 用了一个很聪明的设计：全局注意力与滑动窗口注意力 5:1 的混合方案。

简单说，大部分层只看最近128个 token（局部窗口），每隔一层才用全局注意力扫一遍全文。这就像你读小说时的状态——大部分时间盯着当前这一页，偶尔翻回去看看人物关系表。

最有趣的是那个 attention sink bias。罗福莉（MiMo负责人）在分享中提到一个反直觉的发现：窗口大小128是"最佳甜点值"，盲目扩大到512反而性能下降。这说明小米做过大量精细的实验，找到了效率和效果的最佳平衡点。

MTP：别一个字一个字"吐"了

传统大模型生成文字是一口一口吐的，吐一个 token 才知道下一个是什么。V2-Flash 的 Multi-Token Prediction（MTP） 机制让它能并行预测多个 token。

实测平均能一次接受2.8到3.6个 token，速度直接提升2到2.6倍。而且这个 MTP 不是后期加的"外挂"，而是在预训练阶段就深度集成的。

用罗福莉的话说，小米借鉴了 Thinking Machine 的 On-Policy Distillation 方法，实现了只用传统方法 1/50 的算力，就能让学生模型达到教师峰值性能。

说人话就是：别人花50块钱做到的事，小米花1块钱就做到了。 这在算力成本居高不下的今天，简直是降维打击。

同场加映：Omni 和 TTS——小米的"全栈梦"

今天小米一起发布的，还有两款模型：

MiMo-V2-Omni：全模态理解

"Omni"是"全能"的意思。这款多模态模型能同时处理文本、图像、音频等多种模态输入。虽然目前技术细节还没有完全公开，但从名字和定位来看，小米是在往多模态融合的方向发力。

多模态AI示意图
（多模态：让AI不只会读文字，还能"看"和"听"）

说实话，这一步很重要。当 Agent 需要处理真实世界的问题时，它不可能只看文字。它需要理解截图、识别界面、处理语音指令。Omni 的存在，就是为了解决这个"最后一公里"的问题。

MiMo-V2-TTS：语音合成大模型

TTS 即 Text-to-Speech，把文字转成语音。小米做语音合成其实不意外——小米的硬件生态（小爱同学、智能音箱、车机系统）对语音能力有天然的需求。

我个人的期待是：如果能把 MiMo 的语言理解和 TTS 的语音合成完美结合，未来在小米手机和小米汽车上的语音助手体验，可能会有一个质的飞跃。

说点掏心窝的话

小米做 MiMo 这件事，我一直在关注。说几条我的个人观察和判断：

1. 小米的路径和其他家完全不同。

OpenAI 在追通用智能的天花板，DeepSeek 在搞开源生态，Google 在做多模态旗舰。小米呢？小米在想怎么把这个东西塞进手机里。

这不是贬义。这恰恰是最难、最有价值的方向之一。当所有人都在追逐更大的模型、更多的参数时，小米在想的是：怎么让这个模型在有限的算力下跑得更快、更省、更稳。

2. 开源是一种态度，更是一种自信。

V2-Flash 完整开源，MIT 协议，技术报告详细到令人发指的程度——连 MTP 的三层实现都开源了。这种做法在国内大厂里确实少见。它传递的信息很明确：小米不怕别人看，甚至欢迎别人用。

3. 工程优先，而非学术优先。

读完技术报告，我的感受是：小米的创新更多体现在工程落地层面，而不是发论文炫指标。混合注意力、MTP、MOPD……每一个技术点的出发点都是"怎么在实际场景中更好用"，而不是"怎么让论文更好看"。

这种风格，说实话，挺小米的。

一张图总结

模型	定位	核心亮点
MiMo-V2-Pro	旗舰Agent模型	万亿参数、1M上下文、专为Agent设计
MiMo-V2-Flash	极致性价比	150tokens/s、$0.1/M输入、全面开源
MiMo-V2-Omni	多模态理解	文本+图像+音频全模态融合
MiMo-V2-TTS	语音合成	为小米硬件生态打造的语音能力