小米大模型 MiMo-V2 再限免 1 周：继续给 OpenClaw 用户白嫖

小众软件

青小蛙

2026年3月26日 16:27

小米的大模型目前正在 Openrouter 上限免，包括 MiMo-V2-Pro、MiMo-V2-Omni 两款模型，均支持 OpenClaw，可以继续白嫖。@Appinn

小米大模型 MiMo-V2 再限免 1 周：继续给 OpenClaw 用户白嫖 42

青小蛙算是发现了，曾经的订阅是以年、月为单位，但在 AI 时代，以小时为单位，能免费用一周，都算很久了。

如果你正在折腾 OpenClaw 但又没有免费的大模型可用，这基本属于：白送一个可用模型来源。

小米 MiMo 是什么？

MiMo-V2 是小米推出的大模型，拥有超过 1T 的总参数量（42B 激活参数），支持 1M 超长上下文长度。在模型发布页面上，是这样描述的：全球权威大模型综合智能排行榜 Artificial Analysis 上，MiMo-V2-Pro 位列全球第八，国内第二。

小米大模型 MiMo-V2 再限免 1 周：继续给 OpenClaw 用户白嫖 43

在 OpenRouter 限免

目前 MiMo-V2-Pro、MiMo-V2-Omni 在 OpenRouter 限免，直到4月2日：

小米大模型 MiMo-V2 再限免 1 周：继续给 OpenClaw 用户白嫖 44

如何注册 OpenRouter

注册地址：https://openrouter.ai/sign-up
只需要输入邮箱、密码即可（支持 GitHub 登录）

获取 API Key

地址：https://openrouter.ai/workspaces/default/keys

这两个步骤，相比大家都轻车熟路了吧，获取的 API Key 以 sk-or-v1-xxxx 开头，注意保存，只会显示一次。

在 OpenClaw 中配置 MiMo-V2

OpenClaw 内置了 Openrouter 支持，只需要运行 openclaw configure，选择 Model > OpenRouter，然后输入 API Key：

小米大模型 MiMo-V2 再限免 1 周：继续给 OpenClaw 用户白嫖 45

在搜索 mimo 选择模型即可：

小米大模型 MiMo-V2 再限免 1 周：继续给 OpenClaw 用户白嫖 46

既然是白嫖，就选 MiMo-V2-Pro 好了

退到选单后，点击 continue 就可以正常退出配置模式了。

重启网关：

openclaw gateway restart

正常情况下，就可以使用了（但是，青小蛙测试失败了，一直无响应，求解决方案）

原文：https://www.appinn.com/xiaomi-mimo-v2-1-week-free/

本周的模型解决了，下周呢？

小米MiMo-7B技术报告深度解读：如何打造面向推理的高效大模型？

我爱自然语言处理

52nlp

2025年4月30日 14:48

近日，小米LLM-Core团队发布了MiMo-7B技术报告，详细介绍了其专为复杂推理任务设计的大语言模型系列。该模型通过创新的预训练与后训练策略，在数学、编程及通用推理任务中表现卓越，甚至超越参数量更大的主流模型。本文将深入解析其核心技术，探讨其设计思路与性能优势。

核心亮点速览

推理潜力爆发：7B参数的MiMo-7B-Base在数学与编程任务中超越32B量级模型。
两阶段优化：预训练阶段通过数据优化与多令牌预测（MTP）强化基础能力，后训练阶段基于强化学习（RL）实现精准调优。
高效基础设施：无缝滚动引擎将训练速度提升2.29倍，验证速度提升1.96倍。
开源共享：完整模型检查点（Base、SFT、RL）已开源，推动社区研究。

预训练：为推理而生的数据与架构设计

1. 数据优化：密度与多样性并重

高质量数据提取：开发专用HTML解析工具，保留数学公式与代码片段，提升推理模式密度。
三阶段混合策略：
- 阶段1：平衡数据分布，过滤低质量内容（如广告、新闻），提升专业领域数据权重。
- 阶段2：数学与代码数据占比增至70%，强化专项能力。
- 阶段3：引入10%合成推理数据（数学、代码、创意写作），上下文长度扩展至32K。
数据规模：总计25万亿Token，覆盖网页、论文、代码、书籍及合成数据。

2. 模型架构创新：速度与性能的平衡

基础架构：采用类Llama的Decoder-only Transformer，集成GQA（分组查询注意力）、RoPE（旋转位置编码）和SwiGLU激活函数。
多令牌预测（MTP）：
- 训练阶段：单层MTP辅助模型预测未来令牌，增强推理连贯性。
- 推理阶段：复制MTP层至多分支，通过推测解码（Speculative Decoding）加速生成，实测令牌接受率高达90%，显著降低延迟。

3. 预训练性能验证

评估基准：覆盖语言理解（MMLU、BBH）、数学（AIME、GSM8K）、代码（LiveCodeBench）等任务。
关键结果：
- 通用推理：BBH得分75.2，超越同规模模型5分以上。
- 数学能力：AIME 2024得分32.9，显著优于Qwen2.5-7B（10.1）。
- 长上下文：32K窗口内检索准确率接近100%，支持复杂推理链生成。

后训练：强化学习的精准调优

1. RL数据与奖励设计

数据筛选：
- 数学问题：保留原始题目（避免答案整数化），通过模型筛选过滤过难/过易样本。
- 编程问题：仅保留含有效测试用例的题目，剔除黄金解法失败的问题。
奖励机制：
- 数学验证：基于规则库Math-Verify严格判定答案正确性。
- 代码奖励：引入测试难度驱动奖励，参考IOI竞赛规则，按测试用例通过率分级赋分，缓解稀疏奖励问题。

2. 训练策略优化

动态采样：过滤通过率100%或0%的问题，维持有效梯度信号。
简单数据重采样：保留10%“已掌握”问题，缓解后期采样效率下降。
算法改进：移除KL损失、动态调整剪裁阈值（Clip-Higher），提升策略探索能力。

3. 基础设施加速

无缝滚动引擎：
- 持续滚动：异步执行生成与奖励计算，消除GPU空闲。
- 早期终止：动态终止长序列生成任务，平衡效率与稳定性。
vLLM增强：支持MTP加速推理，优化KV缓存一致性。

性能表现：全面领先的推理能力

1. 预训练模型（MiMo-7B-Base）

数学与代码：LiveCodeBench v5得分32.9，远超Llama-3.1-8B（0.4）和Qwen2.5-7B（5.0）。
长上下文：RULER评测中，多任务检索与推理准确率领先同类模型。

2. 强化学习模型（MiMo-7B-RL）

数学推理：AIME 2025得分55.4，超越OpenAI o1-mini（50.7）。
代码生成：LiveCodeBench v6得分49.3，领先QwQ-32B-Preview（39.1）10分以上。
通用能力：MMLU-Pro得分58.6，优于蒸馏版竞品。

挑战与启示

领域干扰：RL后期数学与代码任务性能难以同步提升，需更精细的奖励设计。
语言混合惩罚：中英文混合响应的检测与抑制仍具挑战，可能影响多语言场景表现。
轻量SFT陷阱：实验表明，仅对齐答案格式的轻量监督微调（SFT）会限制模型潜力。

开源与社区价值

小米开源了MiMo-7B全系列模型（Base、SFT、RL），为研究者提供了：

可复现的基线：完整训练流程与超参配置。
RL基础设施参考：无缝滚动引擎与vLLM优化实践。
跨领域启示：数据混合策略与测试难度驱动奖励可迁移至其他推理任务。

总结

MiMo-7B通过“预训练挖潜+后训练提效”的双阶段策略，证明了小模型在复杂推理任务中的巨大潜力。其核心创新——数据密度优化、MTP加速、测试难度奖励——为行业提供了新思路。未来，如何进一步平衡多领域性能、优化多语言支持，将是推理模型发展的关键方向。

附小米Mimo-7B技术报告英中对照版，仅供学习参考：

小米MiMo-7B技术报告英中对照版下载

阅读视图