阅读视图

Qwen3-VL技术报告英中对照版.pdf

2025年11月29日 18:34

Qwen3-VL 是阿里推出的最先进多模态基础模型，面向文本、图像、PDF、表格、界面（GUI）与视频的统一理解和推理任务。它具备 256K 原生上下文 的长文能力，能够跨数百页文档、完整教材、长视频进行稳定关联、定位与引用，是面向企业真实场景的全栈多模态引擎。

模型体系覆盖 2B / 4B / 8B / 32B Dense，以及 30B-A3B / 235B-A22B MoE，在延迟、吞吐与精度间提供灵活选择。多模态训练不仅未削弱语言能力，反而在多个 NLP benchmark 上优于纯文本大模型，使其在文本任务上也具备强竞争力。

技术核心升级有三点：

Interleaved-MRoPE：将时间/水平/垂直的频率交错排列，解决旧式 MRoPE 在长视频中的频率偏置问题，使视频时空建模更稳定。
DeepStack 视觉跨层注入：从视觉编码器的多个层级提取特征并注入 LLM 对应层，融合低层细节与高层语义，大幅提升视觉理解与推理精度。
文本式时间戳：用 <3.0 seconds> 这种显式 token 替代复杂的时间编码，为长时间序视频带来更可控、更通用的时间理解能力。

训练采用 四阶段预训练（8K→32K→256K）+ SFT + 强到弱蒸馏 + RL（Reasoning + General） 的完整体系，并提供 Thinking / Non-Thinking 双模式，兼顾推理能力与速度。

数据方面构建了庞大的多模态体系：高质量图文、网页与教材、PDF 解析（HTML/Markdown）、39 语言 OCR、3D/空间理解、动作/事件级视频语义、跨层 grounding、超过 6000 万的 STEM 题目、以及 GUI 与多工具 Agent 行为数据，使其具备高度覆盖现实场景的能力。

性能上，235B-A22B 在多模态推理、长文档理解、视频理解、OCR、空间推理等关键任务中普遍领先，部分任务接近或超过 Gemini 2.5 Pro / GPT-5 / Claude Opus；而 32B 也显著领先 GPT-5-mini 和 Gemini Flash，同等尺寸小模型（2B/4B/8B）在轻量级场景中具有强竞争力。

综合来看，Qwen3-VL 是面向企业场景的 多模态智能底座，可胜任从长 PDF 解析、图表理解、界面自动化、流程 Agent，到视频监控分析、技术文档检索、多模态代码生成等核心任务，覆盖从“理解 → 推理 → 决策 → 自动执行”的全链路智能能力。

附该技术报告英中对照版，仅供学习参考：

Qwen3-VL技术报告英中对照版下载

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

我爱自然语言处理

52nlp

2025年9月30日 09:01

近年来，大语言模型在处理长文本任务中展现出强大能力，但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek-AI 最近发布了实验性模型 DeepSeek-V3.2-Exp，通过引入一种新颖的稀疏注意力机制（DeepSeek Sparse Attention, DSA），在保持模型性能的同时，显著提升了长上下文任务中的训练与推理效率。

什么是 DeepSeek Sparse Attention？

DeepSeek Sparse Attention 主要由两个部分组成：

闪电索引器（Lightning Indexer）
细粒度令牌选择机制（Fine-Grained Token Selection）

传统的注意力机制在计算时需要关注序列中所有之前的令牌，导致计算复杂度为 O(L2)O(L2)，其中 LL 是序列长度。而 DSA 通过索引器为每个查询令牌筛选出最相关的 kk 个键值令牌，将复杂度降至 O(L⋅k)O(L⋅k)，其中 k≪Lk≪L。

具体来说，索引器会为每个查询令牌计算一个“注意力分数”，并只保留分数最高的 kk 个令牌参与后续的注意力计算。这一机制不仅减少了计算量，还保留了模型对关键信息的捕捉能力。

模型训练：从密集到稀疏

DeepSeek-V3.2-Exp 是基于 DeepSeek-V3.1-Terminus 继续训练得到的。训练过程分为两个阶段：

密集预热阶段：仅训练索引器，保持其余参数不变，使其输出的分数分布与原始注意力分布对齐。
稀疏训练阶段：引入令牌选择机制，同时优化索引器和主模型参数，使模型适应稀疏注意力模式。

整个训练过程使用了 128K 长度的上下文数据，总计训练了近千亿令牌。

性能表现：效率提升，性能不降

在多项基准测试中，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平，甚至在部分任务中有所提升。例如：

通用能力：MMLU-Pro、GPQA 等任务中表现稳定
搜索与代码任务：BrowseComp、Codeforces 等任务中略有提升
数学推理：AIME 2025 中表现更优

更重要的是，在长上下文推理场景中，V3.2-Exp 的推理成本显著降低。图3显示，随着序列长度增加，其推理速度优势愈发明显。

技术细节：MLA 架构下的 DSA 实现

DSA 是基于 DeepSeek 自研的 MLA（Multi-head Latent Attention）架构实现的，特别采用了 MQA（Multi-Query Attention）模式，使得每个键值条目可以被多个查询头共享，进一步提升计算效率。

未来展望

尽管内部测试结果令人鼓舞，DeepSeek-AI 仍在积极推进在真实场景中的大规模测试，以进一步验证稀疏注意力架构的鲁棒性与实用性。

小结

DeepSeek-V3.2-Exp 的发布，不仅展示了一种高效的长上下文处理方案，也为大模型在保持性能的同时降低计算成本提供了新的思路。如果你对技术细节感兴趣，可以访问其开源实现：

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
推理代码：https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp/tree/main/inference

希望这篇博客能帮助你理解 DeepSeek-V3.2-Exp 的核心价值与技术亮点。如果你有更多问题，欢迎继续提问！附该技术报告英中对照版，仅供学习参考：

DeepSeek-V3.2-Exp技术报告英中对照版下载

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

我爱自然语言处理

52nlp

2025年9月1日 15:23

近日，美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告，这是一款总参数量达 5600亿 的混合专家模型（Mixture-of-Experts, MoE），在保持高性能的同时，显著提升了训练与推理效率，尤其擅长处理需要多步推理和工具调用的智能体（Agent）任务。

一、核心创新：动态计算与通信优化

1. Zero-Computation Experts（零计算专家）

传统MoE模型中，每个token都会激活固定数量的专家，但LongCat-Flash引入了“零计算专家”机制，允许模型根据上下文重要性动态分配计算资源。简单来说，重要的token会激活更多专家，不重要的则激活较少甚至零计算专家，直接返回输入值，不进行额外计算。

每token激活参数量在 186亿~313亿 之间波动，平均约为 270亿；
通过PID控制器动态调节专家偏置，保持计算负载均衡；
在相同计算预算下，相比固定激活策略，验证损失显著降低。

2. Shortcut-Connected MoE（快捷连接MoE）

MoE模型在扩展时常遇到通信瓶颈。LongCat-Flash采用ScMoE结构，通过跨层快捷连接，将密集FFN计算与MoE层的通信操作重叠执行，大幅提升训练和推理效率。

训练损失与基线模型几乎一致，不影响模型质量；
推理时采用单批次重叠（SBO）调度，理论时间每输出token（TPOT）降低近50%。

二、训练策略：高效扩展与稳定性保障

1. 超参数迁移与模型增长

通过宽度缩放规则，将小模型（宽度768）的最佳超参数迁移到大模型（宽度6144），大幅节省调参成本；
采用模型增长初始化，将训练好的半规模模型堆叠成完整模型，加速收敛并提升最终性能。

2. 多维度稳定性控制

路由器稳定性：监控专家权重相似度和梯度范数比，防止负载均衡损失压制语言建模损失；
激活稳定性：引入隐藏z-loss，抑制异常大幅激活，避免训练中的数值溢出；
优化器稳定性：将Adam的ε设为极小的1e-16，避免梯度二阶矩被淹没。

三、多阶段训练与数据策略

1. 预训练阶段

使用超过20万亿token的多语料数据，涵盖网页、书籍、代码等；
采用两阶段数据混合策略，逐步提升STEM和代码数据的比例至70%；
支持128K长上下文，适用于长文档理解和代码库级任务。

2. 中训练与后训练

中训练：增强推理与代码能力，使用合成数据和知识图谱构建高质量问题；
后训练：针对智能体任务，构建多智能体合成框架，生成高难度、多轮交互的任务数据；
涵盖数学、代码、逻辑推理、指令遵循、长上下文、安全性等多个维度。

四、推理与部署：高吞吐、低延迟

1. 系统级优化

使用多token预测（MTP） 作为推测解码的草案模型，接受率超90%；
采用分层传输和分层量化，减少KV缓存传输开销；
支持FP8量化，在几乎不损失精度的情况下提升吞吐量。

2. 实测性能

在H800上推理速度达 100 token/秒，成本低至 $0.7 / 百万输出token；
在终端任务（TerminalBench）上表现优异，得分39.51，排名第二；
在自建智能体评测集VitaBench上取得最高分24.30，展现强大复杂任务处理能力。

五、综合评测结果

LongCat-Flash在多项基准测试中表现优异：

通用能力：MMLU 89.71，CEval 90.44，ArenaHard-V2 86.50；
数学推理：MATH500 96.40，AIME25 61.25；
代码生成：HumanEval+ 65.85，TerminalBench 39.51；
智能体工具使用：τ²-Bench 电信场景73.68，VitaBench 24.30；
安全性：在有害内容、犯罪信息、隐私保护等维度表现突出。

六、开源与社区贡献

LongCat-Flash已全面开源，包括模型权重、推理代码和部分训练数据，推动MoE架构、高效训练与智能体研究的进一步发展。

项目地址：https://github.com/meituan-longcat
Hugging Face：https://huggingface.co/meituan-longcat
在线体验：https://longcat.ai

结语

LongCat-Flash不仅在模型架构上实现创新，更在训练策略、系统优化和智能体能力培养方面树立了新的标杆。其高效的推理性能和优秀的任务表现，使其成为业界领先的开源MoE模型之一，有望推动AI智能体在真实场景中的广泛应用。

附美团LongCat-Flash模型技术报告英中对照版，仅供学习参考：

美团LongCat-Flash技术报告英中对照版下载

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

我爱自然语言处理

52nlp

2025年8月11日 17:14

在追求通用人工智能（AGI）的道路上，智能体能力（Agentic）、复杂推理（Reasoning） 和编程能力（Coding） 是衡量大模型综合实力的“黄金三角”。而最新开源的 GLM-4.5 系列，正是以“ARC三位一体”为目标打造的超级模型，以3550亿参数登顶全球开源模型性能前三！

一、核心突破：MoE架构 + 混合推理模式

1. 高能效设计

总参数3550亿，激活参数仅320亿（MoE稀疏激活），计算效率提升3倍
对比：参数量仅为DeepSeek-V3（6710亿）的一半，Kimi-K2（10430亿）的1/3
GLM-4.5-Air轻量版：1060亿参数，性能仍超多数百亿级模型

2. 混合推理引擎

markdown

| 推理模式     | 适用场景                  | 技术特点               |
|--------------|---------------------------|------------------------|
| 思考模式     | 数学/科学/多步工具调用    | 长链式思维（CoT）      |
| 直答模式     | 聊天/翻译/简单问答        | 低延迟响应             |

模型可动态切换模式——复杂问题启动深度思考，简单任务秒级回应，兼顾效率与精度。

二、性能屠榜：ARC三项全能冠军

1. 智能体能力（Agentic）

TAU-Bench（真实场景工具调用）：79.7% 准确率，超越Gemini 2.5 Pro
BrowseComp（网页信息检索）：26.4%，碾压Claude Opus 4 (18.8%)
创新函数调用模板：用XML标签替代JSON，减少90%转义字符（见图4）

2. 推理能力（Reasoning）

AIME 24（国际数学竞赛题）：91.0% 正确率，逼近人类奥赛选手水平
HLE人类终极考试：14.4% 得分，全球仅4个模型超过10%
动态温度采样RL：防止强化学习后期陷入局部最优

3. 编程能力（Coding）

SWE-bench Verified（真实GitHub issue修复）：64.2% 通过率
Terminal-Bench（终端操作）：37.5%，超越Claude Sonnet 4
CC-Bench实测：工具调用成功率90.6%，碾压Qwen3-Coder（77.1%）

综合ARC 12项基准：全球排名第3（开源第1），智能体单项排名第2！

三、训练黑科技：三阶段锻造ARC铁三角

1. 预训练数据革命

23T高质量Token，分层处理网页/代码/学术数据
创新过滤技术：
- SemDedup：语义去重剔除模板网页
- 质量分桶：高分数据重复3.2个epoch，强化核心知识

2. 中训练（Mid-Training）

128K上下文支持：从4K→128K分阶段扩展，RoPE频率调整至100万
跨文件代码训练：拼接同仓库代码文件，学习项目级依赖

3. 后训练专家蒸馏

python

# 专家迭代流程
1. 分领域训练专家模型：推理专家 + 智能体专家 + 通用聊天专家
2. 自我蒸馏融合：将专家能力注入统一模型
3. 混合强化学习：
   - 推理RL：难度分级课程（先易后难）
   - 智能体RL：轨迹自蒸馏迭代
   - 病理RL：根治语言混合/格式错误

四、真实场景碾压性体验

1. 逻辑推理

新构建高难度逻辑题库：62.0分，持平DeepSeek-R1（62.1）
动态规划/归纳推理错误率降低37%

2. 颠覆级翻译能力

理解网络梗+文化符号：如“yyds”→“永远的神”
上下文推理：输入：“三花公主驾到，速来围观”
输出：“The Calico Princess has arrived! Come and see!”
（准确识别“三花”指三花猫）
人类评分1.71，碾压专业翻译模型Qwen-MT（0.38）

3. 终端编程实测

在Docker隔离环境测试52个开发任务：
- VS Claude Sonnet 4：40.4%胜率 + 50%平局
- VS Kimi K2：53.9%胜率，工具调用效率高4.4%

五、开源意义：中国大模型的新里程碑

模型全开源：HuggingFace、BigModel.cn、GitHub同步发布
评测工具包：https://github.com/zai-org/glm-simple-evals
免费商用：支持128K上下文，可部署于消费级显卡集群

开发者提示：轻量版GLM-4.5-Air在106B参数下实现接近GPT-4的性能，推理成本降低60%！

结语：ARC时代的新王者

GLM-4.5不仅证明了中国团队在MoE架构和强化学习领域的顶尖实力，更首次实现智能体-推理-编程三大能力的统一。其开源将加速AI智能体的实际落地——从自动代码修复到网页信息挖掘，一个真正“会思考、能执行”的AI时代正在到来。

项目地址：https://github.com/zai-org/GLM-4.5
在线体验：https://z.ai （支持128K上下文对话）

延伸阅读：报告中隐藏的4大技术彩蛋

推理RL黑科技：Token加权损失函数，比序列级loss收敛快2倍
长轨迹智能体训练：异步RL框架Slime，支持Docker环境高并发
安全防护：SafetyBench综合得分89.9，伦理类问题94.3分
中文场景优化：文本生成得分9.0，逻辑推理9.27（满分10）

本文数据均来自GLM-4.5技术报告，更多技术细节参见原始论文，附英中技术报告对照版，仅供学习参考：

GLM-4.5技术报告英中对照版下载

OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版

我爱自然语言处理

52nlp

2025年8月6日 11:26

OpenAI 发布的 gpt-oss-120b 与 gpt-oss-20b 是首批面向开源社区、同时强调“强推理+工具调用”的权重开放模型。以下从性能、安全与生态三个维度给出简评。

性能：小模型也能打
• 在 AIME、GPQA 等硬核数学与科学基准上，120b 版本已逼近 o4-mini，20b 版本虽参数少 6 倍，却仍能超过 o3-mini，验证了 MoE+可变推理长度方案的有效性。
• 代码与工具场景是最大亮点：Codeforces Elo 2463（120b, high）、SWE-Bench Verified 62.4%，均刷新同尺寸开源模型纪录；τ-Bench 也展示了可插拔函数调用的工程友好性。
• 多语言与医疗问答表现亮眼，HealthBench 上 120b 几乎对齐 o3，给低成本、本地部署的健康咨询带来想象空间。
安全：开放权重带来的“双刃剑”
• 默认对齐：沿用 deliberative alignment 与 instruction hierarchy，标准违禁内容评估与 o4-mini 持平，Production Benchmarks 甚至略优，显示基础拒答能力已达标。
• 风险上限：OpenAI 罕见地公开了“红队微调”实验——在内部用最强 RL 栈对 120b 进行生物与网络安全方向的对抗训练，结果仍“未触及 High 风险阈值”，并邀请 METR、SecureBio 等外部专家复核，为社区提供了可信的风险锚点。
• 责任下沉：模型卡反复提醒“开源≠无责”，开发者需自行叠加内容审核、CoT 过滤与 prompt 防护，这对本地化部署者提出了更高工程要求。
生态与启示
• Apache 2.0 许可证 + 量化到 4.25bit，使 120b 可单机 80 GB GPU 运行，20b 仅需 16 GB，门槛大幅降低。
• Harmony chat format 与配套工具链（浏览、Python、开发者函数）提供了近似 ChatGPT 的代理体验，降低了二次开发成本。
• 作为首批“官方开源推理模型”，其评估框架（生物、网络、AI 自我改进）与透明红队方法论，或将成为后续开源大模型的安全基线。

gpt-oss-120b/20b 的最大价值不仅是“性能对标闭源”，更在于示范了“开放权重+开放评估+可控风险”的新范式：让社区既能拿到可商用、可微调的强模型，又能复现其风险测量与缓解路径。对于追求本地私有化、成本敏感或需深度定制的开发者，这套组合极具吸引力；对于行业而言，它把“安全可验证的开源大模型”向前推进了一大步。

以下是该技术报告英中对照版，仅供学习参考：

openai-gpt-oss-120b-gpt-oss-20b模型卡英中对照版下载

从万亿参数到智能体：Kimi K2 技术报告全景解读

我爱自然语言处理

52nlp

2025年7月22日 14:13

1. 引言：为什么 K2 值得关注？

过去两年，大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能体能力（Agentic Intelligence）」。
Kimi K2 用一份 32 页的技术报告告诉我们：开源模型第一次在「非思考」条件下，同时在代码、数学、工具调用三大硬核基准上逼近甚至超越 Claude-4 系列。
更重要的是，K2 用一套完全开源的权重 + 数据管线 + RL 框架，把「智能体」这件事做到了可复现、可扩展、可落地。

2. 模型概览：一图看懂 K2 的「身材」

维度	K2	DeepSeek-V3	Llama4-Maverick
总参数	1.04 T (MoE)	671 B (MoE)	400 B (MoE)
激活参数	32 B	37 B	17 B
专家数	384	256	-
注意力头	64 (节省 83% FLOPs)	128	128
上下文	128 k	128 k	128 k

一句话总结：在同样 32 B 激活量的前提下，K2 把专家数提升到 384，用更稀疏但更大的「外脑」换来单位 FLOP 的更高收益。

3. 预训练：如何让 15.5 T tokens 发挥 30 T 的价值？

3.1 MuonClip：让 Muon 优化器告别“爆炸”

痛点：Muon 比 AdamW token-efficient，但 attention logit 容易爆炸到 1000+，导致 loss spike。
解法：提出 QK-Clip —— 每 head 实时检测 logit 最大值，仅在必要时对 Query/Key 权重做 per-head 的轻量级缩放。
效果：
- 全 15.5 T tokens 零 loss spike；
- 小模型 ablation 显示对收敛几乎无损（<0.1%）。

3.2 数据炼金术：把一条知识变十条

Knowledge 重写管线：
- 风格多样化 prompt → chunk-wise 自回归改写 → 语义一致性校验；
- SimpleQA 实验：10 次改写 + 1 次 epoch 比 10 次重复 epoch 绝对提升 5.2%。
Math 重写管线：
- 引入 SwallowMath 的「学习笔记」格式，把数学证明改写成步骤化讲解；
- 多语言翻译进一步扩量 30%。

结论：在高质量数据见顶的时代，「可控改写」成为新的数据杠杆。

4. 后训练：合成 20 k 工具 + RL 闭环

4.1 超级工具工厂：从 API 文档到可执行沙箱

K2 构建了一个三层合成管线：

Tool Spec 生成
- 3000+ 真实 MCP 工具（GitHub 爬取）
- 20000+ LLM 合成工具，覆盖金融、机器人、软件等 50+ 领域
Agent & Task 生成
- Agent persona 随机采样（性格、知识、可用工具）
- Rubric-based task：每个任务带成功标准、期望调用链
Trajectory 生成与过滤
- 多轮用户模拟 + 沙箱执行
- LLM Judge 打分，保留 success rate > 90% 轨迹
- Hybrid 沙箱：真实 Docker/K8s 环境 + 模拟器，兼顾规模与真实性

最终产出 数十万条 高质量工具调用轨迹，用于 SFT。

4.2 RL 框架：从可验证奖励到自我批判

Verifiable Rewards Gym
- 数学、逻辑、代码、指令遵循等 100+ 任务，全部可自动判题；
- 采用 预算控制：按任务类型设定 max_tokens，防止 RL 把答案写成小说。
Self-Critique Rubric Reward
- 用 K2 自己当裁判， pairwise 比较回答；
- 裁判模型在可验证任务上持续微调，保证主观打分不失焦。
算法细节
- 沿用 K1.5 的 policy gradient，新增：
  - PTX loss：混入高质量预训练数据，防止灾难遗忘；
  - Temperature decay：训练后期降温，提升稳定性。

5. 评估：把「非思考」做到极致

5.1 代码与软件工程

基准	K2	开源 SOTA	闭源标杆
SWE-bench Verified (multi-attempt)	71.6 %	54.6 % (DeepSeek)	80.2 % (Claude-4-Sonnet)
SWE-bench Multilingual	47.3 %	25.8 %	51.0 %
LiveCodeBench v6	53.7 %	46.9 %	48.5 %

解读：在「不思考」设定下，K2 把开源天花板抬高了 10~20 个百分点，与 Claude-4 的差距缩小到 5 个百分点以内。

5.2 工具调用

τ²-Bench (平均)：66.1 %，领先第二名 17+ 点
ACEBench：76.5 %，超过 GPT-4.1（74.5 %）

5.3 数学 & STEM

AIME 2024：69.6 %（开源第一，领先 DeepSeek 10 点）
GPQA-Diamond：75.1 %（开源第一）

5.4 LMSYS Arena 真实用户投票

7 月 17 日榜：开源第 1，全榜第 5，3 k+ 人类盲投

6. 系统：1 T 模型如何 30 秒热启动？

Colocated RL 架构
- 训练 / 推理双引擎同节点，GPU 0 等待；
- Checkpoint Engine 分布式广播，30 s 完成 1 T 参数更新。
Pipeline 优化
- EP=16 最小专家并行，降低 all-to-all 开销；
- FP8 缓存 + CPU offload，单机 30 GB 显存即可跑 128 k 上下文。

7. 局限与展望

作者坦诚当前局限：

复杂推理下容易“话痨”，导致输出截断；
工具定义模糊时误调用；
单轮一次性项目生成成功率仍低于 Agentic 框架。

未来路线图：

工具自省：让模型先判断“需不需要用工具”；
推理-行动融合：把 long-CoT 与工具调用做成统一 token 预算；
端侧轻量化：32 B 激活量已在 4090 可跑，下一步做 8 B/4 B 蒸馏。

8. 写给开发者 & 研究者的三点 takeaway

数据策略 > 参数魔法：在 1 T 参数以下，「高质量合成 + 重写」仍是提效最快路径。K2 的 rephrasing 代码已开源，可快速迁移到垂直领域。
Agentic 数据管线可复制：工具-任务-轨迹三层抽象 + 混合沙箱，基本覆盖 80% 真实场景。
RL 基础设施进入「工业化」阶段：30 秒热启动、万级并发沙箱、FP8 显存优化，意味着 RL 不再是炼丹，而是可规模化的产品组件。

9. 结语

Kimi K2 用 15.5 T tokens、32 B 激活、1 T 总参数，把「开源模型做不到的事」清单划掉了一大半。
更重要的是，它把「如何训练一个可落地的智能体」拆解成了可复现的配方：

高效优化器 + 合成数据工厂 + 可验证 RL = Agentic Intelligence at scale

接下来，轮到社区去玩出更多花样了。

附录：相关链接

模型权重：https://huggingface.co/moonshotai/Kimi-K2-Instruct
技术报告 PDF：https://github.com/MoonshotAI/Kimi-K2
在线体验：https://kimi.moonshot.cn

附技术报告英中对照版，仅供学习参考：

KIMI-K2-技术报告英中对照版

解码Google Gemini 2.5：推理、多模态与智能体能力的革命性突破

我爱自然语言处理

52nlp

2025年7月15日 11:15

近日，Google DeepMind发布了震撼业界的Gemini 2.5系列模型技术报告，标志着大模型技术迈入全新阶段。作为谷歌迄今最强大的AI模型，Gemini 2.5 Pro不仅在传统基准测试中大幅刷新记录，更在长上下文理解、复杂推理和多模态智能体能力上实现质的飞跃。本文将深度解析这一技术里程碑的核心突破与潜在影响。

一、架构革新：从混合专家到思维引擎

Gemini 2.5系列基于稀疏混合专家模型（MoE） 架构，但进行了关键升级：

动态路由优化：通过改进token到专家的分配策略，计算效率提升40%（相比Gemini 1.5 Pro）
训练稳定性突破：采用分阶段静默数据损坏检测技术，将故障定位时间从小时级缩短至分钟级
TPUv5p超算级训练：跨数据中心8960芯片集群同步训练，93.4%时间用于有效计算

最革命性的创新是 “Thinking”机制：

# Thinking机制伪代码示例
def generate_response(query):
    thought_tokens = allocate_thinking_budget(query)  # 动态分配计算资源
    for _ in range(thought_tokens):
        internal_state = refine_thought(internal_state, query)  # 迭代推理
    return finalize_response(internal_state)

该机制允许模型在响应前进行数万次前向传播，显著提升复杂问题解决能力。在AIME 2025数学竞赛基准上，思考预算增加使准确率从72%跃升至88%。

二、多模态理解：突破时空限制

Gemini 2.5 Pro实现了前所未有的多模态处理能力：

3小时视频解析：通过视觉token压缩技术（每帧66 token vs 旧版258 token）
跨模态转换：可将讲座视频实时转化为交互式测验应用（Baddepudi et al., 2025）
音频流式处理：支持24种语言的对话式语音交互，情感识别误差降低35%

在VideoMME视频理解基准上，Gemini 2.5 Pro以84.3% 准确率超越GPT 4.1的72%，尤其在时空推理任务（如寻找跨镜头关联事件）上优势显著。

三、智能体生态：从编码到自主决策

报告展示了Gemini作为智能体平台的核心能力：

代码革命：LiveCodeBench得分从30.5%(1.5 Pro)飙升至74.2%，SWE-bench验证任务提升33%
Gemini Deep Research：网络研究代理在Humanity's Last Exam基准半年内从7.95%提升至32.4%
Pokémon通关案例：在813小时游戏过程中展现长程规划能力，解决包含150步操作的迷宫难题

四、安全与评估的双重挑战

尽管能力飞跃，报告揭示了关键挑战：

评估范式危机：
- Humanity's Last Exam单题设计成本高达$5000
- Gemini在Aider Polyglot基准一年内性能提升5倍，传统基准快速饱和
安全防护创新：
- 自动化红队系统(ART)：通过多智能体对抗生成百万级测试用例
- 间接提示注入防御：新型对抗训练使攻击成功率降低80%
- 记忆控制：训练数据泄露风险比前代降低14倍

在关键能力评估中，Gemini 2.5 Pro尚未达到网络安全关键能力阈值（仅完成50%专业级攻防挑战），但已触发谷歌的加速监控机制。

五、开发者生态战略布局

Gemini 2.X系列覆盖完整帕累托前沿：

模型类型	核心优势	适用场景
Gemini 2.5 Pro	极限推理/多模态	科研、复杂代理系统
Gemini 2.5 Flash	动态计算平衡	企业级应用
2.0 Flash-Lite	0.1秒响应延迟	移动端大规模部署

通过AI Studio平台，开发者可直接调用：

原生图像生成（2.0 Flash）
可控TTS语音合成（支持80+语言）
百万token上下文处理API

六、未来展望：逼近通用AI的最后壁垒

Gemini 2.5的突破印证了三个趋势：

计算分配智能化："Thinking"机制预示动态资源调度将成为模型标配
多模态统一架构：文本/图像/视频/音频在向量空间实现深度融合
评估范式革命：传统静态基准正被自我进化的评估智能体取代

正如DeepMind CEO Hassabis所述："我们正在构建的不仅是工具，而是能理解并主动解决人类复杂需求的通用助手。" 当模型能在46分钟视频中精确定位1秒事件（见附录8.5），或在无视觉输入时仅靠RAM数据通关Pokémon，AI的能力边界已超越人类传统认知框架。

技术启示录：Gemini 2.5的进化速度暴露了AI领域的核心矛盾——当模型能力呈指数增长时，人类设计评估体系的能力却停滞在线性阶段。下一次范式突破，或许将始于AI自主设计评估标准的那一刻。

探索Gemini 2.5技术细节，附gemini 2.5技术报告英中对照版，仅供学习参考：

gemini_v2.5技术报告英中对照版下载

MiniMax-M1：闪电注意力重塑大模型推理效率，百万上下文时代来临，附技术报告英中对照版

我爱自然语言处理

52nlp

2025年7月3日 17:14

一、核心创新：闪电注意力 + 混合架构

1. 闪电注意力（Lightning Attention）

问题根源：传统Transformer的Softmax注意力存在O(n²)计算复杂度，限制长文本处理能力（如DeepSeek-R1仅支持128K上下文）。
解决方案：
- 采用线性注意力变体（Qin et al.），通过核函数近似Softmax，将复杂度降至O(n)。
- I/O感知优化：减少GPU内存读写次数，实测生成100K token的FLOPs仅为DeepSeek-R1的25%。
效果：
- 原生支持1M token输入（8倍于DeepSeek-R1）
- 输出长度扩展至80K token（超越Gemini 2.5 Pro的64K）

2. 混合专家架构（MoE-Hybrid）

设计：每7个闪电注意力层 + 1个Softmax注意力层（共456B参数，激活45.9B/Token）
优势：
- 保留局部感知能力（Softmax层）的同时，实现长序列高效处理。
- 通过四阶段平滑扩展策略（32K→1M），解决训练中梯度爆炸问题。

二、训练革命：CISPO算法 + 高效RL框架

1. CISPO：重新定义RL训练稳定性

传统RL痛点：PPO/GRPO裁剪Token更新会抑制关键推理Token（如“However”、“Recheck”），阻碍复杂推理行为涌现。
创新方案：
- 裁剪重要性采样权重而非Token更新（公式4-5），保留所有Token的梯度贡献。
- 实验验证：在AIME数学基准上，训练效率2倍于DAPO（50%步数达成相同性能）。

2. 低成本大规模RL训练

工程优化：
- 修复FP16精度误差：LM输出头升级至FP32，训练/推理概率对齐至0.99+。
- 动态截断：检测重复模式（连续3000 Token概率>0.99）提前终止生成。
成果：
- 仅用512张H800 GPU，3周完成全量RL训练（成本53.47万美元）
- 发布40K/80K思考预算双版本模型。

三、数据策略：真实场景驱动的多任务强化

1. 可验证任务（规则驱动）

数学推理：50K竞赛级问题，过滤Pass@10∈(0,0.9)的样本防过拟合。
软件工程：构建GitHub问题沙箱（SWE-bench衍生），执行测试用例作为RL奖励信号。
逻辑推理：SynLogic框架生成53K密码/数独等任务，动态调整难度参数。

2. 开放域任务（模型驱动）

长度偏差治理：监测RL中“长文本投机行为”，动态校准奖励模型。
课程学习策略：
- 先训练可验证任务（数学/代码）
- 逐步混合开放域任务（写作/问答）
- 防止灾难性遗忘的同时提升泛化性。

四、性能实测：长上下文场景碾压级优势

任务类型	MiniMax-M1-80K	DeepSeek-R1	Gemini 2.5 Pro
软件工程(SWE-bench)	56.0%	34.4%	67.2%
长上下文(1M MRCR)	58.6%	-	58.8%
工具调用(TAU零售)	67.8%	58.6%	67.0%
数学推理(AIME2025)	76.9%	81.5%	88.0%

关键结论：

长上下文王者：1M输入理解接近Gemini 2.5 Pro，80K输出超越Claude 4 Opus（32K）。
工具代理标杆：TAU工具调用击败Gemini和OpenAI o3。
数学短板：落后DeepSeek-R1-0528约5%，反映MoE架构对符号推理的优化空间。

五、开源与影响：大模型平民化的里程碑

全面开源：
- 模型权重、训练代码、部署指南（GitHub/Hugging Face）
- 支持vLLM/Transformers推理框架，提供商业API（minimax.io）。
行业意义：
- 首开先河：验证线性注意力在大规模RL中的可行性，为后续模型（如Mamba、RWKV）铺路。
- 成本革命：百万上下文推理成本降低75%，加速企业级Agent应用落地。

六、未来挑战

数学推理优化：混合架构对符号逻辑的适应性待提升。
长度偏差根治：奖励模型仍需在线校准防“注水文本”。
生态建设：工具链完善度较Transformer生态仍有差距。

技术启示录：
MiniMax-M1的突破证明——高效≠妥协。当闪电注意力撕开O(n²)的铁幕，当CISPO算法驯服RL训练的野性，我们终将见证：推理的长度不再受限，智能的边界在于想象。开源之火，正燎原至每个角落的创造者手中。

附MiniMax-M1技术报告英中对照版，仅供学习参考：

MiniMax-M1技术报告英中对照版下载

小红书dots.llm1：重新定义MoE效率边界，14B激活参数挑战72B密集模型极限

我爱自然语言处理

52nlp

2025年6月11日 10:53

核心突破：极简激活的超级大脑

142B总参数 | 14B动态激活（每token激活6个专家+2个共享专家）
性能对标：Qwen2.5-72B、DeepSeek-V3等顶级模型
训练成本仅1/4：11.2T token预训练耗用146万GPU小时（Qwen2.5-72B需612万小时）
推理经济性：单节点8张GPU（40/80GB）即可部署

MoE架构精要：

128路由专家 + 2共享专家（SwiGLU激活的细粒度FFN）

FP32门控层：保障路由稳定性

无辅助损失负载均衡（借鉴DeepSeek-V2）：动态偏置项调节专家利用率

序列级均衡损失：杜绝单序列内负载倾斜

三大技术支柱撑起SOTA表现

1. 数据工程：11.2T高质量token的炼金术

三阶段处理框架：
- 文档准备：URL过滤+文本提取（优化版trafilatura）
- 规则处理：
  - 行级去重：消除页眉/页脚冗余（保留前5行+后5行的低频内容）
  - 模糊去重：MinHash+LSH实现80%相似度过滤（97.42%召回率）
- 模型处理：
  - 网页分类器：保留文本密集型页面
  - 质量模型：1.5B评分网络筛选高信息密度文本
  - 语义去重：BGE-M3嵌入+KMeans聚类（相似度>0.95剔除）
中英1:1平衡 + 知识类别再平衡：
200类分类器提升百科/科普权重，压缩小说/商品描述占比

2. 训练基础设施：通信与计算的极致优化

1F1B流水线调度：
- 创新性增加预热步骤，实现All-to-All通信与计算重叠
- 内存效率优于DeepSeek的DualPipe方案（牺牲约5%气泡率）
分组GEMM加速：
- Token分块对齐：统一WGMMA指令的Tile粒度
- 性能碾压：H800上比NVIDIA Transformer Engine快14%（前向）/6.7%（反向）

3. 训练策略：稳定性的科学

分段学习率：4k步预热→10T token稳定期（3e-4）→两阶段退火（3e-5→1e-5）
动态批大小：64M → 96M（6T token）→ 128M（8.3T token）
32K上下文扩展：
采用UK策略（UnTie the Knots）——打乱文档分块并训练模型重组，保留短上下文能力

性能实测：以小博大的典范

能力维度	关键指标	dots.11m1表现	对标模型
中文理解	C-Eval (5-shot)	92.8	超Qwen2.5-72B (89.3)
数学推理	AIME24	33.1	逼近DeepSeek-V3 (34.0)
代码生成	HumanEval (Pass@1)	88.4	接近GPT-4o (92.1)
长上下文	RULER-32K	87.7	落后Qwen2.5-72B(92.7)
综合成本	GPU小时/万亿token	13万	Qwen2.5-72B的38%

现象级发现：
数学任务中零样本比少样本强4+分，暗示模型内在推理机制特殊（作者称留待未来研究）

开源革命：透明化训练进程

每1T token发布中间检查点：
首次提供LLM训练动态的完整观测窗口，助力社区研究学习轨迹
全流程开源：
数据处理代码/训练框架/模型权重（HuggingFace & GitHub）

技术启示录

数据质量 > 数据规模：
TxT360对比实验证明——优质网页数据使1.5B小模型性能提升15%+
MoE负载均衡无需代价：
无辅助损失设计验证了“平衡性可不牺牲性能”
系统级创新才是硬道理：
分组GEMM优化带来实质训练加速，算法-硬件协同是关键

未来方向：

稀疏注意力（GQA/MLA）+ 更稀疏MoE层

人类学习效率模拟：从数据中提取最大化知识密度

结语
dots.llm1用工程严谨性证明：效率与性能可兼得。当业界追逐万亿参数时，它选择让每比特算力发挥极致价值——这或是AGI时代更可持续的路径。

附小红书dots.llm1技术报告英中对照版，仅供学习参考：

小红书dots.llm1技术报告英中对照版

Qwen3 Embedding 技术解析：多语言文本嵌入与重排序的新标杆

我爱自然语言处理

52nlp

2025年6月6日 10:08

阿里巴巴通义实验室发布的 Qwen3 Embedding 系列模型在文本嵌入（Embedding）和重排序（Reranking）任务上实现了重大突破。本文深入解读其核心技术、创新点及性能表现。

一、核心目标与背景

文本嵌入（将文本转化为稠密向量）和重排序（对检索结果进行精细化排序）是信息检索、RAG（检索增强生成）和智能体系统的基石。随着大语言模型（LLM）的发展，传统方法（如基于BERT的编码器）面临多语言支持弱、指令泛化能力差、专业领域（如代码）表现不足等问题。Qwen3 Embedding 系列旨在解决这些痛点，提供高效且强大的开源解决方案。

二、模型架构设计

1. 基础架构

骨干网络：基于 Qwen3 基础模型（Decoder-Only 架构），提供 0.6B/4B/8B 三种参数规模。
上下文长度：全系列支持 32K Tokens，适应长文档处理。
指令感知（Instruction Aware）：支持通过指令（I）动态定义任务目标（如“判断法律文档相关性”）。

2. 嵌入模型（Embedding）

输出生成：在输入文本末尾添加 [EOS] token，取其最后一层隐藏状态作为嵌入向量。
输入格式：
{Instruction} {Query}</endoftext>
（文档无需拼接指令）
灵活维度：支持自定义输出维度（1024/2560/4096），便于适配不同下游系统。

3. 重排序模型（Reranker）

任务形式：将相关性判定转化为 二分类问题（输出"Yes"/"No"）。
输入格式：复制下载<|im_start|>system Judge whether the Document meets the requirements based on the Query and the Instruct. Answer only "yes" or "no". <|im_end|> <|im_start|>user <Instruct>: {Instruction} <Query>: {Query} <Document>: {Document} <|im_end|>
得分计算：基于"Yes"的概率归一化值：
$\text{score}(q,d)=\frac{e^{P(\text{yes}|I,q,d)}}{e^{P(\text{yes}|I,q,d)}+e^{P(\text{no}|I,q,d)}}$

三、创新训练策略

1. 多阶段训练流程

阶段	嵌入模型	重排序模型
弱监督预训练	1.5亿合成数据对	不适用
监督微调（SFT）	700万标注数据 + 1200万精选合成数据	高质量标注数据
模型合并（Merge）	多检查点球面线性插值（Slerp）	多检查点球面线性插值

2. 关键创新点

LLM驱动的数据合成：
- 使用 Qwen3-32B 生成 1.5亿多任务、多语言文本对。
- 通过角色扮演（从Persona Hub选角色）和多维控制（任务类型、语言、长度、难度）提升数据多样性和真实性。
- 示例：为文档生成“PhD难度+法官角色+总结型问题”的查询。
高质量数据筛选：用余弦相似度 >0.7 过滤合成数据，得到1200万高质量子集用于SFT。
模型合并技术：合并训练过程中多个检查点，显著提升模型鲁棒性和泛化能力（消融实验显示性能提升1.77分）。

3. 损失函数

嵌入模型：改进的对比损失（InfoNCE变体），引入掩码机制过滤假负例：
$L_{\text{embedding}}=-\frac{1}{N}\sum_i\log\frac{e^{s(q_i,d_i^+)/\tau}}{\sum\limits_{\text{neg}}e^{s(q_i,d_{\text{neg}})/\tau}}$
重排序模型：标准监督微调损失（SFT Loss）：
$L_{\text{reranking}}=-\log p(l|\mathcal{P}(q,d))$

四、性能表现：全面领先

1. 文本嵌入模型（MTEB基准）

模型	参数量	MTEB多语言	MTEB英文	CMTEB中文	MTEB代码
Gemini-Embedding	-	68.37	73.30	-	74.66
Qwen3-Embedding-0.6B	0.6B	64.33	70.70	66.33	75.41
Qwen3-Embedding-4B	4B	69.45	74.60	72.26	80.06
Qwen3-Embedding-8B	8B	70.58	75.22	73.84	80.68

亮点：

8B模型在多语言、代码检索任务全面超越Gemini。

0.6B小模型在代码检索（75.41）显著优于7B级竞品（如gte-Qwen2-7B的56.41）。

2. 重排序模型

模型	基础检索分	重排序后提升
Qwen3-Embedding-0.6B	61.82	-
Qwen3-Reranker-0.6B	-	+3.98
Qwen3-Reranker-8B	-	+7.12

在跨语言检索（MMTEB-R）、代码检索（MTEB-Code）等任务中，8B重排序器提升超7分。

五、关键洞见与消融实验

合成数据必要性：
- 移除弱监督预训练阶段，0.6B模型性能下降3.12分（Table 5）。
模型合并的价值：
- 未合并的模型比最终版低1.77分，证明合并有效提升鲁棒性。
指令感知的普适性：
- 通过自定义指令，同一模型可适配检索、分类、相似度计算等不同任务。

六、应用与开源

适用场景：多语言搜索、代码库检索、RAG系统、长文档分析。
部署优势：提供0.6B轻量级模型，满足边缘计算需求。
开源信息：
- 代码库：https://github.com/QwenLM/Qwen3-Embedding
- Hugging Face：https://huggingface.co/Qwen
- 协议：Apache 2.0

七、总结

Qwen3 Embedding 系列的核心突破在于：

LLM赋能的训练流程：用大模型合成高质量数据，突破传统数据瓶颈。
灵活的多阶段训练：弱监督预训练 + 精标数据微调 + 模型合并，兼顾规模与质量。
极致性能：在代码检索、多语言任务上显著超越开源与商业模型（如Gemini）。

该工作不仅推动了文本表示技术的发展，其“指令即任务”的设计理念和开源策略，更为社区构建下一代检索系统提供了强大基础。

参考文献：
[1] Zhang Y. et al. Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models. 2025.
[2] Enevoldsen K. et al. MMTEB: Massive Multilingual Text Embedding Benchmark. ICLR 2025.
[3] Xiao S. et al. C-Pack: Packed Resources for General Chinese Embeddings. SIGIR 2024.

附Qwen3 Embedding技术报告英中对照版，仅供学习参考：

Qwen3-Embedding技术报告英中对照版下载

解密小米MiMo-VL：7B小模型如何实现多模态SOTA性能

我爱自然语言处理

52nlp

2025年5月30日 15:13

近日，小米开源社区发布了MiMo-VL-7B视觉语言模型技术报告，其SFT（监督微调）和RL（强化学习）版本在40多项多模态任务评测中表现惊艳，尤其在复杂推理和GUI交互领域刷新了开源模型记录。本文将深入解析其核心技术方案。

一、核心架构设计

MiMo-VL采用经典的三模块架构：

视觉编码器：基于Qwen2.5-ViT，支持原生分辨率输入保留细节
跨模态投影层：MLP结构实现视觉-语言特征对齐
语言模型：小米自研MiMo-7B基础模型，专为复杂推理优化

图：模型架构示意图（来源：技术报告Figure 2）

二、四阶段预训练策略（2.4万亿Token）

阶段	目标	关键数据	序列长度
1	投影层预热	图文对	8K
2	视觉-语言对齐	图文交错数据	8K
3	多模态预训练	OCR/视频/GUI/推理数据	8K
4	长上下文SFT	高分辨率图像/长文档/长推理链	32K

核心突破：在阶段4注入合成推理数据（含长思维链），使模型在MMMU任务响应长度从680 token跃升至2.5K token，推理深度显著提升。

三、混合强化学习（MORL）

创新性地融合两类奖励信号：

可验证奖励（RIVR）：
- 数学推理：基于Math-Verify库自动验证
- 目标定位：GIoU计算边界框精度
- 视频时序定位：IoU评估时间片段
人类偏好奖励（RLHF）：
- 构建双语偏好数据集
- 分离训练文本/多模态奖励模型
- 采用Bradley-Terry目标函数

技术优势：通过完全同策略GRPO算法避免传统RL性能饱和问题（见图7对比），实现稳定优化。

四、性能突破

基础视觉理解：
- MMMU-val：66.7%（超越Gemma 3 27B）
- CharXiv-RQ：56.5%（领先Qwen2.5-VL 14%）
复杂推理：
- OlympiadBench：59.4%（超越72B模型）
- MathVision：60.4%（较SFT提升2.5%）
GUI交互：
- OSWorld-G：56.1%（超越专用模型UI-TARS）
- 统一动作空间支持跨平台操作（详见表5）
用户体验：
- 开源模型中最高Elo评分
- 接近Claude 3.7 Sonnet水平

图：GUI任务性能对比（来源：技术报告Figure 4）

五、关键洞见

推理数据前置：预训练后期引入长链合成数据，比微调效果提升显著
多任务RL冲突：感知任务需简短输出，推理任务需长链思考，优化目标存在张力
奖励工程挑战：不同任务奖励量纲差异需归一化处理（RaaS服务实现）

六、开源生态

模型权重：完整开放SFT/RL版本
评测框架：覆盖50+任务的LMMs-Eval增强版
数据集：包含GUI动作空间定义等工业级数据

项目地址：https://github.com/XiaomiMiMo/MiMo-VL

结语

MiMo-VL-7B通过三阶段创新—— 精细数据配比预训练、混合奖励强化学习、工业场景专项优化，证明了小模型在复杂多模态任务上的巨大潜力。其在STEM问题求解（见图13）、GUI自动化（见图9）、长文档解析等场景的表现，为开源社区提供了新的技术标杆。

附小米MiMo-VL技术报告英中对照版，仅供学习参考：

小米MiMo-VL技术报告英中对照版

QwenLong-L1：通过强化学习实现长上下文推理的大模型飞跃

我爱自然语言处理

52nlp

2025年5月27日 15:05

近年来，大型推理模型（Large Reasoning Models, LRMs）在数学、编程和逻辑推理等任务中展现了接近人类专家的能力。然而，短上下文推理任务的优势能否扩展到长上下文场景（如处理数万token的文档问答）仍是一个关键挑战。阿里巴巴团队提出的QwenLong-L1框架，通过强化学习（RL）和渐进式上下文扩展策略，首次在长上下文推理任务中实现突破性性能。本文将从技术背景、方法创新、实验结果和实际案例等方面解析这一研究成果。

一、长上下文推理的挑战与解决方案

1.1 问题背景：短上下文与长上下文推理的本质差异

传统LRMs（如GPT-4、Claude等）的RL优化主要针对短上下文任务（如4K token内的数学题），其依赖模型内部参数知识生成推理链。然而，长上下文推理（如120K token的金融报告分析）需要模型从外部长文本中检索信息并逐步整合，这对训练效率和稳定性提出了更高要求。实验发现，长上下文RL训练存在两大核心问题：

训练效率低下：奖励收敛延迟，输出熵降低导致探索不足。
优化过程不稳定：KL散度波动剧烈，长输出序列引入方差放大效应。

1.2 QwenLong-L1的核心创新

QwenLong-L1提出了一套系统性解决方案，包含三大核心组件：

渐进式上下文扩展：分阶段增加输入长度（如20K→60K→120K），避免模型因突变的长上下文输入而崩溃。
混合奖励机制：结合基于规则的精确匹配和LLM语义评判，平衡答案多样性与准确性。
课程引导的强化学习：分阶段训练并引入难度感知采样，优先探索复杂样本。

二、技术实现：从短到长的稳定迁移

2.1 渐进式上下文扩展策略

课程引导的阶段性RL：将训练分为多个阶段，逐步增加输入长度。例如，第一阶段仅处理20K token的输入，第二阶段扩展至60K，最终支持120K。
难度感知回顾性采样：根据样本难度动态调整训练数据，保留前期阶段中奖励低的困难样本，激励模型探索。
热身监督微调（SFT）：通过高质量标注数据初始化模型，提升上下文理解和答案提取的基础能力。

2.2 强化学习算法优化

QwenLong-L1采用两种改进的RL算法：

GRPO（Group Relative Policy Optimization）：通过组归一化奖励估计优势值，避免传统PPO依赖价值网络的复杂计算。
DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）：引入动态采样和长度惩罚，防止输出过长导致的训练不稳定。

2.3 混合奖励设计

规则验证（Rule-Based）：严格匹配答案格式（如正则提取数值），确保精确性。
LLM评判（LLM-as-a-Judge）：利用小型模型（如Qwen2.5-1.5B）评估语义等效性，弥补规则方法的局限性。
最终奖励：取两者最大值（max(r_rule, r_LLM)），兼顾召回率与准确率。

三、实验结果：性能全面领先

3.1 基准测试表现

在7个长上下文文档问答基准（如DocMath、HotpotQA）中，QwenLong-L1显著超越现有模型：

QwenLong-L1-32B平均得分70.7，与Claude-3.7-Sonnet-Thinking持平，优于OpenAI-o3-mini（70.4）和Qwen3-235B-A22B（70.6）。
QwenLong-L1-14B得分68.3，超越Gemini-2.0-Flash-Thinking（65.7）和Qwen3-32B（67.8）。

3.2 关键发现

SFT的局限性：短上下文SFT对长任务提升有限（平均增益仅0.8-3.2分），需依赖RL优化。
RL的核心作用：RL使模型输出熵保持高位，促进探索行为，最终性能提升4.1-5.1分。
测试时扩展（Pass@K）：生成多候选答案可进一步提升效果，QwenLong-L1-14B的Pass@2达73.7，超越DeepSeek-R1（72.1）。

四、案例解析：模型如何“慢思考”？

案例1：金融报告利息计算（DocMath complong-testmini-183）

错误示例：基线模型R1-Distill-Qwen-14B因过度关注无关时间细节（“利息每半年支付”）而误算第一年利息为$20.4M。
QwenLong-L1表现：通过自我验证和回溯，过滤噪声信息，正确整合发行成本（$8.4M）和全年利息（$24M），最终输出正确答案$32.4M。

案例2：债务协议利息推断（DocMath complong-testmini-265）

任务难点：需从长文本中提取本金（$4.9M）、利率（10%）和展期时间（2年）。
模型行为：QwenLong-L1通过分步目标拆解（Subgoal Setting）和多次回溯验证（Backtracking），准确计算总利息为$980,000。

五、未来方向与启示

QwenLong-L1的成功为长上下文LRMs的发展指明方向：

任务扩展：应用于科学文献分析、长视频理解等场景。
架构优化：探索线性注意力、异步参数更新等高效计算方案。
RL范式革新：从Token级MDP转向Turn级交互，支持无限上下文推理。

这项研究表明，强化学习不仅是性能提升的工具，更是解锁模型复杂认知行为的关键。通过渐进式训练和混合奖励设计，QwenLong-L1为实际应用中的信息密集型推理任务提供了可靠解决方案。

附QwenLong-L1技术报告英中对照版，仅供学习参考：

QwenLong-L1技术报告英中对照版

英伟达选择阿里千问背后的技术逻辑：中国开源大模型的全球崛起

我爱自然语言处理

52nlp

2025年5月16日 09:27

Qwen3发布，作为国内首个实现""能力的开源模型，Qwen3不仅达到了36万亿token的训练数据量，还支持119种语言和方言。通过混合专家（MoE）架构与混合推理机制的深度整合，在参数效率与任务适应性层面实现双重突破。旗舰模型Qwen3-235B-A22B在数学证明、代码生成等核心基准测试中，展现出与DeepSeek-R1、Grok-3等顶尖模型的竞争优势。

深度解析DeepSeek-V3：硬件与模型协同设计如何突破LLM规模化瓶颈

我爱自然语言处理

52nlp

2025年5月15日 18:42

就在今天，梁文锋署名DeepSeek新论文的刚刚放出，以下是该论文的解读和英中对照版，仅供学习参考：

近年来，大型语言模型（LLMs）的规模呈指数级增长，从GPT-4、LLaMA到Gemini，模型参数量已突破千亿级别。然而，这种增长也暴露出当前硬件架构的局限性：内存墙（Memory Wall）、计算效率瓶颈和通信带宽不足。如何在有限的硬件资源下实现高效训练和推理，成为学术界与工业界共同关注的焦点。

DeepSeek团队在论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》中提出了一种硬件与模型协同设计的解决方案。通过DeepSeek-V3的实践，他们展示了如何以2048块NVIDIA H800 GPU为基础，结合创新技术实现低成本、高吞吐的LLM训练与推理。本文将从技术原理、硬件优化和未来方向三个维度，深度解析这一里程碑式的工作。

一、核心技术创新

1. 内存效率优化：从KV缓存到稀疏计算

问题背景：LLM推理中，KV缓存（Key-Value Cache）是内存消耗的主要来源。以4096长度的序列为例，传统模型的KV缓存可能占用数百KB/Token，导致长上下文处理时内存迅速耗尽。

解决方案：

多头潜在注意力（MLA）
MLA通过投影矩阵将多头注意力中的KV向量压缩为低维潜变量，仅需缓存潜变量而非完整KV对。如表1所示，DeepSeek-V3的KV缓存仅需70KB/Token，相比LLaMA-3.1 405B（516KB）减少近90%。
低精度模型与量化压缩
采用FP8精度替代BF16，内存占用减半；结合动态量化和窗口化缓存策略，进一步压缩存储空间。

优势：MLA不仅降低内存占用，还减少了内存带宽压力，使得GEMV（矩阵-向量乘）操作更高效，尤其适合资源受限的边缘设备部署。

2. MoE架构：稀疏激活与计算效率的平衡

问题背景：密集模型（如72B参数Qwen2.5）需全量激活参数，计算成本高昂。MoE（Mixture of Experts）通过稀疏激活降低计算量，但传统MoE存在专家负载不均衡、通信开销大等问题。

DeepSeek-MoE的创新：

动态专家路由与节点限制路由（Node-Limited Routing）
将256个专家分组部署在8个节点内，每个Token最多路由至4个节点，减少跨节点通信带宽需求。
计算成本对比
如表2所示，DeepSeek-V3（671B参数）仅激活37B参数/Token，训练成本250 GFLOPS/Token，显著低于405B密集模型的2448 GFLOPS/Token。

优势：MoE架构在保持模型容量的同时，支持单请求低资源推理。例如，DeepSeek-V2（236B）在消费级AI SoC芯片上可实现20+ TPS（Tokens Per Second），而同等性能的密集模型仅有个位数表现。

3. FP8混合精度训练：解锁硬件潜力

问题背景：FP8相比BF16节省50%内存，但此前未在MoE训练中广泛应用，主要受限于累积精度不足和硬件支持缺陷。

DeepSeek的实践：

细粒度量化策略
对激活值采用Tile-wise（1x128）量化，权重采用Block-wise（128x128）量化，结合高精度累加（FP22寄存器）缓解精度损失。
开源框架DeepGEMM
团队开源了针对FP8优化的矩阵乘库，支持细粒度缩放因子计算，实测精度损失低于0.25%。

挑战：FP8在Hopper GPU上的累积精度受限（仅保留13位尾数），需硬件厂商未来支持FP32累加器或可配置精度模式。

4. 通信与网络优化：从多平面拓扑到低延迟协议

问题背景：MoE的专家并行（EP）依赖频繁的All-to-All通信，传统三層Fat-Tree网络成本高且延迟大。

解决方案：

多平面二层Fat-Tree（MPFT）
每个GPU-NIC对绑定独立网络平面，通过PXN技术实现跨平面流量转发。如表3所示，MPFT支持16K GPU规模，成本比三层架构降低40%。
IBGDA与RDMA优化
采用InfiniBand GPUDirect Async（IBGDA），绕过CPU代理直接由GPU管理通信控制平面，减少微秒级延迟。

性能验证：在2048 GPU集群中，MPFT与多轨网络（MRFT）的训练吞吐（272B Tokens/Day）和MFU（43.7%）表现接近，证明其成本优势。

二、硬件协同设计的启示

1. 低精度计算的硬件支持

建议：未来硬件需支持动态范围更大的Logarithmic FP格式（如LogFMT-8Bit），并集成压缩/解压缩单元，降低通信带宽需求。

2. 扩展性与通信收敛

统一网络适配器：将NVLink与InfiniBand整合为统一接口，支持硬件级流量优先级调度。
专用通信协处理器：卸载数据转发、Reduce操作到独立硬件单元，释放GPU计算资源。

3. 内存架构革新

3D堆叠DRAM：通过SeDRAM等技术提升内存带宽，缓解注意力机制的内存瓶颈。
存算一体设计：探索近内存计算（Near-Memory Computing）架构，减少数据搬运开销。

三、未来展望：AI硬件的下一个十年

DeepSeek-V3的实践揭示了硬件与模型协同设计的必要性。未来趋势可能包括：

可配置精度单元：支持训练与推理的不同精度需求，动态切换FP8/FP16/FP32模式。
光互连与硅光子集成：突破电互连带宽限制，实现低功耗、高密度通信。
故障容忍与自适应路由：通过硬件级重传协议和动态路径选择，提升超大规模集群的鲁棒性。

结语

DeepSeek-V3不仅是算法创新的典范，更是一次硬件与软件深度协同的成功实践。其核心在于以硬件特性驱动模型设计，以模型需求反推硬件演进。随着AI负载的复杂化，这种协同设计将成为突破算力瓶颈的关键。或许，未来的AI芯片将不再是通用加速器，而是为特定模型架构量身定制的“智能引擎”。

附该论文英中对照版，仅供参考：

Insights-into-DeepSeek-V3英中对照版下载

Qwen3技术解析：开源大模型的新标杆，附Qwen3技术报告英中对照版

我爱自然语言处理

52nlp

2025年5月13日 22:41

近年来，大型语言模型（LLM）在通用人工智能（AGI）领域持续突破，而开源社区的贡献正不断缩小与闭源模型的差距。由Qwen团队推出的Qwen3系列模型，以其创新的架构设计、高效的多语言支持和卓越的性能表现，成为当前开源大模型领域的焦点。本文将从技术角度解析Qwen3的核心亮点及其背后的设计哲学。

一、Qwen3的核心创新

1. 动态思维模式：推理与响应的灵活切换

Qwen3首次将思考模式（Thinking Mode）和非思考模式（Non-Thinking Mode）整合到同一模型中。

思考模式适用于需要多步推理的复杂任务（如数学证明、代码调试），模型会生成详细的中间推理过程。
非思考模式则针对即时响应场景（如聊天、简单问答），直接输出最终结果，显著降低延迟。
用户可通过在输入中添加/think或/no_think标签动态切换模式，甚至设置思考预算（Thinking Budget）以控制推理深度，平衡性能与计算成本。

2. 混合专家（MoE）架构的优化

Qwen3提供密集（Dense）和MoE两种架构，其中旗舰模型Qwen3-235B-A22B采用MoE设计，总参数量235B，每Token仅激活22B参数。相比前代Qwen2.5-MoE，Qwen3-MoE通过细粒度专家分割和全局批量负载均衡损失优化专家分工，在相同激活参数下性能提升20%以上。

3. 多语言能力飞跃

预训练数据覆盖119种语言和方言（前代支持29种），包括低资源语言如约鲁巴语（Yoruba）和巴斯克语（Basque）。通过多语言数据标注系统，Qwen3在跨语言理解（如翻译、区域知识问答）任务中表现突出，例如在INCLUDE基准测试中，其多语言准确率较DeepSeek-V3提升12%。

二、训练策略：从数据到模型的高效路径

1. 三阶段预训练

通用阶段（30T Token）：构建基础语言能力与通用知识。
推理增强阶段（5T Token）：增加STEM、编程和合成数据比例，强化逻辑推理。
长上下文阶段：扩展上下文窗口至32K Token，结合YARN和双块注意力（Dual Chunk Attention）技术，推理时支持128K上下文。

2. 后训练优化

通过四阶段流程融合思维控制与通用能力：

长链思维冷启动：使用Qwen2.5-72B筛选复杂问题，构建高质量推理数据集。
强化学习（RL）微调：在数学和编码任务上应用GRPO算法，模型AIME得分从70.1提升至85.1。
模式融合训练：将思维与非思维数据混合，设计专用对话模板实现动态切换。
通用强化学习：覆盖20+任务的奖励系统，提升指令遵循、工具调用等能力。

3. 强到弱蒸馏（Strong-to-Weak Distillation）

小模型通过离策略和在策略蒸馏，继承大模型的知识与模式切换能力。例如，Qwen3-14B仅用1/10训练资源，即可达到Qwen2.5-72B 90%的编码性能。

三、性能表现：全面领先的开源标杆

1. 基准测试横扫

数学推理：Qwen3-235B在AIME'24和MATH-500分别取得85.7和98.0分，超越DeepSeek-R1和Gemini 2.5-Pro。
代码生成：在LiveCodeBench v5和BFCL v3中，Qwen3-32B以70.3和70.8分刷新开源记录。
多语言任务：涵盖55种语言的MT-AIME2024测试中，Qwen3平均准确率达80.8%，较GPT-4o提升13.4%。

2. 轻量化模型的高效表现

Qwen3-30B-A3B（MoE）：仅3B激活参数，在SuperGPQA科学问答中超越Qwen2.5-32B（32B参数）。
Qwen3-8B：边缘端模型在GSM8K数学题上取得89.84分，接近Llama-3-70B水平。

四、应用场景与未来方向

1. 实际应用潜力

教育领域：支持多语言的解题辅导，可展示详细推理步骤。
企业级Agent：长上下文处理能力适合文档分析、跨系统工具调用。
低资源语言开发：119种语言覆盖为全球化产品提供低成本适配方案。

2. 未来演进

Qwen团队计划进一步优化超长上下文扩展（>128K）、多模态融合，并通过环境反馈强化Agent的复杂决策能力。此外，模型压缩和训练效率提升将是持续重点。

结语

Qwen3的发布标志着开源大模型在性能、效率和灵活性上迈入新阶段。其动态思维控制、多语言泛化能力和高效的训练方法论，不仅为开发者提供了强大的工具，也为AI民主化注入了新动力。随着后续迭代，Qwen系列有望在更多垂直领域挑战闭源模型的统治地位。

附Qwen3技术报告英中对照版，仅供学习参考：

Qwen3技术报告英中对照版下载

Llama-Nemotron：高效推理大模型的技术突破与应用前景

我爱自然语言处理

52nlp

2025年5月6日 18:21

近年来，大型语言模型（LLM）在复杂推理任务（如数学解题、代码生成、科学问答）上的表现突飞猛进。然而，推理效率和用户控制能力逐渐成为制约模型实际落地的核心挑战。针对这一痛点，NVIDIA 近期发布了 Llama-Nemotron 系列模型，以开放许可、高效推理和动态控制为核心卖点，在性能与效率之间实现了新的平衡。本文将深入解析这一技术报告，揭示其背后的技术革新与应用潜力。

一、核心亮点：为什么关注 Llama-Nemotron？

1. 动态推理切换：按需调整模型行为

用户只需在输入中添加 "detailed thinking on/off" 系统提示，即可实时切换模型的响应模式：

推理模式（On）：生成多步思维链、自我验证和回溯，适合解决复杂问题（如竞赛级数学题）。
聊天模式（Off）：直接输出简洁答案，适用于日常对话或低复杂度任务。

这一功能通过指令微调实现，无需为不同模式部署独立模型，显著降低了部署成本。

2. 极致的推理效率优化

通过 Puzzle 框架（神经架构搜索工具）和 FFN 融合技术，模型在保持高性能的同时大幅提升推理速度：

LN-Super（49B）：单块 H100 GPU 上推理吞吐量比 Llama 3.3-70B 快 5 倍。
LN-Ultra（253B）：在 8xH100 节点上，延迟比原版 Llama 3.1-405B 降低 1.71 倍，内存占用减少 40%。

3. 开源生态的全面支持

模型权重：Nano（8B）、Super（49B）、Ultra（253B）均开放商用许可。
训练数据：公开完整的监督学习和强化学习阶段数据集。
代码库：涵盖 NeMo、NeMo-Aligner、Megatron-LM 等工具链。

二、技术揭秘：如何打造高效推理模型？

1. 五阶段训练流程

神经架构搜索（NAS）：从 Llama 3 出发，通过块级局部蒸馏生成高效变体（如移除注意力层、压缩 FFN 维度）。
知识蒸馏与继续预训练：恢复 NAS 导致的性能损失，扩充领域知识。
监督微调（SFT）：使用 DeepSeek-R1 等教师模型生成的高质量思维链数据，训练模型分步推理能力。
大规模强化学习（RL）：针对科学推理任务（如 GPQA-Diamond），通过课程学习逐步提升难度，使 LN-Ultra 超越教师模型。
对齐优化：平衡指令遵循、安全性与人类偏好。

2. 关键优化技术

Puzzle 框架：通过混合整数规划（MIP）选择最优块组合，精准权衡精度与效率。
FFN 融合：合并连续的前馈网络层，减少序列计算深度，提升多 GPU 并行效率。
合成数据生成：从 Art of Problem Solving、CodeForces 等平台提取问题，结合模型生成解决方案，并通过 LLM 裁判过滤低质量数据。

3. 资源效率突破

LN-Ultra 的 RL 训练：消耗 14 万 H100 小时，采用 FP8 推理生成技术，吞吐量达 32 tokens/s/GPU。
内存管理优化：通过权重分片、流水线并行和动态卸载，在 8xH100 节点上支持 300 万 token 的 FP8 缓存。

三、性能表现：全面领先的开源模型

1. 推理任务表现

模型	GPQA-Diamond	AIME25（30题）	LiveCodeBench
LN-Ultra	76.0%	72.5%	68.1%
DeepSeek-R1	71.5%	70.0%	65.9%
Llama-3.1-405B	43.4%	0.0%	-

2. 非推理任务表现

IFEval（指令遵循）：LN-Ultra 达到 89.5%，接近 GPT-4 水平。
Arena-Hard（对话质量）：LN-Super 以 88.3 分超越 Claude 3.5 Sonnet。

3. 效率对比

在相同硬件（8xH100）下，LN-Ultra 的推理吞吐量比 DeepSeek-R1 高 1.8 倍，且支持 128K 长上下文。

四、应用场景与未来展望

1. 典型应用

教育辅助：动态切换模式帮助学生理解解题过程或快速获取答案。
科研工具：处理复杂科学问题（如化学合成路径推理）。
企业级助手：低延迟响应客户查询，同时支持深度数据分析。

2. 社区贡献

开放数据集：涵盖数学、代码、科学领域的 3300 万条高质量样本。
可复现性：完整公开训练代码与超参数配置，推动开源社区协作。

3. 未来方向

代码能力增强：计划更新 LN-Super 的代码数据集，提升 LiveCodeBench 表现。
多模态扩展：结合视觉模块解决 STEM 领域的图文推理问题。

五、总结：推理模型的新标杆

Llama-Nemotron 系列通过动态控制、架构优化和混合训练策略，在开源模型中树立了新的性能标杆。其技术方案不仅证明了“大模型未必低效”，也为企业提供了兼顾成本与能力的落地选择。随着后续迭代和社区贡献，这一系列有望成为复杂推理任务的默认基础设施。

附Llama-Nemotron技术报告英中对照版，仅供学习参考：

NVIDIA-Llama-Nemotron技术报告英中对照版下载

小米MiMo-7B技术报告深度解读：如何打造面向推理的高效大模型？

我爱自然语言处理

52nlp

2025年4月30日 14:48

近日，小米LLM-Core团队发布了MiMo-7B技术报告，详细介绍了其专为复杂推理任务设计的大语言模型系列。该模型通过创新的预训练与后训练策略，在数学、编程及通用推理任务中表现卓越，甚至超越参数量更大的主流模型。本文将深入解析其核心技术，探讨其设计思路与性能优势。

核心亮点速览

推理潜力爆发：7B参数的MiMo-7B-Base在数学与编程任务中超越32B量级模型。
两阶段优化：预训练阶段通过数据优化与多令牌预测（MTP）强化基础能力，后训练阶段基于强化学习（RL）实现精准调优。
高效基础设施：无缝滚动引擎将训练速度提升2.29倍，验证速度提升1.96倍。
开源共享：完整模型检查点（Base、SFT、RL）已开源，推动社区研究。

预训练：为推理而生的数据与架构设计

1. 数据优化：密度与多样性并重

高质量数据提取：开发专用HTML解析工具，保留数学公式与代码片段，提升推理模式密度。
三阶段混合策略：
- 阶段1：平衡数据分布，过滤低质量内容（如广告、新闻），提升专业领域数据权重。
- 阶段2：数学与代码数据占比增至70%，强化专项能力。
- 阶段3：引入10%合成推理数据（数学、代码、创意写作），上下文长度扩展至32K。
数据规模：总计25万亿Token，覆盖网页、论文、代码、书籍及合成数据。

2. 模型架构创新：速度与性能的平衡

基础架构：采用类Llama的Decoder-only Transformer，集成GQA（分组查询注意力）、RoPE（旋转位置编码）和SwiGLU激活函数。
多令牌预测（MTP）：
- 训练阶段：单层MTP辅助模型预测未来令牌，增强推理连贯性。
- 推理阶段：复制MTP层至多分支，通过推测解码（Speculative Decoding）加速生成，实测令牌接受率高达90%，显著降低延迟。

3. 预训练性能验证

评估基准：覆盖语言理解（MMLU、BBH）、数学（AIME、GSM8K）、代码（LiveCodeBench）等任务。
关键结果：
- 通用推理：BBH得分75.2，超越同规模模型5分以上。
- 数学能力：AIME 2024得分32.9，显著优于Qwen2.5-7B（10.1）。
- 长上下文：32K窗口内检索准确率接近100%，支持复杂推理链生成。

后训练：强化学习的精准调优

1. RL数据与奖励设计

数据筛选：
- 数学问题：保留原始题目（避免答案整数化），通过模型筛选过滤过难/过易样本。
- 编程问题：仅保留含有效测试用例的题目，剔除黄金解法失败的问题。
奖励机制：
- 数学验证：基于规则库Math-Verify严格判定答案正确性。
- 代码奖励：引入测试难度驱动奖励，参考IOI竞赛规则，按测试用例通过率分级赋分，缓解稀疏奖励问题。

2. 训练策略优化

动态采样：过滤通过率100%或0%的问题，维持有效梯度信号。
简单数据重采样：保留10%“已掌握”问题，缓解后期采样效率下降。
算法改进：移除KL损失、动态调整剪裁阈值（Clip-Higher），提升策略探索能力。

3. 基础设施加速

无缝滚动引擎：
- 持续滚动：异步执行生成与奖励计算，消除GPU空闲。
- 早期终止：动态终止长序列生成任务，平衡效率与稳定性。
vLLM增强：支持MTP加速推理，优化KV缓存一致性。

性能表现：全面领先的推理能力

1. 预训练模型（MiMo-7B-Base）

数学与代码：LiveCodeBench v5得分32.9，远超Llama-3.1-8B（0.4）和Qwen2.5-7B（5.0）。
长上下文：RULER评测中，多任务检索与推理准确率领先同类模型。

2. 强化学习模型（MiMo-7B-RL）

数学推理：AIME 2025得分55.4，超越OpenAI o1-mini（50.7）。
代码生成：LiveCodeBench v6得分49.3，领先QwQ-32B-Preview（39.1）10分以上。
通用能力：MMLU-Pro得分58.6，优于蒸馏版竞品。

挑战与启示

领域干扰：RL后期数学与代码任务性能难以同步提升，需更精细的奖励设计。
语言混合惩罚：中英文混合响应的检测与抑制仍具挑战，可能影响多语言场景表现。
轻量SFT陷阱：实验表明，仅对齐答案格式的轻量监督微调（SFT）会限制模型潜力。

开源与社区价值

小米开源了MiMo-7B全系列模型（Base、SFT、RL），为研究者提供了：

可复现的基线：完整训练流程与超参配置。
RL基础设施参考：无缝滚动引擎与vLLM优化实践。
跨领域启示：数据混合策略与测试难度驱动奖励可迁移至其他推理任务。

总结

MiMo-7B通过“预训练挖潜+后训练提效”的双阶段策略，证明了小模型在复杂推理任务中的巨大潜力。其核心创新——数据密度优化、MTP加速、测试难度奖励——为行业提供了新思路。未来，如何进一步平衡多领域性能、优化多语言支持，将是推理模型发展的关键方向。

附小米Mimo-7B技术报告英中对照版，仅供学习参考：

小米MiMo-7B技术报告英中对照版下载

Qwen3来了，全尺寸开源，性能拉满！附最新一手实测！

我爱自然语言处理

52nlp

2025年4月29日 09:19

这两天技术群都在传阿里通义 Qwen3 五一前后发布，然后昨晚各种消息满天飞：

一觉醒来，千问果然没有让人失望，赶在五一前发布并开源Qwen3，效率杠杠的。作为国内首个实现"混合推理"能力的开源模型，Qwen3不仅达到了36万亿token的训练数据量，还支持119种语言和方言。通过混合专家（MoE）架构与混合推理机制的深度整合，在参数效率与任务适应性层面实现双重突破。旗舰模型Qwen3-235B-A22B在数学证明、代码生成等核心基准测试中，展现出与DeepSeek-R1、Grok-3等顶尖模型的竞争优势。

此外，小型 MoE 模型 Qwen3-30B-A3B 的激活参数量仅为 QwQ-32B 的 10%，但性能却更胜一筹。甚至像 Qwen3-4B 这样的小型模型，也能与 Qwen2.5-72B-Instruct 的性能相媲美。

Qwen3 此次开源了六款Dense模型和两款Moe模型，Dense模型包括0.6B、1.7B、4B、8B、14B、32B 6个尺寸，Moe模型包括30B和235B，均采用Apache2.0协议开源，诚意满满。其中旗舰版 Qwen3-235B-A22B，总参数量 235B，激活参数仅 22B，可以低成本实现本地部署。而 Qwen3-30B-A3B，总参数量 30B，激活参数仅 3B，消费级别显卡即可部署，整体性能堪比Qwen2.5-32B。另外阿里还开源了小尺寸的 Qwen3-0.6B，可以在手机等端侧部署。

特别值得注意的是Qwen3是国内首个“混合推理模型”，在同一模型中集成了两种推理模式：

即时响应模式：针对简单查询（如信息检索），通过轻量化推理路径实现快速响应；
深度思考模式：应对复杂任务（如数学证明），激活MoE架构中的专家模块进行多步推理；
动态切换机制：支持API参数控制（enable_thinking=True）或自然语言指令（/think）触发模式转换；

另外Qwen3的多语言能力进一步大幅跃升，从之前支持的29种提升至支持119种语言和方言：

国际通用语言：完整涵盖联合国六大官方语言（汉语、英语、法语、西班牙语、俄语、阿拉伯语）；
国家官方语言：包括德语、意大利语、日语、韩语、泰语、越南语等国家官方语言；
特色方言及小语种：特别纳入中国粤语、非洲斯瓦希里语、中东意第绪语、西亚亚美尼亚语、东南亚爪哇语、美洲海地克里奥尔语等具有文化代表性的地方语言；

通过开源技术赋能，千问3为全球技术储备不足的国家和地区提供了可用的AI大模型，让语言不再成为数字时代的鸿沟。

同时Qwen3通过原生支持MCP多模态协作协议，构建了面向智能体（Agent）生态的核心能力，其深度集成的工具调用架构支持跨平台设备控制与工业协交互，结合开箱即用的Qwen-Agent框架，开发者可快速构建复杂工作流，如生产线调度、跨端自动化等，标志着大模型从"生成答案"向"完成任务"的范式跃迁。

目前可以在欢迎在 Qwen Chat 网页版和通义 APP 中直接体验 Qwen3，相关地址如下：

Qwen Chat：https://chat.qwen.ai/
GitHub：https://github.com/QwenLM/Qwen3
HuggingFace：https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
ModelScope：https://modelscope.cn/collections/Qwen3-9743180bdc6b48

Qwen3 快速体验

说了这么多，我还是想动手体验一下 Qwen3，直接在Qwen Chat网页版上体验：

可下拉选择相关模型：

开始测试那个经典问题：9.8和9.11谁大，直接给了推理过程和答案，相当快：

再来一个经典大模型测试题：strawberry有几个r，还是直接给出推理过程和答案：

看起来一般问题难不倒大模型了，那就做一道中考级别的数学题吧：

中考题难不住，继续上高考数学题，这是一道2024年年高考全国甲卷数学（文）试题：

这次思考的过程稍久，不过依然得到了正确答案：-7/2，看起来一般的高考题也难不住Qwen3了，这让我很期待今年高考数学题国内外这些顶尖大模型的PK了。

测试 Qwen3 模型

当然除了体验网页版，我还想上手体验一下开源的Qwen3模型，直接选择最小的0.6B模型，复用Qwen官方博客上提供的代码，只是简单修改了一下模型：


from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-0.6b"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switch between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# parsing thinking content
try:
    # rindex finding 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

第一次运行模型下载速度挺快的，但是遇到了报错：

刚好看到一篇文章说运行Qwen3 transformers版本不能小于4.51.0，直接升级transformer到4.51.0，再次运行，没有问题了，测试成功：

要禁用思考模式，只需对参数 enable_thinking 进行如下修改：


text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # True is the default value for enable_thinking.
)

Qwen3模型还有很多高级玩法，包括在用户提示或系统消息中添加 /think 和 /no_think 来逐轮切换模型的思考模式，以及Agent和MCP等，限于时间关系，这里就不一一测试了，后续我会测一下更大尺寸的模型，到时候深入研究一下。刚好五一放假，大家可以好好安排五一了！

Kimi-Audio：开源音频基础模型的技术突破与应用前景

我爱自然语言处理

52nlp

2025年4月27日 14:59

近年来，随着大语言模型（LLM）的飞速发展，音频处理领域也迎来了革命性突破。近日，月之暗面（Moonshot AI）团队发布了Kimi-Audio，一款开源的音频基础模型，支持音频理解、生成与对话任务，并在多个基准测试中刷新了性能记录。本文将深入解读其技术报告，剖析其创新设计与应用价值。

一、为什么需要统一的音频基础模型？

音频是人类感知环境、情感表达和语言交流的重要媒介。然而，传统音频处理技术（如语音识别、语音合成）通常针对单一任务设计独立模型，存在以下问题：

任务孤立：不同模型之间无法共享知识，导致开发成本高；
数据瓶颈：高质量标注数据稀缺，模型泛化能力受限；
模态割裂：音频与文本的联合理解与生成能力不足。

Kimi-Audio的目标是构建一个通用音频基础模型，通过统一架构处理多种任务（如语音识别、音频问答、语音对话），同时开源代码与工具，推动社区共同发展。

二、核心技术亮点

1. 混合音频分词器：兼顾语义与声学细节

Kimi-Audio采用离散语义标记（12.5Hz）与连续声学向量结合的输入表示：

语义标记：基于ASR模型的向量量化层生成，聚焦内容信息；
声学向量：通过Whisper模型提取，捕捉音色、情感等细节。
两者叠加后输入音频LLM，平衡了语义理解与声学建模能力。

2. 双分支LLM架构：文本与音频联合生成

模型核心基于预训练LLM（Qwen2.5 7B）初始化，并扩展为双分支结构：

共享层：底层Transformer处理多模态输入；
文本分支：生成文本响应；
音频分支：预测离散语义标记，供反分词器生成语音。
这种设计保留了LLM的语言能力，同时新增音频生成功能。

3. 流式反分词器：低延迟高质量语音合成

反分词器采用流匹配（Flow Matching）技术，将语义标记转换为梅尔频谱，再通过BigVGAN生成波形。为解决分块生成时的边界问题，引入前瞻机制：

将当前块与未来4个标记拼接后生成，仅保留当前块结果；
训练时动态调整分块大小（0.5-3秒），平衡质量与延迟。

三、数据与训练策略

1. 预训练数据：1300万小时多模态音频

覆盖语音、音乐、环境音等场景，通过自动化流程处理：

语音增强：随机选择原始或降噪音频，保留环境信息；
分段与聚类：改进说话人分割算法，合并短片段；
多语言转录：Whisper生成英文文本，Paraformer处理中文。

2. 微调数据：300K小时任务导向数据

涵盖语音理解、对话、问答等任务：

语音理解：集成公开数据集（如LibriSpeech、AISHELL）与内部ASR数据；
语音对话：通过TTS系统生成多样化用户提问，固定助手音色；
音频到文本聊天：过滤复杂文本，转换为多轮对话格式。

3. 训练任务设计

单模态预训练：分别学习音频与文本分布；
跨模态对齐：ASR（音频→文本）与TTS（文本→音频）任务；
交替训练：音频与文本交替输入，增强模态融合能力。

四、性能表现：多项任务刷新SOTA

基于团队开发的评估工具包，Kimi-Audio在多个基准测试中表现卓越：

任务类型	数据集	Kimi-Audio性能	对比模型最佳性能
语音识别（WER↓）	LibriSpeech	1.28（test-clean）	Qwen2-Audio（1.74）
音频场景分类（ACC↑）	CochlScene	80.99	Qwen2.5-Omni（63.82）
语音情感识别（ACC↑）	MELD	59.13	Qwen2-Audio（51.23）
端到端语音对话	主观评测（5分制）	3.90	GPT-4o（4.06）

五、开源生态与生产部署

Kimi-Audio的全链路开源（代码、模型、评估工具）为社区提供了重要基础设施：

推理工具包：标准化评估协议，支持多模型公平对比；
生产架构：模块化设计（Tokenizer/LLM/Detokenizer服务），支持低延迟实时对话；
应用场景：智能助手、无障碍通信、多媒体内容生成等。

六、挑战与未来方向

尽管Kimi-Audio取得突破，音频AI仍面临挑战：

超越ASR/TTS依赖：当前模型依赖转录数据，需探索原生音频预训练；
更丰富的音频表示：融合内容与声学特征，提升细粒度控制能力；
多模态描述生成：联合文本描述与语音内容，理解复杂声学场景。

结语

Kimi-Audio的发布标志着通用音频智能迈出重要一步。其统一的架构设计、大规模数据训练与开源生态，为学术界与工业界提供了强大工具。未来，随着多模态技术的进一步融合，音频AI有望在医疗、教育、娱乐等领域创造更大价值。

项目地址：https://github.com/MoonshotAI/Kimi-Audio
评估工具：https://github.com/MoonshotAI/Kimi-Audio-Evalkit

附Kimi-Audio技术报告英中对照版，仅供学习参考：

Kimi-Audio技术报告英中对照版下载