阅读视图

发现新文章,点击刷新页面。
🔲 ☆

Qwen3-VL技术报告英中对照版.pdf

Qwen3-VL 是阿里推出的最先进多模态基础模型,面向文本、图像、PDF、表格、界面(GUI)与视频的统一理解和推理任务。它具备 256K 原生上下文 的长文能力,能够跨数百页文档、完整教材、长视频进行稳定关联、定位与引用,是面向企业真实场景的全栈多模态引擎。

模型体系覆盖 2B / 4B / 8B / 32B Dense,以及 30B-A3B / 235B-A22B MoE,在延迟、吞吐与精度间提供灵活选择。多模态训练不仅未削弱语言能力,反而在多个 NLP benchmark 上优于纯文本大模型,使其在文本任务上也具备强竞争力。

技术核心升级有三点:

  1. Interleaved-MRoPE:将时间/水平/垂直的频率交错排列,解决旧式 MRoPE 在长视频中的频率偏置问题,使视频时空建模更稳定。
  2. DeepStack 视觉跨层注入:从视觉编码器的多个层级提取特征并注入 LLM 对应层,融合低层细节与高层语义,大幅提升视觉理解与推理精度。
  3. 文本式时间戳:用 <3.0 seconds> 这种显式 token 替代复杂的时间编码,为长时间序视频带来更可控、更通用的时间理解能力。

训练采用 四阶段预训练(8K→32K→256K)+ SFT + 强到弱蒸馏 + RL(Reasoning + General) 的完整体系,并提供 Thinking / Non-Thinking 双模式,兼顾推理能力与速度。

数据方面构建了庞大的多模态体系:高质量图文、网页与教材、PDF 解析(HTML/Markdown)、39 语言 OCR、3D/空间理解、动作/事件级视频语义、跨层 grounding、超过 6000 万的 STEM 题目、以及 GUI 与多工具 Agent 行为数据,使其具备高度覆盖现实场景的能力。

性能上,235B-A22B 在多模态推理、长文档理解、视频理解、OCR、空间推理等关键任务中普遍领先,部分任务接近或超过 Gemini 2.5 Pro / GPT-5 / Claude Opus;而 32B 也显著领先 GPT-5-mini 和 Gemini Flash,同等尺寸小模型(2B/4B/8B)在轻量级场景中具有强竞争力。

综合来看,Qwen3-VL 是面向企业场景的 多模态智能底座,可胜任从长 PDF 解析、图表理解、界面自动化、流程 Agent,到视频监控分析、技术文档检索、多模态代码生成等核心任务,覆盖从“理解 → 推理 → 决策 → 自动执行”的全链路智能能力。

附该技术报告英中对照版,仅供学习参考:

🔲 ☆

DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理

近年来,大语言模型在处理长文本任务中展现出强大能力,但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek-AI 最近发布了实验性模型 DeepSeek-V3.2-Exp,通过引入一种新颖的稀疏注意力机制(DeepSeek Sparse Attention, DSA),在保持模型性能的同时,显著提升了长上下文任务中的训练与推理效率。

什么是 DeepSeek Sparse Attention?

DeepSeek Sparse Attention 主要由两个部分组成:

  1. 闪电索引器(Lightning Indexer)
  2. 细粒度令牌选择机制(Fine-Grained Token Selection)

传统的注意力机制在计算时需要关注序列中所有之前的令牌,导致计算复杂度为 O(L2)O(L2),其中 LL 是序列长度。而 DSA 通过索引器为每个查询令牌筛选出最相关的 kk 个键值令牌,将复杂度降至 O(L⋅k)O(Lk),其中 k≪LkL

具体来说,索引器会为每个查询令牌计算一个“注意力分数”,并只保留分数最高的 kk 个令牌参与后续的注意力计算。这一机制不仅减少了计算量,还保留了模型对关键信息的捕捉能力。

模型训练:从密集到稀疏

DeepSeek-V3.2-Exp 是基于 DeepSeek-V3.1-Terminus 继续训练得到的。训练过程分为两个阶段:

  1. 密集预热阶段:仅训练索引器,保持其余参数不变,使其输出的分数分布与原始注意力分布对齐。
  2. 稀疏训练阶段:引入令牌选择机制,同时优化索引器和主模型参数,使模型适应稀疏注意力模式。

整个训练过程使用了 128K 长度的上下文数据,总计训练了近千亿令牌。

性能表现:效率提升,性能不降

在多项基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平,甚至在部分任务中有所提升。例如:

  • 通用能力:MMLU-Pro、GPQA 等任务中表现稳定
  • 搜索与代码任务:BrowseComp、Codeforces 等任务中略有提升
  • 数学推理:AIME 2025 中表现更优

更重要的是,在长上下文推理场景中,V3.2-Exp 的推理成本显著降低。图3显示,随着序列长度增加,其推理速度优势愈发明显。

技术细节:MLA 架构下的 DSA 实现

DSA 是基于 DeepSeek 自研的 MLA(Multi-head Latent Attention)架构实现的,特别采用了 MQA(Multi-Query Attention)模式,使得每个键值条目可以被多个查询头共享,进一步提升计算效率。

未来展望

尽管内部测试结果令人鼓舞,DeepSeek-AI 仍在积极推进在真实场景中的大规模测试,以进一步验证稀疏注意力架构的鲁棒性与实用性。

小结

DeepSeek-V3.2-Exp 的发布,不仅展示了一种高效的长上下文处理方案,也为大模型在保持性能的同时降低计算成本提供了新的思路。如果你对技术细节感兴趣,可以访问其开源实现:


希望这篇博客能帮助你理解 DeepSeek-V3.2-Exp 的核心价值与技术亮点。如果你有更多问题,欢迎继续提问!附该技术报告英中对照版,仅供学习参考:

🔲 ☆

LongCat-Flash:美团发布的高效MoE大模型,支持智能体任务,推理速度达100 token/秒

近日,美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告,这是一款总参数量达 5600亿 的混合专家模型(Mixture-of-Experts, MoE),在保持高性能的同时,显著提升了训练与推理效率,尤其擅长处理需要多步推理和工具调用的智能体(Agent)任务

一、核心创新:动态计算与通信优化

1. Zero-Computation Experts(零计算专家)

传统MoE模型中,每个token都会激活固定数量的专家,但LongCat-Flash引入了“零计算专家”机制,允许模型根据上下文重要性动态分配计算资源。简单来说,重要的token会激活更多专家,不重要的则激活较少甚至零计算专家,直接返回输入值,不进行额外计算。

  • 每token激活参数量在 186亿~313亿 之间波动,平均约为 270亿
  • 通过PID控制器动态调节专家偏置,保持计算负载均衡;
  • 在相同计算预算下,相比固定激活策略,验证损失显著降低

2. Shortcut-Connected MoE(快捷连接MoE)

MoE模型在扩展时常遇到通信瓶颈。LongCat-Flash采用ScMoE结构,通过跨层快捷连接,将密集FFN计算与MoE层的通信操作重叠执行,大幅提升训练和推理效率。

  • 训练损失与基线模型几乎一致,不影响模型质量
  • 推理时采用单批次重叠(SBO)调度,理论时间每输出token(TPOT)降低近50%。

二、训练策略:高效扩展与稳定性保障

1. 超参数迁移与模型增长

  • 通过宽度缩放规则,将小模型(宽度768)的最佳超参数迁移到大模型(宽度6144),大幅节省调参成本;
  • 采用模型增长初始化,将训练好的半规模模型堆叠成完整模型,加速收敛并提升最终性能。

2. 多维度稳定性控制

  • 路由器稳定性:监控专家权重相似度和梯度范数比,防止负载均衡损失压制语言建模损失;
  • 激活稳定性:引入隐藏z-loss,抑制异常大幅激活,避免训练中的数值溢出;
  • 优化器稳定性:将Adam的ε设为极小的1e-16,避免梯度二阶矩被淹没。

三、多阶段训练与数据策略

1. 预训练阶段

  • 使用超过20万亿token的多语料数据,涵盖网页、书籍、代码等;
  • 采用两阶段数据混合策略,逐步提升STEM和代码数据的比例至70%;
  • 支持128K长上下文,适用于长文档理解和代码库级任务。

2. 中训练与后训练

  • 中训练:增强推理与代码能力,使用合成数据和知识图谱构建高质量问题;
  • 后训练:针对智能体任务,构建多智能体合成框架,生成高难度、多轮交互的任务数据;
  • 涵盖数学、代码、逻辑推理、指令遵循、长上下文、安全性等多个维度。

四、推理与部署:高吞吐、低延迟

1. 系统级优化

  • 使用多token预测(MTP) 作为推测解码的草案模型,接受率超90%;
  • 采用分层传输分层量化,减少KV缓存传输开销;
  • 支持FP8量化,在几乎不损失精度的情况下提升吞吐量。

2. 实测性能

  • 在H800上推理速度达 100 token/秒,成本低至 $0.7 / 百万输出token
  • 在终端任务(TerminalBench)上表现优异,得分39.51,排名第二;
  • 在自建智能体评测集VitaBench上取得最高分24.30,展现强大复杂任务处理能力。

五、综合评测结果

LongCat-Flash在多项基准测试中表现优异:

  • 通用能力:MMLU 89.71,CEval 90.44,ArenaHard-V2 86.50;
  • 数学推理:MATH500 96.40,AIME25 61.25;
  • 代码生成:HumanEval+ 65.85,TerminalBench 39.51;
  • 智能体工具使用:τ²-Bench 电信场景73.68,VitaBench 24.30;
  • 安全性:在有害内容、犯罪信息、隐私保护等维度表现突出。

六、开源与社区贡献

LongCat-Flash已全面开源,包括模型权重、推理代码和部分训练数据,推动MoE架构、高效训练与智能体研究的进一步发展。

结语

LongCat-Flash不仅在模型架构上实现创新,更在训练策略、系统优化和智能体能力培养方面树立了新的标杆。其高效的推理性能和优秀的任务表现,使其成为业界领先的开源MoE模型之一,有望推动AI智能体在真实场景中的广泛应用。

附美团LongCat-Flash模型技术报告英中对照版,仅供学习参考:

🔲 ☆

GLM-4.5:三体合一的开源智能体大模型,重新定义AI推理边界

在追求通用人工智能(AGI)的道路上,智能体能力(Agentic)复杂推理(Reasoning) 和编程能力(Coding) 是衡量大模型综合实力的“黄金三角”。而最新开源的 GLM-4.5 系列,正是以“ARC三位一体”为目标打造的超级模型,以3550亿参数登顶全球开源模型性能前三!


一、核心突破:MoE架构 + 混合推理模式

1. 高能效设计

  • 总参数3550亿,激活参数仅320亿(MoE稀疏激活),计算效率提升3倍
  • 对比:参数量仅为DeepSeek-V3(6710亿)的一半,Kimi-K2(10430亿)的1/3
  • GLM-4.5-Air轻量版:1060亿参数,性能仍超多数百亿级模型

2. 混合推理引擎

markdown

| 推理模式     | 适用场景                  | 技术特点               |
|--------------|---------------------------|------------------------|
| 思考模式     | 数学/科学/多步工具调用    | 长链式思维(CoT)      |
| 直答模式     | 聊天/翻译/简单问答        | 低延迟响应             |

模型可动态切换模式——复杂问题启动深度思考,简单任务秒级回应,兼顾效率与精度。


二、性能屠榜:ARC三项全能冠军

1. 智能体能力(Agentic)

  • TAU-Bench(真实场景工具调用):79.7% 准确率,超越Gemini 2.5 Pro
  • BrowseComp(网页信息检索):26.4%,碾压Claude Opus 4 (18.8%)
  • 创新函数调用模板:用XML标签替代JSON,减少90%转义字符(见图4)

2. 推理能力(Reasoning)

  • AIME 24(国际数学竞赛题):91.0% 正确率,逼近人类奥赛选手水平
  • HLE人类终极考试:14.4% 得分,全球仅4个模型超过10%
  • 动态温度采样RL:防止强化学习后期陷入局部最优

3. 编程能力(Coding)

  • SWE-bench Verified(真实GitHub issue修复):64.2% 通过率
  • Terminal-Bench(终端操作):37.5%,超越Claude Sonnet 4
  • CC-Bench实测:工具调用成功率90.6%,碾压Qwen3-Coder(77.1%)

🔥 综合ARC 12项基准:全球排名第3(开源第1),智能体单项排名第2!


三、训练黑科技:三阶段锻造ARC铁三角

1. 预训练数据革命

  • 23T高质量Token,分层处理网页/代码/学术数据
  • 创新过滤技术:
    • SemDedup:语义去重剔除模板网页
    • 质量分桶:高分数据重复3.2个epoch,强化核心知识

2. 中训练(Mid-Training)

  • 128K上下文支持:从4K→128K分阶段扩展,RoPE频率调整至100万
  • 跨文件代码训练:拼接同仓库代码文件,学习项目级依赖

3. 后训练专家蒸馏

python

# 专家迭代流程
1. 分领域训练专家模型:推理专家 + 智能体专家 + 通用聊天专家
2. 自我蒸馏融合:将专家能力注入统一模型
3. 混合强化学习:
   - 推理RL:难度分级课程(先易后难)
   - 智能体RL:轨迹自蒸馏迭代
   - 病理RL:根治语言混合/格式错误

四、真实场景碾压性体验

1. 逻辑推理

  • 新构建高难度逻辑题库:62.0分,持平DeepSeek-R1(62.1)
  • 动态规划/归纳推理错误率降低37%

2. 颠覆级翻译能力

  • 理解网络梗+文化符号:如“yyds”→“永远的神”
  • 上下文推理:输入:“三花公主驾到,速来围观”
    输出:“The Calico Princess has arrived! Come and see!”
    (准确识别“三花”指三花猫)
  • 人类评分1.71,碾压专业翻译模型Qwen-MT(0.38)

3. 终端编程实测

  • Docker隔离环境测试52个开发任务:
    • VS Claude Sonnet 4:40.4%胜率 + 50%平局
    • VS Kimi K2:53.9%胜率,工具调用效率高4.4%

五、开源意义:中国大模型的新里程碑

💡 开发者提示:轻量版GLM-4.5-Air在106B参数下实现接近GPT-4的性能,推理成本降低60%!


结语:ARC时代的新王者

GLM-4.5不仅证明了中国团队在MoE架构和强化学习领域的顶尖实力,更首次实现智能体-推理-编程三大能力的统一。其开源将加速AI智能体的实际落地——从自动代码修复到网页信息挖掘,一个真正“会思考、能执行”的AI时代正在到来。

项目地址https://github.com/zai-org/GLM-4.5
在线体验https://z.ai (支持128K上下文对话)


延伸阅读:报告中隐藏的4大技术彩蛋👇

  1. 推理RL黑科技:Token加权损失函数,比序列级loss收敛快2倍
  2. 长轨迹智能体训练:异步RL框架Slime,支持Docker环境高并发
  3. 安全防护:SafetyBench综合得分89.9,伦理类问题94.3分
  4. 中文场景优化:文本生成得分9.0,逻辑推理9.27(满分10)

本文数据均来自GLM-4.5技术报告,更多技术细节参见原始论文,附英中技术报告对照版,仅供学习参考:

🔲 ☆

OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版

OpenAI 发布的 gpt-oss-120b 与 gpt-oss-20b 是首批面向开源社区、同时强调“强推理+工具调用”的权重开放模型。以下从性能、安全与生态三个维度给出简评。

  1. 性能:小模型也能打
    • 在 AIME、GPQA 等硬核数学与科学基准上,120b 版本已逼近 o4-mini,20b 版本虽参数少 6 倍,却仍能超过 o3-mini,验证了 MoE+可变推理长度方案的有效性。
    • 代码与工具场景是最大亮点:Codeforces Elo 2463(120b, high)、SWE-Bench Verified 62.4%,均刷新同尺寸开源模型纪录;τ-Bench 也展示了可插拔函数调用的工程友好性。
    • 多语言与医疗问答表现亮眼,HealthBench 上 120b 几乎对齐 o3,给低成本、本地部署的健康咨询带来想象空间。
  2. 安全:开放权重带来的“双刃剑”
    • 默认对齐:沿用 deliberative alignment 与 instruction hierarchy,标准违禁内容评估与 o4-mini 持平,Production Benchmarks 甚至略优,显示基础拒答能力已达标。
    • 风险上限:OpenAI 罕见地公开了“红队微调”实验——在内部用最强 RL 栈对 120b 进行生物与网络安全方向的对抗训练,结果仍“未触及 High 风险阈值”,并邀请 METR、SecureBio 等外部专家复核,为社区提供了可信的风险锚点。
    • 责任下沉:模型卡反复提醒“开源≠无责”,开发者需自行叠加内容审核、CoT 过滤与 prompt 防护,这对本地化部署者提出了更高工程要求。
  3. 生态与启示
    • Apache 2.0 许可证 + 量化到 4.25bit,使 120b 可单机 80 GB GPU 运行,20b 仅需 16 GB,门槛大幅降低。
    • Harmony chat format 与配套工具链(浏览、Python、开发者函数)提供了近似 ChatGPT 的代理体验,降低了二次开发成本。
    • 作为首批“官方开源推理模型”,其评估框架(生物、网络、AI 自我改进)与透明红队方法论,或将成为后续开源大模型的安全基线。


gpt-oss-120b/20b 的最大价值不仅是“性能对标闭源”,更在于示范了“开放权重+开放评估+可控风险”的新范式:让社区既能拿到可商用、可微调的强模型,又能复现其风险测量与缓解路径。对于追求本地私有化、成本敏感或需深度定制的开发者,这套组合极具吸引力;对于行业而言,它把“安全可验证的开源大模型”向前推进了一大步。

以下是该技术报告英中对照版,仅供学习参考:

🔲 ☆

从万亿参数到智能体:Kimi K2 技术报告全景解读

1. 引言:为什么 K2 值得关注?

过去两年,大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能体能力(Agentic Intelligence)」。
Kimi K2 用一份 32 页的技术报告告诉我们:开源模型第一次在「非思考」条件下,同时在代码、数学、工具调用三大硬核基准上逼近甚至超越 Claude-4 系列
更重要的是,K2 用一套完全开源的权重 + 数据管线 + RL 框架,把「智能体」这件事做到了可复现、可扩展、可落地。


2. 模型概览:一图看懂 K2 的「身材」

维度K2DeepSeek-V3Llama4-Maverick
总参数1.04 T (MoE)671 B (MoE)400 B (MoE)
激活参数32 B37 B17 B
专家数384256-
注意力头64 (节省 83% FLOPs)128128
上下文128 k128 k128 k

一句话总结:在同样 32 B 激活量的前提下,K2 把专家数提升到 384,用更稀疏但更大的「外脑」换来单位 FLOP 的更高收益。


3. 预训练:如何让 15.5 T tokens 发挥 30 T 的价值?

3.1 MuonClip:让 Muon 优化器告别“爆炸”

  • 痛点:Muon 比 AdamW token-efficient,但 attention logit 容易爆炸到 1000+,导致 loss spike。
  • 解法:提出 QK-Clip —— 每 head 实时检测 logit 最大值,仅在必要时对 Query/Key 权重做 per-head 的轻量级缩放。
  • 效果
    • 全 15.5 T tokens 零 loss spike
    • 小模型 ablation 显示对收敛几乎无损(<0.1%)。

3.2 数据炼金术:把一条知识变十条

  • Knowledge 重写管线
    • 风格多样化 prompt → chunk-wise 自回归改写 → 语义一致性校验;
    • SimpleQA 实验:10 次改写 + 1 次 epoch 比 10 次重复 epoch 绝对提升 5.2%
  • Math 重写管线
    • 引入 SwallowMath 的「学习笔记」格式,把数学证明改写成步骤化讲解;
    • 多语言翻译进一步扩量 30%。

结论:在高质量数据见顶的时代,「可控改写」成为新的数据杠杆。


4. 后训练:合成 20 k 工具 + RL 闭环

4.1 超级工具工厂:从 API 文档到可执行沙箱

K2 构建了一个三层合成管线:

  1. Tool Spec 生成
    • 3000+ 真实 MCP 工具(GitHub 爬取)
    • 20000+ LLM 合成工具,覆盖金融、机器人、软件等 50+ 领域
  2. Agent & Task 生成
    • Agent persona 随机采样(性格、知识、可用工具)
    • Rubric-based task:每个任务带成功标准、期望调用链
  3. Trajectory 生成与过滤
    • 多轮用户模拟 + 沙箱执行
    • LLM Judge 打分,保留 success rate > 90% 轨迹
    • Hybrid 沙箱:真实 Docker/K8s 环境 + 模拟器,兼顾规模与真实性

最终产出 数十万条 高质量工具调用轨迹,用于 SFT。

4.2 RL 框架:从可验证奖励到自我批判

  • Verifiable Rewards Gym
    • 数学、逻辑、代码、指令遵循等 100+ 任务,全部可自动判题;
    • 采用 预算控制:按任务类型设定 max_tokens,防止 RL 把答案写成小说。
  • Self-Critique Rubric Reward
    • 用 K2 自己当裁判, pairwise 比较回答;
    • 裁判模型在可验证任务上持续微调,保证主观打分不失焦。
  • 算法细节
    • 沿用 K1.5 的 policy gradient,新增:
      • PTX loss:混入高质量预训练数据,防止灾难遗忘;
      • Temperature decay:训练后期降温,提升稳定性。

5. 评估:把「非思考」做到极致

5.1 代码与软件工程

基准K2开源 SOTA闭源标杆
SWE-bench Verified (multi-attempt)71.6 %54.6 % (DeepSeek)80.2 % (Claude-4-Sonnet)
SWE-bench Multilingual47.3 %25.8 %51.0 %
LiveCodeBench v653.7 %46.9 %48.5 %

解读:在「不思考」设定下,K2 把开源天花板抬高了 10~20 个百分点,与 Claude-4 的差距缩小到 5 个百分点以内。

5.2 工具调用

  • τ²-Bench (平均):66.1 %,领先第二名 17+ 点
  • ACEBench:76.5 %,超过 GPT-4.1(74.5 %)

5.3 数学 & STEM

  • AIME 2024:69.6 %(开源第一,领先 DeepSeek 10 点)
  • GPQA-Diamond:75.1 %(开源第一)

5.4 LMSYS Arena 真实用户投票

  • 7 月 17 日榜:开源第 1,全榜第 5,3 k+ 人类盲投

6. 系统:1 T 模型如何 30 秒热启动?

  • Colocated RL 架构
    • 训练 / 推理双引擎同节点,GPU 0 等待;
    • Checkpoint Engine 分布式广播,30 s 完成 1 T 参数更新。
  • Pipeline 优化
    • EP=16 最小专家并行,降低 all-to-all 开销;
    • FP8 缓存 + CPU offload,单机 30 GB 显存即可跑 128 k 上下文。

7. 局限与展望

作者坦诚当前局限:

  • 复杂推理下容易“话痨”,导致输出截断;
  • 工具定义模糊时误调用;
  • 单轮一次性项目生成成功率仍低于 Agentic 框架。

未来路线图:

  • 工具自省:让模型先判断“需不需要用工具”;
  • 推理-行动融合:把 long-CoT 与工具调用做成统一 token 预算;
  • 端侧轻量化:32 B 激活量已在 4090 可跑,下一步做 8 B/4 B 蒸馏。

8. 写给开发者 & 研究者的三点 takeaway

  1. 数据策略 > 参数魔法:在 1 T 参数以下,「高质量合成 + 重写」仍是提效最快路径。K2 的 rephrasing 代码已开源,可快速迁移到垂直领域。
  2. Agentic 数据管线可复制:工具-任务-轨迹三层抽象 + 混合沙箱,基本覆盖 80% 真实场景。
  3. RL 基础设施进入「工业化」阶段:30 秒热启动、万级并发沙箱、FP8 显存优化,意味着 RL 不再是炼丹,而是可规模化的产品组件。

9. 结语

Kimi K2 用 15.5 T tokens、32 B 激活、1 T 总参数,把「开源模型做不到的事」清单划掉了一大半。
更重要的是,它把「如何训练一个可落地的智能体」拆解成了可复现的配方:

高效优化器 + 合成数据工厂 + 可验证 RL = Agentic Intelligence at scale

接下来,轮到社区去玩出更多花样了。


附录:相关链接

附技术报告英中对照版,仅供学习参考:

🔲 ☆

解码Google Gemini 2.5:推理、多模态与智能体能力的革命性突破

近日,Google DeepMind发布了震撼业界的Gemini 2.5系列模型技术报告,标志着大模型技术迈入全新阶段。作为谷歌迄今最强大的AI模型,Gemini 2.5 Pro不仅在传统基准测试中大幅刷新记录,更在长上下文理解复杂推理多模态智能体能力上实现质的飞跃。本文将深度解析这一技术里程碑的核心突破与潜在影响。


一、架构革新:从混合专家到思维引擎

Gemini 2.5系列基于稀疏混合专家模型(MoE) 架构,但进行了关键升级:

  • 动态路由优化:通过改进token到专家的分配策略,计算效率提升40%(相比Gemini 1.5 Pro)
  • 训练稳定性突破:采用分阶段静默数据损坏检测技术,将故障定位时间从小时级缩短至分钟级
  • TPUv5p超算级训练:跨数据中心8960芯片集群同步训练,93.4%时间用于有效计算

最革命性的创新是 “Thinking”机制

# Thinking机制伪代码示例
def generate_response(query):
    thought_tokens = allocate_thinking_budget(query)  # 动态分配计算资源
    for _ in range(thought_tokens):
        internal_state = refine_thought(internal_state, query)  # 迭代推理
    return finalize_response(internal_state)

该机制允许模型在响应前进行数万次前向传播,显著提升复杂问题解决能力。在AIME 2025数学竞赛基准上,思考预算增加使准确率从72%跃升至88%。


二、多模态理解:突破时空限制

Gemini 2.5 Pro实现了前所未有的多模态处理能力:

  • 3小时视频解析:通过视觉token压缩技术(每帧66 token vs 旧版258 token)
  • 跨模态转换:可将讲座视频实时转化为交互式测验应用(Baddepudi et al., 2025)
  • 音频流式处理:支持24种语言的对话式语音交互,情感识别误差降低35%

在VideoMME视频理解基准上,Gemini 2.5 Pro以84.3% 准确率超越GPT 4.1的72%,尤其在时空推理任务(如寻找跨镜头关联事件)上优势显著。


三、智能体生态:从编码到自主决策

报告展示了Gemini作为智能体平台的核心能力:

  • 代码革命:LiveCodeBench得分从30.5%(1.5 Pro)飙升至74.2%,SWE-bench验证任务提升33%
  • Gemini Deep Research:网络研究代理在Humanity's Last Exam基准半年内从7.95%提升至32.4%
  • Pokémon通关案例:在813小时游戏过程中展现长程规划能力,解决包含150步操作的迷宫难题

四、安全与评估的双重挑战

尽管能力飞跃,报告揭示了关键挑战:

  1. 评估范式危机
    • Humanity's Last Exam单题设计成本高达$5000
    • Gemini在Aider Polyglot基准一年内性能提升5倍,传统基准快速饱和
  2. 安全防护创新
    • 自动化红队系统(ART):通过多智能体对抗生成百万级测试用例
    • 间接提示注入防御:新型对抗训练使攻击成功率降低80%
    • 记忆控制:训练数据泄露风险比前代降低14倍

在关键能力评估中,Gemini 2.5 Pro尚未达到网络安全关键能力阈值(仅完成50%专业级攻防挑战),但已触发谷歌的加速监控机制。


五、开发者生态战略布局

Gemini 2.X系列覆盖完整帕累托前沿:

模型类型核心优势适用场景
Gemini 2.5 Pro极限推理/多模态科研、复杂代理系统
Gemini 2.5 Flash动态计算平衡企业级应用
2.0 Flash-Lite0.1秒响应延迟移动端大规模部署

通过AI Studio平台,开发者可直接调用:

  • 原生图像生成(2.0 Flash)
  • 可控TTS语音合成(支持80+语言)
  • 百万token上下文处理API

六、未来展望:逼近通用AI的最后壁垒

Gemini 2.5的突破印证了三个趋势:

  1. 计算分配智能化:"Thinking"机制预示动态资源调度将成为模型标配
  2. 多模态统一架构:文本/图像/视频/音频在向量空间实现深度融合
  3. 评估范式革命:传统静态基准正被自我进化的评估智能体取代

正如DeepMind CEO Hassabis所述:"我们正在构建的不仅是工具,而是能理解并主动解决人类复杂需求的通用助手。" 当模型能在46分钟视频中精确定位1秒事件(见附录8.5),或在无视觉输入时仅靠RAM数据通关Pokémon,AI的能力边界已超越人类传统认知框架。

技术启示录:Gemini 2.5的进化速度暴露了AI领域的核心矛盾——当模型能力呈指数增长时,人类设计评估体系的能力却停滞在线性阶段。下一次范式突破,或许将始于AI自主设计评估标准的那一刻。

探索Gemini 2.5技术细节,附gemini 2.5技术报告英中对照版,仅供学习参考:

🔲 ☆

MiniMax-M1:闪电注意力重塑大模型推理效率,百万上下文时代来临,附技术报告英中对照版

一、核心创新:闪电注意力 + 混合架构

1. 闪电注意力(Lightning Attention)

  • 问题根源:传统Transformer的Softmax注意力存在O(n²)计算复杂度,限制长文本处理能力(如DeepSeek-R1仅支持128K上下文)。
  • 解决方案
    • 采用线性注意力变体(Qin et al.),通过核函数近似Softmax,将复杂度降至O(n)。
    • I/O感知优化:减少GPU内存读写次数,实测生成100K token的FLOPs仅为DeepSeek-R1的25%。
  • 效果
    • 原生支持1M token输入(8倍于DeepSeek-R1)
    • 输出长度扩展至80K token(超越Gemini 2.5 Pro的64K)

2. 混合专家架构(MoE-Hybrid)

  • 设计:每7个闪电注意力层 + 1个Softmax注意力层(共456B参数,激活45.9B/Token)
  • 优势
    • 保留局部感知能力(Softmax层)的同时,实现长序列高效处理。
    • 通过四阶段平滑扩展策略(32K→1M),解决训练中梯度爆炸问题。

二、训练革命:CISPO算法 + 高效RL框架

1. CISPO:重新定义RL训练稳定性

  • 传统RL痛点:PPO/GRPO裁剪Token更新会抑制关键推理Token(如“However”、“Recheck”),阻碍复杂推理行为涌现。
  • 创新方案
    • 裁剪重要性采样权重而非Token更新(公式4-5),保留所有Token的梯度贡献。
    • 实验验证:在AIME数学基准上,训练效率2倍于DAPO(50%步数达成相同性能)。

2. 低成本大规模RL训练

  • 工程优化
    • 修复FP16精度误差:LM输出头升级至FP32,训练/推理概率对齐至0.99+。
    • 动态截断:检测重复模式(连续3000 Token概率>0.99)提前终止生成。
  • 成果
    • 仅用512张H800 GPU,3周完成全量RL训练(成本53.47万美元)
    • 发布40K/80K思考预算双版本模型。

三、数据策略:真实场景驱动的多任务强化

1. 可验证任务(规则驱动)

  • 数学推理:50K竞赛级问题,过滤Pass@10∈(0,0.9)的样本防过拟合。
  • 软件工程:构建GitHub问题沙箱(SWE-bench衍生),执行测试用例作为RL奖励信号。
  • 逻辑推理:SynLogic框架生成53K密码/数独等任务,动态调整难度参数。

2. 开放域任务(模型驱动)

  • 长度偏差治理:监测RL中“长文本投机行为”,动态校准奖励模型。
  • 课程学习策略
    • 先训练可验证任务(数学/代码)
    • 逐步混合开放域任务(写作/问答)
    • 防止灾难性遗忘的同时提升泛化性。

四、性能实测:长上下文场景碾压级优势

任务类型MiniMax-M1-80KDeepSeek-R1Gemini 2.5 Pro
软件工程(SWE-bench)56.0%34.4%67.2%
长上下文(1M MRCR)58.6%-58.8%
工具调用(TAU零售)67.8%58.6%67.0%
数学推理(AIME2025)76.9%81.5%88.0%

关键结论

  • 长上下文王者:1M输入理解接近Gemini 2.5 Pro,80K输出超越Claude 4 Opus(32K)。
  • 工具代理标杆:TAU工具调用击败Gemini和OpenAI o3。
  • 数学短板:落后DeepSeek-R1-0528约5%,反映MoE架构对符号推理的优化空间。

五、开源与影响:大模型平民化的里程碑

  • 全面开源
    • 模型权重、训练代码、部署指南(GitHub/Hugging Face)
    • 支持vLLM/Transformers推理框架,提供商业API(minimax.io)。
  • 行业意义
    • 首开先河:验证线性注意力在大规模RL中的可行性,为后续模型(如Mamba、RWKV)铺路。
    • 成本革命:百万上下文推理成本降低75%,加速企业级Agent应用落地。

六、未来挑战

  1. 数学推理优化:混合架构对符号逻辑的适应性待提升。
  2. 长度偏差根治:奖励模型仍需在线校准防“注水文本”。
  3. 生态建设:工具链完善度较Transformer生态仍有差距。

技术启示录
MiniMax-M1的突破证明——高效≠妥协。当闪电注意力撕开O(n²)的铁幕,当CISPO算法驯服RL训练的野性,我们终将见证:推理的长度不再受限,智能的边界在于想象。开源之火,正燎原至每个角落的创造者手中。

附MiniMax-M1技术报告英中对照版,仅供学习参考:

🔲 ☆

小红书dots.llm1:重新定义MoE效率边界,14B激活参数挑战72B密集模型极限

核心突破:极简激活的超级大脑

  • 142B总参数 | 14B动态激活(每token激活6个专家+2个共享专家)
  • 性能对标:Qwen2.5-72B、DeepSeek-V3等顶级模型
  • 训练成本仅1/4:11.2T token预训练耗用146万GPU小时(Qwen2.5-72B需612万小时)
  • 推理经济性:单节点8张GPU(40/80GB)即可部署

🔍 MoE架构精要

  • 128路由专家 + 2共享专家(SwiGLU激活的细粒度FFN)
  • FP32门控层:保障路由稳定性
  • 无辅助损失负载均衡(借鉴DeepSeek-V2):动态偏置项调节专家利用率
  • 序列级均衡损失:杜绝单序列内负载倾斜

三大技术支柱撑起SOTA表现

1. 数据工程:11.2T高质量token的炼金术
  • 三阶段处理框架
    • 文档准备:URL过滤+文本提取(优化版trafilatura)
    • 规则处理
      • 行级去重:消除页眉/页脚冗余(保留前5行+后5行的低频内容)
      • 模糊去重:MinHash+LSH实现80%相似度过滤(97.42%召回率)
    • 模型处理
      • 网页分类器:保留文本密集型页面
      • 质量模型:1.5B评分网络筛选高信息密度文本
      • 语义去重:BGE-M3嵌入+KMeans聚类(相似度>0.95剔除)
  • 中英1:1平衡 + 知识类别再平衡
    200类分类器提升百科/科普权重,压缩小说/商品描述占比
2. 训练基础设施:通信与计算的极致优化
  • 1F1B流水线调度
    • 创新性增加预热步骤,实现All-to-All通信与计算重叠
    • 内存效率优于DeepSeek的DualPipe方案(牺牲约5%气泡率)
  • 分组GEMM加速
    • Token分块对齐:统一WGMMA指令的Tile粒度
    • 性能碾压:H800上比NVIDIA Transformer Engine快14%(前向)/6.7%(反向)
3. 训练策略:稳定性的科学
  • 分段学习率:4k步预热→10T token稳定期(3e-4)→两阶段退火(3e-5→1e-5)
  • 动态批大小:64M → 96M(6T token)→ 128M(8.3T token)
  • 32K上下文扩展
    采用UK策略(UnTie the Knots)——打乱文档分块并训练模型重组,保留短上下文能力

性能实测:以小博大的典范

能力维度关键指标dots.11m1表现对标模型
中文理解C-Eval (5-shot)92.8超Qwen2.5-72B (89.3)
数学推理AIME2433.1逼近DeepSeek-V3 (34.0)
代码生成HumanEval (Pass@1)88.4接近GPT-4o (92.1)
长上下文RULER-32K87.7落后Qwen2.5-72B(92.7)
综合成本GPU小时/万亿token13万Qwen2.5-72B的38%

💡 现象级发现
数学任务中零样本比少样本强4+分,暗示模型内在推理机制特殊(作者称留待未来研究)


开源革命:透明化训练进程

  • 每1T token发布中间检查点
    首次提供LLM训练动态的完整观测窗口,助力社区研究学习轨迹
  • 全流程开源
    数据处理代码/训练框架/模型权重(HuggingFace & GitHub)

技术启示录

  1. 数据质量 > 数据规模
    TxT360对比实验证明——优质网页数据使1.5B小模型性能提升15%+
  2. MoE负载均衡无需代价
    无辅助损失设计验证了“平衡性可不牺牲性能”
  3. 系统级创新才是硬道理
    分组GEMM优化带来实质训练加速,算法-硬件协同是关键

🌟 未来方向

  • 稀疏注意力(GQA/MLA)+ 更稀疏MoE层
  • 人类学习效率模拟:从数据中提取最大化知识密度

结语
dots.llm1用工程严谨性证明:效率与性能可兼得。当业界追逐万亿参数时,它选择让每比特算力发挥极致价值——这或是AGI时代更可持续的路径。

附小红书dots.llm1技术报告英中对照版,仅供学习参考:

🔲 ☆

Qwen3 Embedding 技术解析:多语言文本嵌入与重排序的新标杆

阿里巴巴通义实验室发布的 Qwen3 Embedding 系列模型在文本嵌入(Embedding)和重排序(Reranking)任务上实现了重大突破。本文深入解读其核心技术、创新点及性能表现。


一、核心目标与背景

文本嵌入(将文本转化为稠密向量)和重排序(对检索结果进行精细化排序)是信息检索、RAG(检索增强生成)和智能体系统的基石。随着大语言模型(LLM)的发展,传统方法(如基于BERT的编码器)面临多语言支持弱指令泛化能力差专业领域(如代码)表现不足等问题。Qwen3 Embedding 系列旨在解决这些痛点,提供高效且强大的开源解决方案。


二、模型架构设计

1. 基础架构

  • 骨干网络:基于 Qwen3 基础模型(Decoder-Only 架构),提供 0.6B/4B/8B 三种参数规模。
  • 上下文长度:全系列支持 32K Tokens,适应长文档处理。
  • 指令感知(Instruction Aware):支持通过指令(I)动态定义任务目标(如“判断法律文档相关性”)。

2. 嵌入模型(Embedding)

  • 输出生成:在输入文本末尾添加 [EOS] token,取其最后一层隐藏状态作为嵌入向量。
  • 输入格式
    {Instruction} {Query}</endoftext>
    (文档无需拼接指令)
  • 灵活维度:支持自定义输出维度(1024/2560/4096),便于适配不同下游系统。

3. 重排序模型(Reranker)

  • 任务形式:将相关性判定转化为 二分类问题(输出"Yes"/"No")。
  • 输入格式:复制下载<|im_start|>system Judge whether the Document meets the requirements based on the Query and the Instruct. Answer only "yes" or "no". <|im_end|> <|im_start|>user <Instruct>: {Instruction} <Query>: {Query} <Document>: {Document} <|im_end|>
  • 得分计算:基于"Yes"的概率归一化值:

三、创新训练策略

1. 多阶段训练流程

阶段嵌入模型重排序模型
弱监督预训练1.5亿合成数据对❌ 不适用
监督微调(SFT)700万标注数据 + 1200万精选合成数据高质量标注数据
模型合并(Merge)多检查点球面线性插值(Slerp)多检查点球面线性插值

2. 关键创新点

  • LLM驱动的数据合成
    • 使用 Qwen3-32B 生成 1.5亿 多任务、多语言文本对。
    • 通过角色扮演(从Persona Hub选角色)和多维控制(任务类型、语言、长度、难度)提升数据多样性和真实性。
    • 示例:为文档生成“PhD难度+法官角色+总结型问题”的查询。
  • 高质量数据筛选:用余弦相似度 >0.7 过滤合成数据,得到1200万高质量子集用于SFT。
  • 模型合并技术:合并训练过程中多个检查点,显著提升模型鲁棒性和泛化能力(消融实验显示性能提升1.77分)。

3. 损失函数

  • 嵌入模型:改进的对比损失(InfoNCE变体),引入掩码机制过滤假负例:
  • 重排序模型:标准监督微调损失(SFT Loss):

四、性能表现:全面领先

1. 文本嵌入模型(MTEB基准)

模型参数量MTEB多语言MTEB英文CMTEB中文MTEB代码
Gemini-Embedding-68.3773.30-74.66
Qwen3-Embedding-0.6B0.6B64.3370.7066.3375.41
Qwen3-Embedding-4B4B69.4574.6072.2680.06
Qwen3-Embedding-8B8B70.5875.2273.8480.68

亮点

  • 8B模型在多语言、代码检索任务全面超越Gemini。
  • 0.6B小模型在代码检索(75.41)显著优于7B级竞品(如gte-Qwen2-7B的56.41)。

2. 重排序模型

模型基础检索分重排序后提升
Qwen3-Embedding-0.6B61.82-
Qwen3-Reranker-0.6B-+3.98
Qwen3-Reranker-8B-+7.12

在跨语言检索(MMTEB-R)、代码检索(MTEB-Code)等任务中,8B重排序器提升超7分。


五、关键洞见与消融实验

  1. 合成数据必要性
    • 移除弱监督预训练阶段,0.6B模型性能下降3.12分(Table 5)。
  2. 模型合并的价值
    • 未合并的模型比最终版低1.77分,证明合并有效提升鲁棒性。
  3. 指令感知的普适性
    • 通过自定义指令,同一模型可适配检索、分类、相似度计算等不同任务。

六、应用与开源


七、总结

Qwen3 Embedding 系列的核心突破在于:

  1. LLM赋能的训练流程:用大模型合成高质量数据,突破传统数据瓶颈。
  2. 灵活的多阶段训练:弱监督预训练 + 精标数据微调 + 模型合并,兼顾规模与质量。
  3. 极致性能:在代码检索、多语言任务上显著超越开源与商业模型(如Gemini)。

该工作不仅推动了文本表示技术的发展,其“指令即任务”的设计理念和开源策略,更为社区构建下一代检索系统提供了强大基础。


参考文献
[1] Zhang Y. et al. Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models. 2025.
[2] Enevoldsen K. et al. MMTEB: Massive Multilingual Text Embedding Benchmark. ICLR 2025.
[3] Xiao S. et al. C-Pack: Packed Resources for General Chinese Embeddings. SIGIR 2024.

附Qwen3 Embedding技术报告英中对照版,仅供学习参考:

🔲 ⭐

解密小米MiMo-VL:7B小模型如何实现多模态SOTA性能

近日,小米开源社区发布了MiMo-VL-7B视觉语言模型技术报告,其SFT(监督微调)和RL(强化学习)版本在40多项多模态任务评测中表现惊艳,尤其在复杂推理和GUI交互领域刷新了开源模型记录。本文将深入解析其核心技术方案。


一、核心架构设计

MiMo-VL采用经典的三模块架构:

  1. 视觉编码器:基于Qwen2.5-ViT,支持原生分辨率输入保留细节
  2. 跨模态投影层:MLP结构实现视觉-语言特征对齐
  3. 语言模型:小米自研MiMo-7B基础模型,专为复杂推理优化


图:模型架构示意图(来源:技术报告Figure 2)


二、四阶段预训练策略(2.4万亿Token)

阶段目标关键数据序列长度
1投影层预热图文对8K
2视觉-语言对齐图文交错数据8K
3多模态预训练OCR/视频/GUI/推理数据8K
4长上下文SFT高分辨率图像/长文档/长推理链32K

核心突破:在阶段4注入合成推理数据(含长思维链),使模型在MMMU任务响应长度从680 token跃升至2.5K token,推理深度显著提升。


三、混合强化学习(MORL)

创新性地融合两类奖励信号:

  1. 可验证奖励(RIVR)
    • 数学推理:基于Math-Verify库自动验证
    • 目标定位:GIoU计算边界框精度
    • 视频时序定位:IoU评估时间片段
  2. 人类偏好奖励(RLHF)
    • 构建双语偏好数据集
    • 分离训练文本/多模态奖励模型
    • 采用Bradley-Terry目标函数

技术优势:通过完全同策略GRPO算法避免传统RL性能饱和问题(见图7对比),实现稳定优化。


四、性能突破

  1. 基础视觉理解
    • MMMU-val:66.7%(超越Gemma 3 27B)
    • CharXiv-RQ:56.5%(领先Qwen2.5-VL 14%)
  2. 复杂推理
    • OlympiadBench:59.4%(超越72B模型)
    • MathVision:60.4%(较SFT提升2.5%)
  3. GUI交互
    • OSWorld-G:56.1%(超越专用模型UI-TARS
    • 统一动作空间支持跨平台操作(详见表5)
  4. 用户体验
    • 开源模型中最高Elo评分
    • 接近Claude 3.7 Sonnet水平

图:GUI任务性能对比(来源:技术报告Figure 4)


五、关键洞见

  1. 推理数据前置:预训练后期引入长链合成数据,比微调效果提升显著
  2. 多任务RL冲突:感知任务需简短输出,推理任务需长链思考,优化目标存在张力
  3. 奖励工程挑战:不同任务奖励量纲差异需归一化处理(RaaS服务实现)

六、开源生态

  1. 模型权重:完整开放SFT/RL版本
  2. 评测框架:覆盖50+任务的LMMs-Eval增强版
  3. 数据集:包含GUI动作空间定义等工业级数据

项目地址:https://github.com/XiaomiMiMo/MiMo-VL


结语

MiMo-VL-7B通过三阶段创新—— 精细数据配比预训练、混合奖励强化学习、工业场景专项优化,证明了小模型在复杂多模态任务上的巨大潜力。其在STEM问题求解(见图13)、GUI自动化(见图9)、长文档解析等场景的表现,为开源社区提供了新的技术标杆。

附小米MiMo-VL技术报告英中对照版,仅供学习参考:

🔲 ☆

QwenLong-L1:通过强化学习实现长上下文推理的大模型飞跃

近年来,大型推理模型(Large Reasoning Models, LRMs)在数学、编程和逻辑推理等任务中展现了接近人类专家的能力。然而,短上下文推理任务的优势能否扩展到长上下文场景(如处理数万token的文档问答)仍是一个关键挑战。阿里巴巴团队提出的QwenLong-L1框架,通过强化学习(RL)和渐进式上下文扩展策略,首次在长上下文推理任务中实现突破性性能。本文将从技术背景、方法创新、实验结果和实际案例等方面解析这一研究成果。


一、长上下文推理的挑战与解决方案

1.1 问题背景:短上下文与长上下文推理的本质差异

传统LRMs(如GPT-4、Claude等)的RL优化主要针对短上下文任务(如4K token内的数学题),其依赖模型内部参数知识生成推理链。然而,长上下文推理(如120K token的金融报告分析)需要模型从外部长文本中检索信息并逐步整合,这对训练效率和稳定性提出了更高要求。实验发现,长上下文RL训练存在两大核心问题:

  1. 训练效率低下:奖励收敛延迟,输出熵降低导致探索不足。
  2. 优化过程不稳定:KL散度波动剧烈,长输出序列引入方差放大效应。

1.2 QwenLong-L1的核心创新

QwenLong-L1提出了一套系统性解决方案,包含三大核心组件:

  1. 渐进式上下文扩展:分阶段增加输入长度(如20K→60K→120K),避免模型因突变的长上下文输入而崩溃。
  2. 混合奖励机制:结合基于规则的精确匹配和LLM语义评判,平衡答案多样性与准确性。
  3. 课程引导的强化学习:分阶段训练并引入难度感知采样,优先探索复杂样本。

二、技术实现:从短到长的稳定迁移

2.1 渐进式上下文扩展策略

  • 课程引导的阶段性RL:将训练分为多个阶段,逐步增加输入长度。例如,第一阶段仅处理20K token的输入,第二阶段扩展至60K,最终支持120K。
  • 难度感知回顾性采样:根据样本难度动态调整训练数据,保留前期阶段中奖励低的困难样本,激励模型探索。
  • 热身监督微调(SFT):通过高质量标注数据初始化模型,提升上下文理解和答案提取的基础能力。

2.2 强化学习算法优化

QwenLong-L1采用两种改进的RL算法:

  1. GRPO(Group Relative Policy Optimization):通过组归一化奖励估计优势值,避免传统PPO依赖价值网络的复杂计算。
  2. DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization):引入动态采样和长度惩罚,防止输出过长导致的训练不稳定。

2.3 混合奖励设计

  • 规则验证(Rule-Based):严格匹配答案格式(如正则提取数值),确保精确性。
  • LLM评判(LLM-as-a-Judge):利用小型模型(如Qwen2.5-1.5B)评估语义等效性,弥补规则方法的局限性。
  • 最终奖励:取两者最大值(max(r_rule, r_LLM)),兼顾召回率与准确率。

三、实验结果:性能全面领先

3.1 基准测试表现

在7个长上下文文档问答基准(如DocMath、HotpotQA)中,QwenLong-L1显著超越现有模型:

  • QwenLong-L1-32B平均得分70.7,与Claude-3.7-Sonnet-Thinking持平,优于OpenAI-o3-mini(70.4)和Qwen3-235B-A22B(70.6)。
  • QwenLong-L1-14B得分68.3,超越Gemini-2.0-Flash-Thinking(65.7)和Qwen3-32B(67.8)。

3.2 关键发现

  • SFT的局限性:短上下文SFT对长任务提升有限(平均增益仅0.8-3.2分),需依赖RL优化。
  • RL的核心作用:RL使模型输出熵保持高位,促进探索行为,最终性能提升4.1-5.1分。
  • 测试时扩展(Pass@K):生成多候选答案可进一步提升效果,QwenLong-L1-14B的Pass@2达73.7,超越DeepSeek-R1(72.1)。

四、案例解析:模型如何“慢思考”?

案例1:金融报告利息计算(DocMath complong-testmini-183)

  • 错误示例:基线模型R1-Distill-Qwen-14B因过度关注无关时间细节(“利息每半年支付”)而误算第一年利息为$20.4M。
  • QwenLong-L1表现:通过自我验证和回溯,过滤噪声信息,正确整合发行成本($8.4M)和全年利息($24M),最终输出正确答案$32.4M。

案例2:债务协议利息推断(DocMath complong-testmini-265)

  • 任务难点:需从长文本中提取本金($4.9M)、利率(10%)和展期时间(2年)。
  • 模型行为:QwenLong-L1通过分步目标拆解(Subgoal Setting)和多次回溯验证(Backtracking),准确计算总利息为$980,000。

五、未来方向与启示

QwenLong-L1的成功为长上下文LRMs的发展指明方向:

  1. 任务扩展:应用于科学文献分析、长视频理解等场景。
  2. 架构优化:探索线性注意力、异步参数更新等高效计算方案。
  3. RL范式革新:从Token级MDP转向Turn级交互,支持无限上下文推理。

这项研究表明,强化学习不仅是性能提升的工具,更是解锁模型复杂认知行为的关键。通过渐进式训练和混合奖励设计,QwenLong-L1为实际应用中的信息密集型推理任务提供了可靠解决方案。

附QwenLong-L1技术报告英中对照版,仅供学习参考:

🔲 ☆

英伟达选择阿里千问背后的技术逻辑:中国开源大模型的全球崛起

Qwen3发布,作为国内首个实现""能力的开源模型,Qwen3不仅达到了36万亿token的训练数据量,还支持119种语言和方言。通过混合专家(MoE)架构与混合推理机制的深度整合,在参数效率与任务适应性层面实现双重突破。旗舰模型Qwen3-235B-A22B在数学证明、代码生成等核心基准测试中,展现出与DeepSeek-R1、Grok-3等顶尖模型的竞争优势。
🔲 ☆

深度解析DeepSeek-V3:硬件与模型协同设计如何突破LLM规模化瓶颈

就在今天,梁文锋署名DeepSeek新论文的刚刚放出,以下是该论文的解读和英中对照版,仅供学习参考:

近年来,大型语言模型(LLMs)的规模呈指数级增长,从GPT-4、LLaMA到Gemini,模型参数量已突破千亿级别。然而,这种增长也暴露出当前硬件架构的局限性:内存墙(Memory Wall)、计算效率瓶颈通信带宽不足。如何在有限的硬件资源下实现高效训练和推理,成为学术界与工业界共同关注的焦点。

DeepSeek团队在论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》中提出了一种硬件与模型协同设计的解决方案。通过DeepSeek-V3的实践,他们展示了如何以2048块NVIDIA H800 GPU为基础,结合创新技术实现低成本、高吞吐的LLM训练与推理。本文将从技术原理、硬件优化和未来方向三个维度,深度解析这一里程碑式的工作。


一、核心技术创新

1. 内存效率优化:从KV缓存到稀疏计算

问题背景:LLM推理中,KV缓存(Key-Value Cache)是内存消耗的主要来源。以4096长度的序列为例,传统模型的KV缓存可能占用数百KB/Token,导致长上下文处理时内存迅速耗尽。

解决方案

  • 多头潜在注意力(MLA)
    MLA通过投影矩阵将多头注意力中的KV向量压缩为低维潜变量,仅需缓存潜变量而非完整KV对。如表1所示,DeepSeek-V3的KV缓存仅需70KB/Token,相比LLaMA-3.1 405B(516KB)减少近90%。
  • 低精度模型与量化压缩
    采用FP8精度替代BF16,内存占用减半;结合动态量化和窗口化缓存策略,进一步压缩存储空间。

优势:MLA不仅降低内存占用,还减少了内存带宽压力,使得GEMV(矩阵-向量乘)操作更高效,尤其适合资源受限的边缘设备部署。


2. MoE架构:稀疏激活与计算效率的平衡

问题背景:密集模型(如72B参数Qwen2.5)需全量激活参数,计算成本高昂。MoE(Mixture of Experts)通过稀疏激活降低计算量,但传统MoE存在专家负载不均衡、通信开销大等问题。

DeepSeek-MoE的创新

  • 动态专家路由与节点限制路由(Node-Limited Routing)
    将256个专家分组部署在8个节点内,每个Token最多路由至4个节点,减少跨节点通信带宽需求。
  • 计算成本对比
    如表2所示,DeepSeek-V3(671B参数)仅激活37B参数/Token,训练成本250 GFLOPS/Token,显著低于405B密集模型的2448 GFLOPS/Token。

优势:MoE架构在保持模型容量的同时,支持单请求低资源推理。例如,DeepSeek-V2(236B)在消费级AI SoC芯片上可实现20+ TPS(Tokens Per Second),而同等性能的密集模型仅有个位数表现。


3. FP8混合精度训练:解锁硬件潜力

问题背景:FP8相比BF16节省50%内存,但此前未在MoE训练中广泛应用,主要受限于累积精度不足和硬件支持缺陷。

DeepSeek的实践

  • 细粒度量化策略
    对激活值采用Tile-wise(1x128)量化,权重采用Block-wise(128x128)量化,结合高精度累加(FP22寄存器)缓解精度损失。
  • 开源框架DeepGEMM
    团队开源了针对FP8优化的矩阵乘库,支持细粒度缩放因子计算,实测精度损失低于0.25%。

挑战:FP8在Hopper GPU上的累积精度受限(仅保留13位尾数),需硬件厂商未来支持FP32累加器或可配置精度模式。


4. 通信与网络优化:从多平面拓扑到低延迟协议

问题背景:MoE的专家并行(EP)依赖频繁的All-to-All通信,传统三層Fat-Tree网络成本高且延迟大。

解决方案

  • 多平面二层Fat-Tree(MPFT)
    每个GPU-NIC对绑定独立网络平面,通过PXN技术实现跨平面流量转发。如表3所示,MPFT支持16K GPU规模,成本比三层架构降低40%。
  • IBGDA与RDMA优化
    采用InfiniBand GPUDirect Async(IBGDA),绕过CPU代理直接由GPU管理通信控制平面,减少微秒级延迟。

性能验证:在2048 GPU集群中,MPFT与多轨网络(MRFT)的训练吞吐(272B Tokens/Day)和MFU(43.7%)表现接近,证明其成本优势。


二、硬件协同设计的启示

1. 低精度计算的硬件支持

  • 建议:未来硬件需支持动态范围更大的Logarithmic FP格式(如LogFMT-8Bit),并集成压缩/解压缩单元,降低通信带宽需求。

2. 扩展性与通信收敛

  • 统一网络适配器:将NVLink与InfiniBand整合为统一接口,支持硬件级流量优先级调度。
  • 专用通信协处理器:卸载数据转发、Reduce操作到独立硬件单元,释放GPU计算资源。

3. 内存架构革新

  • 3D堆叠DRAM:通过SeDRAM等技术提升内存带宽,缓解注意力机制的内存瓶颈。
  • 存算一体设计:探索近内存计算(Near-Memory Computing)架构,减少数据搬运开销。

三、未来展望:AI硬件的下一个十年

DeepSeek-V3的实践揭示了硬件与模型协同设计的必要性。未来趋势可能包括:

  1. 可配置精度单元:支持训练与推理的不同精度需求,动态切换FP8/FP16/FP32模式。
  2. 光互连与硅光子集成:突破电互连带宽限制,实现低功耗、高密度通信。
  3. 故障容忍与自适应路由:通过硬件级重传协议和动态路径选择,提升超大规模集群的鲁棒性。

结语

DeepSeek-V3不仅是算法创新的典范,更是一次硬件与软件深度协同的成功实践。其核心在于以硬件特性驱动模型设计,以模型需求反推硬件演进。随着AI负载的复杂化,这种协同设计将成为突破算力瓶颈的关键。或许,未来的AI芯片将不再是通用加速器,而是为特定模型架构量身定制的“智能引擎”。

附该论文英中对照版,仅供参考:

🔲 ☆

Qwen3技术解析:开源大模型的新标杆,附Qwen3技术报告英中对照版

近年来,大型语言模型(LLM)在通用人工智能(AGI)领域持续突破,而开源社区的贡献正不断缩小与闭源模型的差距。由Qwen团队推出的Qwen3系列模型,以其创新的架构设计、高效的多语言支持和卓越的性能表现,成为当前开源大模型领域的焦点。本文将从技术角度解析Qwen3的核心亮点及其背后的设计哲学。


一、Qwen3的核心创新

1. 动态思维模式:推理与响应的灵活切换

Qwen3首次将思考模式(Thinking Mode)非思考模式(Non-Thinking Mode)整合到同一模型中。

  • 思考模式适用于需要多步推理的复杂任务(如数学证明、代码调试),模型会生成详细的中间推理过程。
  • 非思考模式则针对即时响应场景(如聊天、简单问答),直接输出最终结果,显著降低延迟。
    用户可通过在输入中添加/think/no_think标签动态切换模式,甚至设置思考预算(Thinking Budget)以控制推理深度,平衡性能与计算成本。

2. 混合专家(MoE)架构的优化

Qwen3提供密集(Dense)和MoE两种架构,其中旗舰模型Qwen3-235B-A22B采用MoE设计,总参数量235B,每Token仅激活22B参数。相比前代Qwen2.5-MoE,Qwen3-MoE通过细粒度专家分割全局批量负载均衡损失优化专家分工,在相同激活参数下性能提升20%以上。

3. 多语言能力飞跃

预训练数据覆盖119种语言和方言(前代支持29种),包括低资源语言如约鲁巴语(Yoruba)和巴斯克语(Basque)。通过多语言数据标注系统,Qwen3在跨语言理解(如翻译、区域知识问答)任务中表现突出,例如在INCLUDE基准测试中,其多语言准确率较DeepSeek-V3提升12%。


二、训练策略:从数据到模型的高效路径

1. 三阶段预训练

  • 通用阶段(30T Token):构建基础语言能力与通用知识。
  • 推理增强阶段(5T Token):增加STEM、编程和合成数据比例,强化逻辑推理。
  • 长上下文阶段:扩展上下文窗口至32K Token,结合YARN和双块注意力(Dual Chunk Attention)技术,推理时支持128K上下文。

2. 后训练优化

通过四阶段流程融合思维控制与通用能力:

  1. 长链思维冷启动:使用Qwen2.5-72B筛选复杂问题,构建高质量推理数据集。
  2. 强化学习(RL)微调:在数学和编码任务上应用GRPO算法,模型AIME得分从70.1提升至85.1。
  3. 模式融合训练:将思维与非思维数据混合,设计专用对话模板实现动态切换。
  4. 通用强化学习:覆盖20+任务的奖励系统,提升指令遵循、工具调用等能力。

3. 强到弱蒸馏(Strong-to-Weak Distillation)

小模型通过离策略在策略蒸馏,继承大模型的知识与模式切换能力。例如,Qwen3-14B仅用1/10训练资源,即可达到Qwen2.5-72B 90%的编码性能。


三、性能表现:全面领先的开源标杆

1. 基准测试横扫

  • 数学推理:Qwen3-235B在AIME'24和MATH-500分别取得85.7和98.0分,超越DeepSeek-R1和Gemini 2.5-Pro。
  • 代码生成:在LiveCodeBench v5和BFCL v3中,Qwen3-32B以70.3和70.8分刷新开源记录。
  • 多语言任务:涵盖55种语言的MT-AIME2024测试中,Qwen3平均准确率达80.8%,较GPT-4o提升13.4%。

2. 轻量化模型的高效表现

  • Qwen3-30B-A3B(MoE):仅3B激活参数,在SuperGPQA科学问答中超越Qwen2.5-32B(32B参数)。
  • Qwen3-8B:边缘端模型在GSM8K数学题上取得89.84分,接近Llama-3-70B水平。

四、应用场景与未来方向

1. 实际应用潜力

  • 教育领域:支持多语言的解题辅导,可展示详细推理步骤。
  • 企业级Agent:长上下文处理能力适合文档分析、跨系统工具调用。
  • 低资源语言开发:119种语言覆盖为全球化产品提供低成本适配方案。

2. 未来演进

Qwen团队计划进一步优化超长上下文扩展(>128K)、多模态融合,并通过环境反馈强化Agent的复杂决策能力。此外,模型压缩和训练效率提升将是持续重点。


结语

Qwen3的发布标志着开源大模型在性能、效率和灵活性上迈入新阶段。其动态思维控制、多语言泛化能力和高效的训练方法论,不仅为开发者提供了强大的工具,也为AI民主化注入了新动力。随着后续迭代,Qwen系列有望在更多垂直领域挑战闭源模型的统治地位。

附Qwen3技术报告英中对照版,仅供学习参考:

🔲 ☆

Llama-Nemotron:高效推理大模型的技术突破与应用前景

近年来,大型语言模型(LLM)在复杂推理任务(如数学解题、代码生成、科学问答)上的表现突飞猛进。然而,推理效率用户控制能力逐渐成为制约模型实际落地的核心挑战。针对这一痛点,NVIDIA 近期发布了 Llama-Nemotron 系列模型,以开放许可、高效推理和动态控制为核心卖点,在性能与效率之间实现了新的平衡。本文将深入解析这一技术报告,揭示其背后的技术革新与应用潜力。


一、核心亮点:为什么关注 Llama-Nemotron?

1. 动态推理切换:按需调整模型行为

用户只需在输入中添加 "detailed thinking on/off" 系统提示,即可实时切换模型的响应模式:

  • 推理模式(On):生成多步思维链、自我验证和回溯,适合解决复杂问题(如竞赛级数学题)。
  • 聊天模式(Off):直接输出简洁答案,适用于日常对话或低复杂度任务。

这一功能通过指令微调实现,无需为不同模式部署独立模型,显著降低了部署成本。

2. 极致的推理效率优化

通过 Puzzle 框架(神经架构搜索工具)和 FFN 融合技术,模型在保持高性能的同时大幅提升推理速度:

  • LN-Super(49B):单块 H100 GPU 上推理吞吐量比 Llama 3.3-70B 快 5 倍。
  • LN-Ultra(253B):在 8xH100 节点上,延迟比原版 Llama 3.1-405B 降低 1.71 倍,内存占用减少 40%。

3. 开源生态的全面支持

  • 模型权重:Nano(8B)、Super(49B)、Ultra(253B)均开放商用许可。
  • 训练数据:公开完整的监督学习和强化学习阶段数据集。
  • 代码库:涵盖 NeMo、NeMo-Aligner、Megatron-LM 等工具链。

二、技术揭秘:如何打造高效推理模型?

1. 五阶段训练流程

  1. 神经架构搜索(NAS):从 Llama 3 出发,通过块级局部蒸馏生成高效变体(如移除注意力层、压缩 FFN 维度)。
  2. 知识蒸馏与继续预训练:恢复 NAS 导致的性能损失,扩充领域知识。
  3. 监督微调(SFT):使用 DeepSeek-R1 等教师模型生成的高质量思维链数据,训练模型分步推理能力。
  4. 大规模强化学习(RL):针对科学推理任务(如 GPQA-Diamond),通过课程学习逐步提升难度,使 LN-Ultra 超越教师模型。
  5. 对齐优化:平衡指令遵循、安全性与人类偏好。

2. 关键优化技术

  • Puzzle 框架:通过混合整数规划(MIP)选择最优块组合,精准权衡精度与效率。
  • FFN 融合:合并连续的前馈网络层,减少序列计算深度,提升多 GPU 并行效率。
  • 合成数据生成:从 Art of Problem Solving、CodeForces 等平台提取问题,结合模型生成解决方案,并通过 LLM 裁判过滤低质量数据。

3. 资源效率突破

  • LN-Ultra 的 RL 训练:消耗 14 万 H100 小时,采用 FP8 推理生成技术,吞吐量达 32 tokens/s/GPU。
  • 内存管理优化:通过权重分片、流水线并行和动态卸载,在 8xH100 节点上支持 300 万 token 的 FP8 缓存。

三、性能表现:全面领先的开源模型

1. 推理任务表现

模型GPQA-DiamondAIME25(30题)LiveCodeBench
LN-Ultra76.0%72.5%68.1%
DeepSeek-R171.5%70.0%65.9%
Llama-3.1-405B43.4%0.0%-

2. 非推理任务表现

  • IFEval(指令遵循):LN-Ultra 达到 89.5%,接近 GPT-4 水平。
  • Arena-Hard(对话质量):LN-Super 以 88.3 分超越 Claude 3.5 Sonnet。

3. 效率对比

在相同硬件(8xH100)下,LN-Ultra 的推理吞吐量比 DeepSeek-R1 高 1.8 倍,且支持 128K 长上下文。


四、应用场景与未来展望

1. 典型应用

  • 教育辅助:动态切换模式帮助学生理解解题过程或快速获取答案。
  • 科研工具:处理复杂科学问题(如化学合成路径推理)。
  • 企业级助手:低延迟响应客户查询,同时支持深度数据分析。

2. 社区贡献

  • 开放数据集:涵盖数学、代码、科学领域的 3300 万条高质量样本。
  • 可复现性:完整公开训练代码与超参数配置,推动开源社区协作。

3. 未来方向

  • 代码能力增强:计划更新 LN-Super 的代码数据集,提升 LiveCodeBench 表现。
  • 多模态扩展:结合视觉模块解决 STEM 领域的图文推理问题。

五、总结:推理模型的新标杆

Llama-Nemotron 系列通过动态控制架构优化混合训练策略,在开源模型中树立了新的性能标杆。其技术方案不仅证明了“大模型未必低效”,也为企业提供了兼顾成本与能力的落地选择。随着后续迭代和社区贡献,这一系列有望成为复杂推理任务的默认基础设施。

附Llama-Nemotron技术报告英中对照版,仅供学习参考:

🔲 ☆

小米MiMo-7B技术报告深度解读:如何打造面向推理的高效大模型?

近日,小米LLM-Core团队发布了MiMo-7B技术报告,详细介绍了其专为复杂推理任务设计的大语言模型系列。该模型通过创新的预训练与后训练策略,在数学、编程及通用推理任务中表现卓越,甚至超越参数量更大的主流模型。本文将深入解析其核心技术,探讨其设计思路与性能优势。


核心亮点速览

  • 推理潜力爆发:7B参数的MiMo-7B-Base在数学与编程任务中超越32B量级模型。
  • 两阶段优化:预训练阶段通过数据优化与多令牌预测(MTP)强化基础能力,后训练阶段基于强化学习(RL)实现精准调优。
  • 高效基础设施:无缝滚动引擎将训练速度提升2.29倍,验证速度提升1.96倍。
  • 开源共享:完整模型检查点(Base、SFT、RL)已开源,推动社区研究。

预训练:为推理而生的数据与架构设计

1. 数据优化:密度与多样性并重

  • 高质量数据提取:开发专用HTML解析工具,保留数学公式与代码片段,提升推理模式密度。
  • 三阶段混合策略
    • 阶段1:平衡数据分布,过滤低质量内容(如广告、新闻),提升专业领域数据权重。
    • 阶段2:数学与代码数据占比增至70%,强化专项能力。
    • 阶段3:引入10%合成推理数据(数学、代码、创意写作),上下文长度扩展至32K。
  • 数据规模:总计25万亿Token,覆盖网页、论文、代码、书籍及合成数据。

2. 模型架构创新:速度与性能的平衡

  • 基础架构:采用类Llama的Decoder-only Transformer,集成GQA(分组查询注意力)、RoPE(旋转位置编码)和SwiGLU激活函数。
  • 多令牌预测(MTP)
    • 训练阶段:单层MTP辅助模型预测未来令牌,增强推理连贯性。
    • 推理阶段:复制MTP层至多分支,通过推测解码(Speculative Decoding)加速生成,实测令牌接受率高达90%,显著降低延迟。

3. 预训练性能验证

  • 评估基准:覆盖语言理解(MMLU、BBH)、数学(AIME、GSM8K)、代码(LiveCodeBench)等任务。
  • 关键结果
    • 通用推理:BBH得分75.2,超越同规模模型5分以上。
    • 数学能力:AIME 2024得分32.9,显著优于Qwen2.5-7B(10.1)。
    • 长上下文:32K窗口内检索准确率接近100%,支持复杂推理链生成。

后训练:强化学习的精准调优

1. RL数据与奖励设计

  • 数据筛选
    • 数学问题:保留原始题目(避免答案整数化),通过模型筛选过滤过难/过易样本。
    • 编程问题:仅保留含有效测试用例的题目,剔除黄金解法失败的问题。
  • 奖励机制
    • 数学验证:基于规则库Math-Verify严格判定答案正确性。
    • 代码奖励:引入测试难度驱动奖励,参考IOI竞赛规则,按测试用例通过率分级赋分,缓解稀疏奖励问题。

2. 训练策略优化

  • 动态采样:过滤通过率100%或0%的问题,维持有效梯度信号。
  • 简单数据重采样:保留10%“已掌握”问题,缓解后期采样效率下降。
  • 算法改进:移除KL损失、动态调整剪裁阈值(Clip-Higher),提升策略探索能力。

3. 基础设施加速

  • 无缝滚动引擎
    • 持续滚动:异步执行生成与奖励计算,消除GPU空闲。
    • 早期终止:动态终止长序列生成任务,平衡效率与稳定性。
  • vLLM增强:支持MTP加速推理,优化KV缓存一致性。

性能表现:全面领先的推理能力

1. 预训练模型(MiMo-7B-Base)

  • 数学与代码:LiveCodeBench v5得分32.9,远超Llama-3.1-8B(0.4)和Qwen2.5-7B(5.0)。
  • 长上下文:RULER评测中,多任务检索与推理准确率领先同类模型。

2. 强化学习模型(MiMo-7B-RL)

  • 数学推理:AIME 2025得分55.4,超越OpenAI o1-mini(50.7)。
  • 代码生成:LiveCodeBench v6得分49.3,领先QwQ-32B-Preview(39.1)10分以上。
  • 通用能力:MMLU-Pro得分58.6,优于蒸馏版竞品。

挑战与启示

  • 领域干扰:RL后期数学与代码任务性能难以同步提升,需更精细的奖励设计。
  • 语言混合惩罚:中英文混合响应的检测与抑制仍具挑战,可能影响多语言场景表现。
  • 轻量SFT陷阱:实验表明,仅对齐答案格式的轻量监督微调(SFT)会限制模型潜力。

开源与社区价值

小米开源了MiMo-7B全系列模型(Base、SFT、RL),为研究者提供了:

  • 可复现的基线:完整训练流程与超参配置。
  • RL基础设施参考:无缝滚动引擎与vLLM优化实践。
  • 跨领域启示:数据混合策略与测试难度驱动奖励可迁移至其他推理任务。

总结

MiMo-7B通过“预训练挖潜+后训练提效”的双阶段策略,证明了小模型在复杂推理任务中的巨大潜力。其核心创新——数据密度优化、MTP加速、测试难度奖励——为行业提供了新思路。未来,如何进一步平衡多领域性能、优化多语言支持,将是推理模型发展的关键方向。

附小米Mimo-7B技术报告英中对照版,仅供学习参考:

🔲 ☆

Qwen3来了,全尺寸开源,性能拉满!附最新一手实测!

这两天技术群都在传阿里通义 Qwen3 五一前后发布,然后昨晚各种消息满天飞:

一觉醒来,千问果然没有让人失望,赶在五一前发布并开源Qwen3,效率杠杠的。作为国内首个实现"混合推理"能力的开源模型,Qwen3不仅达到了36万亿token的训练数据量,还支持119种语言和方言。通过混合专家(MoE)架构与混合推理机制的深度整合,在参数效率与任务适应性层面实现双重突破。旗舰模型Qwen3-235B-A22B在数学证明、代码生成等核心基准测试中,展现出与DeepSeek-R1、Grok-3等顶尖模型的竞争优势。

此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数量仅为 QwQ-32B 的 10%,但性能却更胜一筹。甚至像 Qwen3-4B 这样的小型模型,也能与 Qwen2.5-72B-Instruct 的性能相媲美。

Qwen3 此次开源了六款Dense模型和两款Moe模型,Dense模型包括0.6B、1.7B、4B、8B、14B、32B 6个尺寸,Moe模型包括30B和235B,均采用Apache2.0协议开源,诚意满满。其中旗舰版 Qwen3-235B-A22B,总参数量 235B,激活参数仅 22B,可以低成本实现本地部署。而 Qwen3-30B-A3B,总参数量 30B,激活参数仅 3B,消费级别显卡即可部署,整体性能堪比Qwen2.5-32B。另外阿里还开源了小尺寸的 Qwen3-0.6B,可以在手机等端侧部署。

特别值得注意的是Qwen3是国内首个“混合推理模型”,在同一模型中集成了两种推理模式:

  • 即时响应模式:针对简单查询(如信息检索),通过轻量化推理路径实现快速响应;
  • 深度思考模式:应对复杂任务(如数学证明),激活MoE架构中的专家模块进行多步推理;
  • 动态切换机制:支持API参数控制(enable_thinking=True)或自然语言指令(/think)触发模式转换;

另外Qwen3的多语言能力进一步大幅跃升,从之前支持的29种提升至支持119种语言和方言:

  • 国际通用语言:完整涵盖联合国六大官方语言(汉语、英语、法语、西班牙语、俄语、阿拉伯语);
  • 国家官方语言:包括德语、意大利语、日语、韩语、泰语、越南语等国家官方语言;
  • 特色方言及小语种:特别纳入中国粤语、非洲斯瓦希里语、中东意第绪语、西亚亚美尼亚语、东南亚爪哇语、美洲海地克里奥尔语等具有文化代表性的地方语言;

通过开源技术赋能,千问3为全球技术储备不足的国家和地区提供了可用的AI大模型,让语言不再成为数字时代的鸿沟。

同时Qwen3通过原生支持MCP多模态协作协议,构建了面向智能体(Agent)生态的核心能力,其深度集成的工具调用架构支持跨平台设备控制与工业协交互,结合开箱即用的Qwen-Agent框架,开发者可快速构建复杂工作流,如生产线调度、跨端自动化等,标志着大模型从"生成答案"向"完成任务"的范式跃迁。

目前可以在欢迎在 Qwen Chat 网页版和通义 APP 中直接体验 Qwen3,相关地址如下:

  • Qwen Chat:https://chat.qwen.ai/
  • GitHub:https://github.com/QwenLM/Qwen3
  • HuggingFace:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
  • ModelScope:https://modelscope.cn/collections/Qwen3-9743180bdc6b48

Qwen3 快速体验

说了这么多,我还是想动手体验一下 Qwen3,直接在Qwen Chat网页版上体验:

可下拉选择相关模型:

开始测试那个经典问题:9.8和9.11谁大,直接给了推理过程和答案,相当快:

再来一个经典大模型测试题:strawberry有几个r,还是直接给出推理过程和答案:

看起来一般问题难不倒大模型了,那就做一道中考级别的数学题吧:

中考题难不住,继续上高考数学题,这是一道2024年年高考全国甲卷数学(文)试题:

这次思考的过程稍久,不过依然得到了正确答案:-7/2,看起来一般的高考题也难不住Qwen3了,这让我很期待今年高考数学题国内外这些顶尖大模型的PK了。

测试 Qwen3 模型 

当然除了体验网页版,我还想上手体验一下开源的Qwen3模型,直接选择最小的0.6B模型,复用Qwen官方博客上提供的代码,只是简单修改了一下模型:


from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-0.6b"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switch between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# parsing thinking content
try:
    # rindex finding 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

第一次运行模型下载速度挺快的,但是遇到了报错:

刚好看到一篇文章说运行Qwen3 transformers版本不能小于4.51.0,直接升级transformer到4.51.0,再次运行,没有问题了,测试成功:

要禁用思考模式,只需对参数 enable_thinking 进行如下修改:


text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # True is the default value for enable_thinking.
)

Qwen3模型还有很多高级玩法,包括在用户提示或系统消息中添加 /think 和 /no_think 来逐轮切换模型的思考模式,以及Agent和MCP等,限于时间关系,这里就不一一测试了,后续我会测一下更大尺寸的模型,到时候深入研究一下。刚好五一放假,大家可以好好安排五一了!

🔲 ⭐

Kimi-Audio:开源音频基础模型的技术突破与应用前景

近年来,随着大语言模型(LLM)的飞速发展,音频处理领域也迎来了革命性突破。近日,月之暗面(Moonshot AI)团队发布了Kimi-Audio,一款开源的音频基础模型,支持音频理解、生成与对话任务,并在多个基准测试中刷新了性能记录。本文将深入解读其技术报告,剖析其创新设计与应用价值。


一、为什么需要统一的音频基础模型?

音频是人类感知环境、情感表达和语言交流的重要媒介。然而,传统音频处理技术(如语音识别、语音合成)通常针对单一任务设计独立模型,存在以下问题:

  1. 任务孤立:不同模型之间无法共享知识,导致开发成本高;
  2. 数据瓶颈:高质量标注数据稀缺,模型泛化能力受限;
  3. 模态割裂:音频与文本的联合理解与生成能力不足。

Kimi-Audio的目标是构建一个通用音频基础模型,通过统一架构处理多种任务(如语音识别、音频问答、语音对话),同时开源代码与工具,推动社区共同发展。


二、核心技术亮点

1. 混合音频分词器:兼顾语义与声学细节

Kimi-Audio采用离散语义标记(12.5Hz)连续声学向量结合的输入表示:

  • 语义标记:基于ASR模型的向量量化层生成,聚焦内容信息;
  • 声学向量:通过Whisper模型提取,捕捉音色、情感等细节。
    两者叠加后输入音频LLM,平衡了语义理解与声学建模能力。

2. 双分支LLM架构:文本与音频联合生成

模型核心基于预训练LLM(Qwen2.5 7B)初始化,并扩展为双分支结构:

  • 共享层:底层Transformer处理多模态输入;
  • 文本分支:生成文本响应;
  • 音频分支:预测离散语义标记,供反分词器生成语音。
    这种设计保留了LLM的语言能力,同时新增音频生成功能。

3. 流式反分词器:低延迟高质量语音合成

反分词器采用流匹配(Flow Matching)技术,将语义标记转换为梅尔频谱,再通过BigVGAN生成波形。为解决分块生成时的边界问题,引入前瞻机制

  • 将当前块与未来4个标记拼接后生成,仅保留当前块结果;
  • 训练时动态调整分块大小(0.5-3秒),平衡质量与延迟。

三、数据与训练策略

1. 预训练数据:1300万小时多模态音频

覆盖语音、音乐、环境音等场景,通过自动化流程处理:

  • 语音增强:随机选择原始或降噪音频,保留环境信息;
  • 分段与聚类:改进说话人分割算法,合并短片段;
  • 多语言转录:Whisper生成英文文本,Paraformer处理中文。

2. 微调数据:300K小时任务导向数据

涵盖语音理解、对话、问答等任务:

  • 语音理解:集成公开数据集(如LibriSpeech、AISHELL)与内部ASR数据;
  • 语音对话:通过TTS系统生成多样化用户提问,固定助手音色;
  • 音频到文本聊天:过滤复杂文本,转换为多轮对话格式。

3. 训练任务设计

  • 单模态预训练:分别学习音频与文本分布;
  • 跨模态对齐:ASR(音频→文本)与TTS(文本→音频)任务;
  • 交替训练:音频与文本交替输入,增强模态融合能力。

四、性能表现:多项任务刷新SOTA

基于团队开发的评估工具包,Kimi-Audio在多个基准测试中表现卓越:

任务类型数据集Kimi-Audio性能对比模型最佳性能
语音识别(WER↓)LibriSpeech1.28(test-clean)Qwen2-Audio(1.74)
音频场景分类(ACC↑)CochlScene80.99Qwen2.5-Omni(63.82)
语音情感识别(ACC↑)MELD59.13Qwen2-Audio(51.23)
端到端语音对话主观评测(5分制)3.90GPT-4o(4.06)

五、开源生态与生产部署

Kimi-Audio的全链路开源(代码、模型、评估工具)为社区提供了重要基础设施:

  • 推理工具包:标准化评估协议,支持多模型公平对比;
  • 生产架构:模块化设计(Tokenizer/LLM/Detokenizer服务),支持低延迟实时对话;
  • 应用场景:智能助手、无障碍通信、多媒体内容生成等。

六、挑战与未来方向

尽管Kimi-Audio取得突破,音频AI仍面临挑战:

  1. 超越ASR/TTS依赖:当前模型依赖转录数据,需探索原生音频预训练;
  2. 更丰富的音频表示:融合内容与声学特征,提升细粒度控制能力;
  3. 多模态描述生成:联合文本描述与语音内容,理解复杂声学场景。

结语

Kimi-Audio的发布标志着通用音频智能迈出重要一步。其统一的架构设计、大规模数据训练与开源生态,为学术界与工业界提供了强大工具。未来,随着多模态技术的进一步融合,音频AI有望在医疗、教育、娱乐等领域创造更大价值。

项目地址https://github.com/MoonshotAI/Kimi-Audio
评估工具https://github.com/MoonshotAI/Kimi-Audio-Evalkit

附Kimi-Audio技术报告英中对照版,仅供学习参考:

❌