普通视图

发现新文章，点击刷新页面。

昨天以前我爱自然语言处理

我爱自然语言处理
What Makes Modern Online Casinos So Popular白宁超
What Makes Modern Online Casinos So Popular Online casino sites have become one of the most vibrant corners of the digital home entertainment globe. Their appeal lies in the blend of excitement, convenience and constant technology. Gamers no longer need to visit physical venues to experience real-money video gaming. Rather, they can open a mobile application or web browser and access hundreds of video games within mins. This comfort has actually created a brand-new generation of
2026年4月8日 16:14

What Makes Modern Online Casinos So Popular

我爱自然语言处理

作者白宁超

2026年4月8日 16:14

What Makes Modern Online Casinos So Popular

Online casino sites have become one of the most vibrant corners of the digital home entertainment globe. Their appeal lies in the blend of excitement, convenience and constant technology. Gamers no longer need to visit physical venues to experience real-money video gaming. Rather, they can open a mobile application or web browser and access hundreds of video games within mins. This comfort has actually created a brand-new generation of gamers who value adaptability and rapid access over standard online casino routines.

The development of secure payment techniques and reliable systems has also strengthened trust. Accredited operators comply with stringent regulations, while modern encryption technologies protect every transaction. Therefore, players really feel safer depositing and taking out funds on-line than ever.

The Selection of Games Available Today

One of the strongest benefits of on-line gambling enterprises is the sheer deepness of their video game libraries. Digital platforms supply everything from timeless pokies and modern-day video clip slots to table video games like blackjack, roulette and baccarat. Online dealership areas add an additional layer of realistic look by streaming human croupiers directly to the gamer’& rsquo; s display. These workshops integrate real online casino ambience with the comfort of playing at home.

The consistent release of new titles keeps the experience fresh. Game service providers frequently introduce https://testtest-test.com/perevirka/ upgraded mechanics, enhanced graphics and appealing bonus offer rounds. With numerous choices readily available, players can switch over in between motifs and gameplay styles without feeling limited.

Rewards and Promotions That Forming Player Experience

On-line gambling establishments typically stand out via their marketing systems. Rewards can enhance very early sessions, expand gameplay time and supply a chance to discover new games. Although every offer has specific problems, the structure of bonuses plays a significant function in bring in new gamers. Operators create unique incentives for different sorts of users, making certain novices and seasoned gamers alike can locate something that matches their style.

Promotions also construct lasting interaction. Routine incentives, special occasions and exclusive campaigns assist preserve rate of interest even after the initial deposit. This recurring value is just one of the reasons why many gamers stay loyal to details gambling enterprise brand names.

The Value of Mobile-First Platforms

Mobile video gaming has changed the entire online casino site market. Most players currently access their preferred video games through smartphones instead of desktops. This shift has actually encouraged operators to optimise every attribute for smaller screens, making mobile experiences smoother, quicker and extra user-friendly.

Touch-based user interfaces allow all-natural interaction with games, while light-weight application variations use instantaneous access without jeopardizing on high quality. Mobile-friendly style also makes certain players can take pleasure in quick sessions during breaks or commutes. Because of this, mobile casino sites have actually come to be the key entrance to on-line gaming for several customers worldwide.

Safety and security, Licensing and Responsible Video Gaming

Depend on is the structure of on-line casino success. Reliable operators obtain permits from recognised authorities and comply with stringent regulative regulations. These permits verify that games make use of audited arbitrary number generators which payouts adhere to clear regulations. Financial systems additionally play a important role, as encrypted transactions and modern safety devices secure sensitive information.

At the same time, responsible gaming devices assist make sure that players remain in control. Functions such as deposit limits, cooldowns and self-exclusion choices produce a safer and a lot more encouraging atmosphere. The industry remains to progress with new policies made to protect gamers from risky behaviours.

The Future of Online Gambling Establishment Enjoyment

The future of on the internet gaming points towards also better technology. Virtual reality experiences, boosted live-dealer communications and ultra-fast settlement systems are ending up being extra common. Game programmers explore motion picture graphics and advanced technicians that make electronic play extra immersive.

As innovation continues to advance, on the internet casino sites will likely deliver a lot more customised experiences. Tailored suggestions, adaptive rewards and interactive features will certainly shape the next stage of electronic gaming. The market reveals no signs of decreasing, and gamers can anticipate an progressively abundant and appealing atmosphere in the years ahead.

What Makes Modern Online Casinos So Popular

我爱自然语言处理

作者 jiangwen

2026年4月8日 16:14

What Makes Modern Online Casinos So Popular

The Selection of Games Available Today

The consistent release of new titles keeps the experience fresh. Game service providers frequently introduce upgraded mechanics, enhanced graphics and appealing bonus offer rounds. With numerous choices readily available, players can switch over in between motifs and gameplay styles without feeling limited.

Rewards and Promotions That Forming Player Experience

The Value of Mobile-First Platforms

Mobile video gaming has changed the entire online casino site market. Most players currently access their preferred video games through smartphones instead of desktops. This https://testtest-test.com/perevirka/ shift has actually encouraged operators to optimise every attribute for smaller screens, making mobile experiences smoother, quicker and extra user-friendly.

Safety and security, Licensing and Responsible Video Gaming

The Future of Online Gambling Establishment Enjoyment

Qwen3-VL技术报告英中对照版.pdf

我爱自然语言处理

作者 52nlp

2025年11月29日 18:34

Qwen3-VL 是阿里推出的最先进多模态基础模型，面向文本、图像、PDF、表格、界面（GUI）与视频的统一理解和推理任务。它具备 256K 原生上下文 的长文能力，能够跨数百页文档、完整教材、长视频进行稳定关联、定位与引用，是面向企业真实场景的全栈多模态引擎。

模型体系覆盖 2B / 4B / 8B / 32B Dense，以及 30B-A3B / 235B-A22B MoE，在延迟、吞吐与精度间提供灵活选择。多模态训练不仅未削弱语言能力，反而在多个 NLP benchmark 上优于纯文本大模型，使其在文本任务上也具备强竞争力。

技术核心升级有三点：

Interleaved-MRoPE：将时间/水平/垂直的频率交错排列，解决旧式 MRoPE 在长视频中的频率偏置问题，使视频时空建模更稳定。
DeepStack 视觉跨层注入：从视觉编码器的多个层级提取特征并注入 LLM 对应层，融合低层细节与高层语义，大幅提升视觉理解与推理精度。
文本式时间戳：用 <3.0 seconds> 这种显式 token 替代复杂的时间编码，为长时间序视频带来更可控、更通用的时间理解能力。

训练采用 四阶段预训练（8K→32K→256K）+ SFT + 强到弱蒸馏 + RL（Reasoning + General） 的完整体系，并提供 Thinking / Non-Thinking 双模式，兼顾推理能力与速度。

数据方面构建了庞大的多模态体系：高质量图文、网页与教材、PDF 解析（HTML/Markdown）、39 语言 OCR、3D/空间理解、动作/事件级视频语义、跨层 grounding、超过 6000 万的 STEM 题目、以及 GUI 与多工具 Agent 行为数据，使其具备高度覆盖现实场景的能力。

性能上，235B-A22B 在多模态推理、长文档理解、视频理解、OCR、空间推理等关键任务中普遍领先，部分任务接近或超过 Gemini 2.5 Pro / GPT-5 / Claude Opus；而 32B 也显著领先 GPT-5-mini 和 Gemini Flash，同等尺寸小模型（2B/4B/8B）在轻量级场景中具有强竞争力。

综合来看，Qwen3-VL 是面向企业场景的 多模态智能底座，可胜任从长 PDF 解析、图表理解、界面自动化、流程 Agent，到视频监控分析、技术文档检索、多模态代码生成等核心任务，覆盖从“理解 → 推理 → 决策 → 自动执行”的全链路智能能力。

附该技术报告英中对照版，仅供学习参考：

Qwen3-VL技术报告英中对照版下载

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

我爱自然语言处理

作者 52nlp

2025年9月30日 09:01

近年来，大语言模型在处理长文本任务中展现出强大能力，但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek-AI 最近发布了实验性模型 DeepSeek-V3.2-Exp，通过引入一种新颖的稀疏注意力机制（DeepSeek Sparse Attention, DSA），在保持模型性能的同时，显著提升了长上下文任务中的训练与推理效率。

什么是 DeepSeek Sparse Attention？

DeepSeek Sparse Attention 主要由两个部分组成：

闪电索引器（Lightning Indexer）
细粒度令牌选择机制（Fine-Grained Token Selection）

传统的注意力机制在计算时需要关注序列中所有之前的令牌，导致计算复杂度为 O(L2)O(L2)，其中 LL 是序列长度。而 DSA 通过索引器为每个查询令牌筛选出最相关的 kk 个键值令牌，将复杂度降至 O(L⋅k)O(L⋅k)，其中 k≪Lk≪L。

具体来说，索引器会为每个查询令牌计算一个“注意力分数”，并只保留分数最高的 kk 个令牌参与后续的注意力计算。这一机制不仅减少了计算量，还保留了模型对关键信息的捕捉能力。

模型训练：从密集到稀疏

DeepSeek-V3.2-Exp 是基于 DeepSeek-V3.1-Terminus 继续训练得到的。训练过程分为两个阶段：

密集预热阶段：仅训练索引器，保持其余参数不变，使其输出的分数分布与原始注意力分布对齐。
稀疏训练阶段：引入令牌选择机制，同时优化索引器和主模型参数，使模型适应稀疏注意力模式。

整个训练过程使用了 128K 长度的上下文数据，总计训练了近千亿令牌。

性能表现：效率提升，性能不降

在多项基准测试中，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平，甚至在部分任务中有所提升。例如：

通用能力：MMLU-Pro、GPQA 等任务中表现稳定
搜索与代码任务：BrowseComp、Codeforces 等任务中略有提升
数学推理：AIME 2025 中表现更优

更重要的是，在长上下文推理场景中，V3.2-Exp 的推理成本显著降低。图3显示，随着序列长度增加，其推理速度优势愈发明显。

技术细节：MLA 架构下的 DSA 实现

DSA 是基于 DeepSeek 自研的 MLA（Multi-head Latent Attention）架构实现的，特别采用了 MQA（Multi-Query Attention）模式，使得每个键值条目可以被多个查询头共享，进一步提升计算效率。

未来展望

尽管内部测试结果令人鼓舞，DeepSeek-AI 仍在积极推进在真实场景中的大规模测试，以进一步验证稀疏注意力架构的鲁棒性与实用性。

小结

DeepSeek-V3.2-Exp 的发布，不仅展示了一种高效的长上下文处理方案，也为大模型在保持性能的同时降低计算成本提供了新的思路。如果你对技术细节感兴趣，可以访问其开源实现：

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
推理代码：https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp/tree/main/inference

希望这篇博客能帮助你理解 DeepSeek-V3.2-Exp 的核心价值与技术亮点。如果你有更多问题，欢迎继续提问！附该技术报告英中对照版，仅供学习参考：

DeepSeek-V3.2-Exp技术报告英中对照版下载

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

我爱自然语言处理

作者 52nlp

2025年9月1日 15:23

近日，美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告，这是一款总参数量达 5600亿 的混合专家模型（Mixture-of-Experts, MoE），在保持高性能的同时，显著提升了训练与推理效率，尤其擅长处理需要多步推理和工具调用的智能体（Agent）任务。

一、核心创新：动态计算与通信优化

1. Zero-Computation Experts（零计算专家）

传统MoE模型中，每个token都会激活固定数量的专家，但LongCat-Flash引入了“零计算专家”机制，允许模型根据上下文重要性动态分配计算资源。简单来说，重要的token会激活更多专家，不重要的则激活较少甚至零计算专家，直接返回输入值，不进行额外计算。

每token激活参数量在 186亿~313亿 之间波动，平均约为 270亿；
通过PID控制器动态调节专家偏置，保持计算负载均衡；
在相同计算预算下，相比固定激活策略，验证损失显著降低。

2. Shortcut-Connected MoE（快捷连接MoE）

MoE模型在扩展时常遇到通信瓶颈。LongCat-Flash采用ScMoE结构，通过跨层快捷连接，将密集FFN计算与MoE层的通信操作重叠执行，大幅提升训练和推理效率。

训练损失与基线模型几乎一致，不影响模型质量；
推理时采用单批次重叠（SBO）调度，理论时间每输出token（TPOT）降低近50%。

二、训练策略：高效扩展与稳定性保障

1. 超参数迁移与模型增长

通过宽度缩放规则，将小模型（宽度768）的最佳超参数迁移到大模型（宽度6144），大幅节省调参成本；
采用模型增长初始化，将训练好的半规模模型堆叠成完整模型，加速收敛并提升最终性能。

2. 多维度稳定性控制

路由器稳定性：监控专家权重相似度和梯度范数比，防止负载均衡损失压制语言建模损失；
激活稳定性：引入隐藏z-loss，抑制异常大幅激活，避免训练中的数值溢出；
优化器稳定性：将Adam的ε设为极小的1e-16，避免梯度二阶矩被淹没。

三、多阶段训练与数据策略

1. 预训练阶段

使用超过20万亿token的多语料数据，涵盖网页、书籍、代码等；
采用两阶段数据混合策略，逐步提升STEM和代码数据的比例至70%；
支持128K长上下文，适用于长文档理解和代码库级任务。

2. 中训练与后训练

中训练：增强推理与代码能力，使用合成数据和知识图谱构建高质量问题；
后训练：针对智能体任务，构建多智能体合成框架，生成高难度、多轮交互的任务数据；
涵盖数学、代码、逻辑推理、指令遵循、长上下文、安全性等多个维度。

四、推理与部署：高吞吐、低延迟

1. 系统级优化

使用多token预测（MTP） 作为推测解码的草案模型，接受率超90%；
采用分层传输和分层量化，减少KV缓存传输开销；
支持FP8量化，在几乎不损失精度的情况下提升吞吐量。

2. 实测性能

在H800上推理速度达 100 token/秒，成本低至 $0.7 / 百万输出token；
在终端任务（TerminalBench）上表现优异，得分39.51，排名第二；
在自建智能体评测集VitaBench上取得最高分24.30，展现强大复杂任务处理能力。

五、综合评测结果

LongCat-Flash在多项基准测试中表现优异：

通用能力：MMLU 89.71，CEval 90.44，ArenaHard-V2 86.50；
数学推理：MATH500 96.40，AIME25 61.25；
代码生成：HumanEval+ 65.85，TerminalBench 39.51；
智能体工具使用：τ²-Bench 电信场景73.68，VitaBench 24.30；
安全性：在有害内容、犯罪信息、隐私保护等维度表现突出。

六、开源与社区贡献

LongCat-Flash已全面开源，包括模型权重、推理代码和部分训练数据，推动MoE架构、高效训练与智能体研究的进一步发展。

项目地址：https://github.com/meituan-longcat
Hugging Face：https://huggingface.co/meituan-longcat
在线体验：https://longcat.ai

结语

LongCat-Flash不仅在模型架构上实现创新，更在训练策略、系统优化和智能体能力培养方面树立了新的标杆。其高效的推理性能和优秀的任务表现，使其成为业界领先的开源MoE模型之一，有望推动AI智能体在真实场景中的广泛应用。

附美团LongCat-Flash模型技术报告英中对照版，仅供学习参考：

美团LongCat-Flash技术报告英中对照版下载

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

我爱自然语言处理

作者 52nlp

2025年8月11日 17:14

在追求通用人工智能（AGI）的道路上，智能体能力（Agentic）、复杂推理（Reasoning） 和编程能力（Coding） 是衡量大模型综合实力的“黄金三角”。而最新开源的 GLM-4.5 系列，正是以“ARC三位一体”为目标打造的超级模型，以3550亿参数登顶全球开源模型性能前三！

一、核心突破：MoE架构 + 混合推理模式

1. 高能效设计

总参数3550亿，激活参数仅320亿（MoE稀疏激活），计算效率提升3倍
对比：参数量仅为DeepSeek-V3（6710亿）的一半，Kimi-K2（10430亿）的1/3
GLM-4.5-Air轻量版：1060亿参数，性能仍超多数百亿级模型

2. 混合推理引擎

markdown

| 推理模式     | 适用场景                  | 技术特点               |
|--------------|---------------------------|------------------------|
| 思考模式     | 数学/科学/多步工具调用    | 长链式思维（CoT）      |
| 直答模式     | 聊天/翻译/简单问答        | 低延迟响应             |

模型可动态切换模式——复杂问题启动深度思考，简单任务秒级回应，兼顾效率与精度。

二、性能屠榜：ARC三项全能冠军

1. 智能体能力（Agentic）

TAU-Bench（真实场景工具调用）：79.7% 准确率，超越Gemini 2.5 Pro
BrowseComp（网页信息检索）：26.4%，碾压Claude Opus 4 (18.8%)
创新函数调用模板：用XML标签替代JSON，减少90%转义字符（见图4）

2. 推理能力（Reasoning）

AIME 24（国际数学竞赛题）：91.0% 正确率，逼近人类奥赛选手水平
HLE人类终极考试：14.4% 得分，全球仅4个模型超过10%
动态温度采样RL：防止强化学习后期陷入局部最优

3. 编程能力（Coding）

SWE-bench Verified（真实GitHub issue修复）：64.2% 通过率
Terminal-Bench（终端操作）：37.5%，超越Claude Sonnet 4
CC-Bench实测：工具调用成功率90.6%，碾压Qwen3-Coder（77.1%）

综合ARC 12项基准：全球排名第3（开源第1），智能体单项排名第2！

三、训练黑科技：三阶段锻造ARC铁三角

1. 预训练数据革命

23T高质量Token，分层处理网页/代码/学术数据
创新过滤技术：
- SemDedup：语义去重剔除模板网页
- 质量分桶：高分数据重复3.2个epoch，强化核心知识

2. 中训练（Mid-Training）

128K上下文支持：从4K→128K分阶段扩展，RoPE频率调整至100万
跨文件代码训练：拼接同仓库代码文件，学习项目级依赖

3. 后训练专家蒸馏

python

# 专家迭代流程
1. 分领域训练专家模型：推理专家 + 智能体专家 + 通用聊天专家
2. 自我蒸馏融合：将专家能力注入统一模型
3. 混合强化学习：
   - 推理RL：难度分级课程（先易后难）
   - 智能体RL：轨迹自蒸馏迭代
   - 病理RL：根治语言混合/格式错误

四、真实场景碾压性体验

1. 逻辑推理

新构建高难度逻辑题库：62.0分，持平DeepSeek-R1（62.1）
动态规划/归纳推理错误率降低37%

2. 颠覆级翻译能力

理解网络梗+文化符号：如“yyds”→“永远的神”
上下文推理：输入：“三花公主驾到，速来围观”
输出：“The Calico Princess has arrived! Come and see!”
（准确识别“三花”指三花猫）
人类评分1.71，碾压专业翻译模型Qwen-MT（0.38）

3. 终端编程实测

在Docker隔离环境测试52个开发任务：
- VS Claude Sonnet 4：40.4%胜率 + 50%平局
- VS Kimi K2：53.9%胜率，工具调用效率高4.4%

五、开源意义：中国大模型的新里程碑

模型全开源：HuggingFace、BigModel.cn、GitHub同步发布
评测工具包：https://github.com/zai-org/glm-simple-evals
免费商用：支持128K上下文，可部署于消费级显卡集群

开发者提示：轻量版GLM-4.5-Air在106B参数下实现接近GPT-4的性能，推理成本降低60%！

结语：ARC时代的新王者

GLM-4.5不仅证明了中国团队在MoE架构和强化学习领域的顶尖实力，更首次实现智能体-推理-编程三大能力的统一。其开源将加速AI智能体的实际落地——从自动代码修复到网页信息挖掘，一个真正“会思考、能执行”的AI时代正在到来。

项目地址：https://github.com/zai-org/GLM-4.5
在线体验：https://z.ai （支持128K上下文对话）

延伸阅读：报告中隐藏的4大技术彩蛋

推理RL黑科技：Token加权损失函数，比序列级loss收敛快2倍
长轨迹智能体训练：异步RL框架Slime，支持Docker环境高并发
安全防护：SafetyBench综合得分89.9，伦理类问题94.3分
中文场景优化：文本生成得分9.0，逻辑推理9.27（满分10）

本文数据均来自GLM-4.5技术报告，更多技术细节参见原始论文，附英中技术报告对照版，仅供学习参考：

GLM-4.5技术报告英中对照版下载

OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版

我爱自然语言处理

作者 52nlp

2025年8月6日 11:26

OpenAI 发布的 gpt-oss-120b 与 gpt-oss-20b 是首批面向开源社区、同时强调“强推理+工具调用”的权重开放模型。以下从性能、安全与生态三个维度给出简评。

性能：小模型也能打
• 在 AIME、GPQA 等硬核数学与科学基准上，120b 版本已逼近 o4-mini，20b 版本虽参数少 6 倍，却仍能超过 o3-mini，验证了 MoE+可变推理长度方案的有效性。
• 代码与工具场景是最大亮点：Codeforces Elo 2463（120b, high）、SWE-Bench Verified 62.4%，均刷新同尺寸开源模型纪录；τ-Bench 也展示了可插拔函数调用的工程友好性。
• 多语言与医疗问答表现亮眼，HealthBench 上 120b 几乎对齐 o3，给低成本、本地部署的健康咨询带来想象空间。
安全：开放权重带来的“双刃剑”
• 默认对齐：沿用 deliberative alignment 与 instruction hierarchy，标准违禁内容评估与 o4-mini 持平，Production Benchmarks 甚至略优，显示基础拒答能力已达标。
• 风险上限：OpenAI 罕见地公开了“红队微调”实验——在内部用最强 RL 栈对 120b 进行生物与网络安全方向的对抗训练，结果仍“未触及 High 风险阈值”，并邀请 METR、SecureBio 等外部专家复核，为社区提供了可信的风险锚点。
• 责任下沉：模型卡反复提醒“开源≠无责”，开发者需自行叠加内容审核、CoT 过滤与 prompt 防护，这对本地化部署者提出了更高工程要求。
生态与启示
• Apache 2.0 许可证 + 量化到 4.25bit，使 120b 可单机 80 GB GPU 运行，20b 仅需 16 GB，门槛大幅降低。
• Harmony chat format 与配套工具链（浏览、Python、开发者函数）提供了近似 ChatGPT 的代理体验，降低了二次开发成本。
• 作为首批“官方开源推理模型”，其评估框架（生物、网络、AI 自我改进）与透明红队方法论，或将成为后续开源大模型的安全基线。

gpt-oss-120b/20b 的最大价值不仅是“性能对标闭源”，更在于示范了“开放权重+开放评估+可控风险”的新范式：让社区既能拿到可商用、可微调的强模型，又能复现其风险测量与缓解路径。对于追求本地私有化、成本敏感或需深度定制的开发者，这套组合极具吸引力；对于行业而言，它把“安全可验证的开源大模型”向前推进了一大步。

以下是该技术报告英中对照版，仅供学习参考：

openai-gpt-oss-120b-gpt-oss-20b模型卡英中对照版下载

从万亿参数到智能体：Kimi K2 技术报告全景解读

我爱自然语言处理

作者 52nlp

2025年7月22日 14:13

1. 引言：为什么 K2 值得关注？

过去两年，大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能体能力（Agentic Intelligence）」。
Kimi K2 用一份 32 页的技术报告告诉我们：开源模型第一次在「非思考」条件下，同时在代码、数学、工具调用三大硬核基准上逼近甚至超越 Claude-4 系列。
更重要的是，K2 用一套完全开源的权重 + 数据管线 + RL 框架，把「智能体」这件事做到了可复现、可扩展、可落地。

2. 模型概览：一图看懂 K2 的「身材」

维度	K2	DeepSeek-V3	Llama4-Maverick
总参数	1.04 T (MoE)	671 B (MoE)	400 B (MoE)
激活参数	32 B	37 B	17 B
专家数	384	256	-
注意力头	64 (节省 83% FLOPs)	128	128
上下文	128 k	128 k	128 k

一句话总结：在同样 32 B 激活量的前提下，K2 把专家数提升到 384，用更稀疏但更大的「外脑」换来单位 FLOP 的更高收益。

3. 预训练：如何让 15.5 T tokens 发挥 30 T 的价值？

3.1 MuonClip：让 Muon 优化器告别“爆炸”

痛点：Muon 比 AdamW token-efficient，但 attention logit 容易爆炸到 1000+，导致 loss spike。
解法：提出 QK-Clip —— 每 head 实时检测 logit 最大值，仅在必要时对 Query/Key 权重做 per-head 的轻量级缩放。
效果：
- 全 15.5 T tokens 零 loss spike；
- 小模型 ablation 显示对收敛几乎无损（<0.1%）。

3.2 数据炼金术：把一条知识变十条

Knowledge 重写管线：
- 风格多样化 prompt → chunk-wise 自回归改写 → 语义一致性校验；
- SimpleQA 实验：10 次改写 + 1 次 epoch 比 10 次重复 epoch 绝对提升 5.2%。
Math 重写管线：
- 引入 SwallowMath 的「学习笔记」格式，把数学证明改写成步骤化讲解；
- 多语言翻译进一步扩量 30%。

结论：在高质量数据见顶的时代，「可控改写」成为新的数据杠杆。

4. 后训练：合成 20 k 工具 + RL 闭环

4.1 超级工具工厂：从 API 文档到可执行沙箱

K2 构建了一个三层合成管线：

Tool Spec 生成
- 3000+ 真实 MCP 工具（GitHub 爬取）
- 20000+ LLM 合成工具，覆盖金融、机器人、软件等 50+ 领域
Agent & Task 生成
- Agent persona 随机采样（性格、知识、可用工具）
- Rubric-based task：每个任务带成功标准、期望调用链
Trajectory 生成与过滤
- 多轮用户模拟 + 沙箱执行
- LLM Judge 打分，保留 success rate > 90% 轨迹
- Hybrid 沙箱：真实 Docker/K8s 环境 + 模拟器，兼顾规模与真实性

最终产出 数十万条 高质量工具调用轨迹，用于 SFT。

4.2 RL 框架：从可验证奖励到自我批判

Verifiable Rewards Gym
- 数学、逻辑、代码、指令遵循等 100+ 任务，全部可自动判题；
- 采用 预算控制：按任务类型设定 max_tokens，防止 RL 把答案写成小说。
Self-Critique Rubric Reward
- 用 K2 自己当裁判， pairwise 比较回答；
- 裁判模型在可验证任务上持续微调，保证主观打分不失焦。
算法细节
- 沿用 K1.5 的 policy gradient，新增：
  - PTX loss：混入高质量预训练数据，防止灾难遗忘；
  - Temperature decay：训练后期降温，提升稳定性。

5. 评估：把「非思考」做到极致

5.1 代码与软件工程

基准	K2	开源 SOTA	闭源标杆
SWE-bench Verified (multi-attempt)	71.6 %	54.6 % (DeepSeek)	80.2 % (Claude-4-Sonnet)
SWE-bench Multilingual	47.3 %	25.8 %	51.0 %
LiveCodeBench v6	53.7 %	46.9 %	48.5 %

解读：在「不思考」设定下，K2 把开源天花板抬高了 10~20 个百分点，与 Claude-4 的差距缩小到 5 个百分点以内。

5.2 工具调用

τ²-Bench (平均)：66.1 %，领先第二名 17+ 点
ACEBench：76.5 %，超过 GPT-4.1（74.5 %）

5.3 数学 & STEM

AIME 2024：69.6 %（开源第一，领先 DeepSeek 10 点）
GPQA-Diamond：75.1 %（开源第一）

5.4 LMSYS Arena 真实用户投票

7 月 17 日榜：开源第 1，全榜第 5，3 k+ 人类盲投

6. 系统：1 T 模型如何 30 秒热启动？

Colocated RL 架构
- 训练 / 推理双引擎同节点，GPU 0 等待；
- Checkpoint Engine 分布式广播，30 s 完成 1 T 参数更新。
Pipeline 优化
- EP=16 最小专家并行，降低 all-to-all 开销；
- FP8 缓存 + CPU offload，单机 30 GB 显存即可跑 128 k 上下文。

7. 局限与展望

作者坦诚当前局限：

复杂推理下容易“话痨”，导致输出截断；
工具定义模糊时误调用；
单轮一次性项目生成成功率仍低于 Agentic 框架。

未来路线图：

工具自省：让模型先判断“需不需要用工具”；
推理-行动融合：把 long-CoT 与工具调用做成统一 token 预算；
端侧轻量化：32 B 激活量已在 4090 可跑，下一步做 8 B/4 B 蒸馏。

8. 写给开发者 & 研究者的三点 takeaway

数据策略 > 参数魔法：在 1 T 参数以下，「高质量合成 + 重写」仍是提效最快路径。K2 的 rephrasing 代码已开源，可快速迁移到垂直领域。
Agentic 数据管线可复制：工具-任务-轨迹三层抽象 + 混合沙箱，基本覆盖 80% 真实场景。
RL 基础设施进入「工业化」阶段：30 秒热启动、万级并发沙箱、FP8 显存优化，意味着 RL 不再是炼丹，而是可规模化的产品组件。

9. 结语

Kimi K2 用 15.5 T tokens、32 B 激活、1 T 总参数，把「开源模型做不到的事」清单划掉了一大半。
更重要的是，它把「如何训练一个可落地的智能体」拆解成了可复现的配方：

高效优化器 + 合成数据工厂 + 可验证 RL = Agentic Intelligence at scale

接下来，轮到社区去玩出更多花样了。

附录：相关链接

模型权重：https://huggingface.co/moonshotai/Kimi-K2-Instruct
技术报告 PDF：https://github.com/MoonshotAI/Kimi-K2
在线体验：https://kimi.moonshot.cn

附技术报告英中对照版，仅供学习参考：

KIMI-K2-技术报告英中对照版

解码Google Gemini 2.5：推理、多模态与智能体能力的革命性突破

我爱自然语言处理

作者 52nlp

2025年7月15日 11:15

近日，Google DeepMind发布了震撼业界的Gemini 2.5系列模型技术报告，标志着大模型技术迈入全新阶段。作为谷歌迄今最强大的AI模型，Gemini 2.5 Pro不仅在传统基准测试中大幅刷新记录，更在长上下文理解、复杂推理和多模态智能体能力上实现质的飞跃。本文将深度解析这一技术里程碑的核心突破与潜在影响。

一、架构革新：从混合专家到思维引擎

Gemini 2.5系列基于稀疏混合专家模型（MoE） 架构，但进行了关键升级：

动态路由优化：通过改进token到专家的分配策略，计算效率提升40%（相比Gemini 1.5 Pro）
训练稳定性突破：采用分阶段静默数据损坏检测技术，将故障定位时间从小时级缩短至分钟级
TPUv5p超算级训练：跨数据中心8960芯片集群同步训练，93.4%时间用于有效计算

最革命性的创新是 “Thinking”机制：

# Thinking机制伪代码示例
def generate_response(query):
    thought_tokens = allocate_thinking_budget(query)  # 动态分配计算资源
    for _ in range(thought_tokens):
        internal_state = refine_thought(internal_state, query)  # 迭代推理
    return finalize_response(internal_state)

该机制允许模型在响应前进行数万次前向传播，显著提升复杂问题解决能力。在AIME 2025数学竞赛基准上，思考预算增加使准确率从72%跃升至88%。

二、多模态理解：突破时空限制

Gemini 2.5 Pro实现了前所未有的多模态处理能力：

3小时视频解析：通过视觉token压缩技术（每帧66 token vs 旧版258 token）
跨模态转换：可将讲座视频实时转化为交互式测验应用（Baddepudi et al., 2025）
音频流式处理：支持24种语言的对话式语音交互，情感识别误差降低35%

在VideoMME视频理解基准上，Gemini 2.5 Pro以84.3% 准确率超越GPT 4.1的72%，尤其在时空推理任务（如寻找跨镜头关联事件）上优势显著。

三、智能体生态：从编码到自主决策

报告展示了Gemini作为智能体平台的核心能力：

代码革命：LiveCodeBench得分从30.5%(1.5 Pro)飙升至74.2%，SWE-bench验证任务提升33%
Gemini Deep Research：网络研究代理在Humanity's Last Exam基准半年内从7.95%提升至32.4%
Pokémon通关案例：在813小时游戏过程中展现长程规划能力，解决包含150步操作的迷宫难题

四、安全与评估的双重挑战

尽管能力飞跃，报告揭示了关键挑战：

评估范式危机：
- Humanity's Last Exam单题设计成本高达$5000
- Gemini在Aider Polyglot基准一年内性能提升5倍，传统基准快速饱和
安全防护创新：
- 自动化红队系统(ART)：通过多智能体对抗生成百万级测试用例
- 间接提示注入防御：新型对抗训练使攻击成功率降低80%
- 记忆控制：训练数据泄露风险比前代降低14倍

在关键能力评估中，Gemini 2.5 Pro尚未达到网络安全关键能力阈值（仅完成50%专业级攻防挑战），但已触发谷歌的加速监控机制。

五、开发者生态战略布局

Gemini 2.X系列覆盖完整帕累托前沿：

模型类型	核心优势	适用场景
Gemini 2.5 Pro	极限推理/多模态	科研、复杂代理系统
Gemini 2.5 Flash	动态计算平衡	企业级应用
2.0 Flash-Lite	0.1秒响应延迟	移动端大规模部署

通过AI Studio平台，开发者可直接调用：

原生图像生成（2.0 Flash）
可控TTS语音合成（支持80+语言）
百万token上下文处理API

六、未来展望：逼近通用AI的最后壁垒

Gemini 2.5的突破印证了三个趋势：

计算分配智能化："Thinking"机制预示动态资源调度将成为模型标配
多模态统一架构：文本/图像/视频/音频在向量空间实现深度融合
评估范式革命：传统静态基准正被自我进化的评估智能体取代

正如DeepMind CEO Hassabis所述："我们正在构建的不仅是工具，而是能理解并主动解决人类复杂需求的通用助手。" 当模型能在46分钟视频中精确定位1秒事件（见附录8.5），或在无视觉输入时仅靠RAM数据通关Pokémon，AI的能力边界已超越人类传统认知框架。

技术启示录：Gemini 2.5的进化速度暴露了AI领域的核心矛盾——当模型能力呈指数增长时，人类设计评估体系的能力却停滞在线性阶段。下一次范式突破，或许将始于AI自主设计评估标准的那一刻。

探索Gemini 2.5技术细节，附gemini 2.5技术报告英中对照版，仅供学习参考：

gemini_v2.5技术报告英中对照版下载

MiniMax-M1：闪电注意力重塑大模型推理效率，百万上下文时代来临，附技术报告英中对照版

我爱自然语言处理

作者 52nlp

2025年7月3日 17:14

一、核心创新：闪电注意力 + 混合架构

1. 闪电注意力（Lightning Attention）

问题根源：传统Transformer的Softmax注意力存在O(n²)计算复杂度，限制长文本处理能力（如DeepSeek-R1仅支持128K上下文）。
解决方案：
- 采用线性注意力变体（Qin et al.），通过核函数近似Softmax，将复杂度降至O(n)。
- I/O感知优化：减少GPU内存读写次数，实测生成100K token的FLOPs仅为DeepSeek-R1的25%。
效果：
- 原生支持1M token输入（8倍于DeepSeek-R1）
- 输出长度扩展至80K token（超越Gemini 2.5 Pro的64K）

2. 混合专家架构（MoE-Hybrid）

设计：每7个闪电注意力层 + 1个Softmax注意力层（共456B参数，激活45.9B/Token）
优势：
- 保留局部感知能力（Softmax层）的同时，实现长序列高效处理。
- 通过四阶段平滑扩展策略（32K→1M），解决训练中梯度爆炸问题。

二、训练革命：CISPO算法 + 高效RL框架

1. CISPO：重新定义RL训练稳定性

传统RL痛点：PPO/GRPO裁剪Token更新会抑制关键推理Token（如“However”、“Recheck”），阻碍复杂推理行为涌现。
创新方案：
- 裁剪重要性采样权重而非Token更新（公式4-5），保留所有Token的梯度贡献。
- 实验验证：在AIME数学基准上，训练效率2倍于DAPO（50%步数达成相同性能）。

2. 低成本大规模RL训练

工程优化：
- 修复FP16精度误差：LM输出头升级至FP32，训练/推理概率对齐至0.99+。
- 动态截断：检测重复模式（连续3000 Token概率>0.99）提前终止生成。
成果：
- 仅用512张H800 GPU，3周完成全量RL训练（成本53.47万美元）
- 发布40K/80K思考预算双版本模型。

三、数据策略：真实场景驱动的多任务强化

1. 可验证任务（规则驱动）

数学推理：50K竞赛级问题，过滤Pass@10∈(0,0.9)的样本防过拟合。
软件工程：构建GitHub问题沙箱（SWE-bench衍生），执行测试用例作为RL奖励信号。
逻辑推理：SynLogic框架生成53K密码/数独等任务，动态调整难度参数。

2. 开放域任务（模型驱动）

长度偏差治理：监测RL中“长文本投机行为”，动态校准奖励模型。
课程学习策略：
- 先训练可验证任务（数学/代码）
- 逐步混合开放域任务（写作/问答）
- 防止灾难性遗忘的同时提升泛化性。

四、性能实测：长上下文场景碾压级优势

任务类型	MiniMax-M1-80K	DeepSeek-R1	Gemini 2.5 Pro
软件工程(SWE-bench)	56.0%	34.4%	67.2%
长上下文(1M MRCR)	58.6%	-	58.8%
工具调用(TAU零售)	67.8%	58.6%	67.0%
数学推理(AIME2025)	76.9%	81.5%	88.0%

关键结论：

长上下文王者：1M输入理解接近Gemini 2.5 Pro，80K输出超越Claude 4 Opus（32K）。
工具代理标杆：TAU工具调用击败Gemini和OpenAI o3。
数学短板：落后DeepSeek-R1-0528约5%，反映MoE架构对符号推理的优化空间。

五、开源与影响：大模型平民化的里程碑

全面开源：
- 模型权重、训练代码、部署指南（GitHub/Hugging Face）
- 支持vLLM/Transformers推理框架，提供商业API（minimax.io）。
行业意义：
- 首开先河：验证线性注意力在大规模RL中的可行性，为后续模型（如Mamba、RWKV）铺路。
- 成本革命：百万上下文推理成本降低75%，加速企业级Agent应用落地。

六、未来挑战

数学推理优化：混合架构对符号逻辑的适应性待提升。
长度偏差根治：奖励模型仍需在线校准防“注水文本”。
生态建设：工具链完善度较Transformer生态仍有差距。

技术启示录：
MiniMax-M1的突破证明——高效≠妥协。当闪电注意力撕开O(n²)的铁幕，当CISPO算法驯服RL训练的野性，我们终将见证：推理的长度不再受限，智能的边界在于想象。开源之火，正燎原至每个角落的创造者手中。

附MiniMax-M1技术报告英中对照版，仅供学习参考：

MiniMax-M1技术报告英中对照版下载

Mistral Magistral：纯强化学习炼就的推理引擎，颠覆LLM训练范式

我爱自然语言处理

作者 52nlp

2025年6月11日 18:27

无需蒸馏、抛弃SFT，Mistral用纯强化学习在数学与代码推理任务上实现50%性能飞跃

近日，Mistral AI发布了其首个纯强化学习训练的推理模型系列Magistral，并开源24B参数版本Magistral Small。这份技术报告揭示了其革命性的训练框架，不仅挑战了当前主流RLHF范式，更在多语言推理、跨模态泛化等方面带来突破性发现。本文将深入解析其技术脉络。

一、核心创新：纯RL训练框架

与传统RLHF依赖监督微调（SFT）蒸馏不同，Magistral采用完全从零开始的强化学习路径：

基础模型：基于Mistral Medium 3（数学/代码推理）和Small 3（轻量版）
训练方式：仅用强化学习（RL）优化，跳过任何预训练推理轨迹的蒸馏步骤
关键优势：避免教师模型偏差，直接探索模型原生推理能力

性能结果震撼：

Magistral Medium在AIME-24数学竞赛基准上达到73.6% pass@1，较基础模型提升近50%
LiveCodeBench（v5）得分59.4%，提升30%（见表2）

markdown

复制

下载

| 任务            | Mistral Medium 3 | Magistral Medium | 提升幅度 |
|----------------|------------------|-----------------|--------|
| AIME'24 (pass@1) | 26.8%            | 73.6%           | +174%  |
| LiveCodeBench v5 | 29.1%            | 59.4%           | +104%  |

二、算法引擎：深度改造GRPO

Magistral的核心是改进版Group Relative Policy Optimization (GRPO)，包含五大关键创新：

1. KL散度消除

传统PPO/GRPO依赖KL惩罚防止策略偏移
Mistral发现KL计算成本高且效果有限，直接移除KL项
结果：训练速度提升20%，无性能损失

2. 损失归一化设计

原始GRPO存在生成长度偏差
创新方案：按组内总token数归一化损失
Loss = Σ(损失) / Σ(组内token数)
消除长度对梯度的影响

3. 信任域上限放松

放宽ε-clipping上限至ε_high=0.26-0.28
允许模型探索低概率但高价值推理路径
关键作用：防止熵崩溃，提升输出多样性（见图12）

4. 优势值归一化

提出三级归一化流程：
组内去中心化 → 小批次标准化 → 序列级平滑
公式简化：Â_i = r_i - μ（μ为组内平均奖励）

5. 非多样性组过滤

自动剔除全对/全错的提示组（零优势组）
减少噪声梯度，提升训练稳定性

三、奖励工程：精准塑造推理行为

Magistral的奖励函数设计极为精细，覆盖四个维度：

1. 格式奖励（0.1分）

数学输出：要求\boxed{}包裹答案
代码输出：需包含带语言标识的代码块
格式错误直接得0分（终止评估）

2. 正确性奖励（0.9分）

数学：基于SymPy的符号等价验证
代码：执行20个测试用例（10秒编译+4秒/测试）
全对才获得0.9分

3. 长度惩罚

python

复制

下载

if len(y) ≤ l_max - l_cache:  penalty = 0
elif len(y) ≤ l_max:          penalty = -0.1*(len(y)-l_max+l_cache)/l_cache
else:                         penalty = -0.1  # 硬截断

4. 语言一致性奖励（0.1分）

用fastText检测问题、思维链、答案语言一致性
支持六种语言（法/西/德/意/俄/中）
实现效果：用户用中文提问，模型全程用中文推理（见表4）

四、基础设施：异步RL训练系统

为支撑大规模RL训练，Mistral构建了分布式架构：

三大组件：
- Generator：实时生成文本（不中断当前生成）
- Verifier：并行评估奖励
- Trainer：聚合梯度更新
关键技术：
- 权重通过NCCL广播（更新延迟<5秒）
- 动态批次分割：按token数贪婪分桶，减少19%填充
- KV缓存复用：避免重新计算隐藏状态

五、颠覆性发现

1. RL提升多模态能力

反直觉现象：纯文本训练竟提升多模态性能
MMMU-Pro视觉子集准确率+12%（图10）
归因：文本推理能力泛化到多模态场景（见图14-16案例）

2. 小模型RL训练可行

传统认知：小模型需蒸馏才能达到RL效果
Magistral Small（24B）纯RL训练：
- AIME-24 pass@1 65.8% → 接近蒸馏模型水平
- 推翻DeepSeek等团队的结论（表3）

3. 跨领域泛化

数学单领域训练 → 代码任务提升15.6%
代码单领域训练 → 数学任务提升17.5%（表5）
证明RL习得的是通用推理能力

六、重要取舍：无效方案披露

报告坦承分享失败实验：

代码部分奖励：
- 按测试通过率给分 → LiveCodeBench下降2%
- 最终采用二进制奖励（0/0.9）
熵奖励项：
- 传统熵奖励导致训练不稳定
- 改用调整ε_high控制探索程度

七、开源与影响

开源模型：
Magistral Small（24B）Apache 2.0许可（HuggingFace链接）
行业意义：
- 证明纯RL训练大模型的可行性
- 为轻量化模型提供新路径（避免依赖教师模型）
未来方向：
- 多模态RL训练
- 自我引导推理轨迹优化

附Magistral技术报告英中对照版，仅供学习参考：

Magistral技术报告英中对照版下载

小红书dots.llm1：重新定义MoE效率边界，14B激活参数挑战72B密集模型极限

我爱自然语言处理

作者 52nlp

2025年6月11日 10:53

核心突破：极简激活的超级大脑

142B总参数 | 14B动态激活（每token激活6个专家+2个共享专家）
性能对标：Qwen2.5-72B、DeepSeek-V3等顶级模型
训练成本仅1/4：11.2T token预训练耗用146万GPU小时（Qwen2.5-72B需612万小时）
推理经济性：单节点8张GPU（40/80GB）即可部署

MoE架构精要：

128路由专家 + 2共享专家（SwiGLU激活的细粒度FFN）

FP32门控层：保障路由稳定性

无辅助损失负载均衡（借鉴DeepSeek-V2）：动态偏置项调节专家利用率

序列级均衡损失：杜绝单序列内负载倾斜

三大技术支柱撑起SOTA表现

1. 数据工程：11.2T高质量token的炼金术

三阶段处理框架：
- 文档准备：URL过滤+文本提取（优化版trafilatura）
- 规则处理：
  - 行级去重：消除页眉/页脚冗余（保留前5行+后5行的低频内容）
  - 模糊去重：MinHash+LSH实现80%相似度过滤（97.42%召回率）
- 模型处理：
  - 网页分类器：保留文本密集型页面
  - 质量模型：1.5B评分网络筛选高信息密度文本
  - 语义去重：BGE-M3嵌入+KMeans聚类（相似度>0.95剔除）
中英1:1平衡 + 知识类别再平衡：
200类分类器提升百科/科普权重，压缩小说/商品描述占比

2. 训练基础设施：通信与计算的极致优化

1F1B流水线调度：
- 创新性增加预热步骤，实现All-to-All通信与计算重叠
- 内存效率优于DeepSeek的DualPipe方案（牺牲约5%气泡率）
分组GEMM加速：
- Token分块对齐：统一WGMMA指令的Tile粒度
- 性能碾压：H800上比NVIDIA Transformer Engine快14%（前向）/6.7%（反向）

3. 训练策略：稳定性的科学

分段学习率：4k步预热→10T token稳定期（3e-4）→两阶段退火（3e-5→1e-5）
动态批大小：64M → 96M（6T token）→ 128M（8.3T token）
32K上下文扩展：
采用UK策略（UnTie the Knots）——打乱文档分块并训练模型重组，保留短上下文能力

性能实测：以小博大的典范

能力维度	关键指标	dots.11m1表现	对标模型
中文理解	C-Eval (5-shot)	92.8	超Qwen2.5-72B (89.3)
数学推理	AIME24	33.1	逼近DeepSeek-V3 (34.0)
代码生成	HumanEval (Pass@1)	88.4	接近GPT-4o (92.1)
长上下文	RULER-32K	87.7	落后Qwen2.5-72B(92.7)
综合成本	GPU小时/万亿token	13万	Qwen2.5-72B的38%

现象级发现：
数学任务中零样本比少样本强4+分，暗示模型内在推理机制特殊（作者称留待未来研究）

开源革命：透明化训练进程

每1T token发布中间检查点：
首次提供LLM训练动态的完整观测窗口，助力社区研究学习轨迹
全流程开源：
数据处理代码/训练框架/模型权重（HuggingFace & GitHub）

技术启示录

数据质量 > 数据规模：
TxT360对比实验证明——优质网页数据使1.5B小模型性能提升15%+
MoE负载均衡无需代价：
无辅助损失设计验证了“平衡性可不牺牲性能”
系统级创新才是硬道理：
分组GEMM优化带来实质训练加速，算法-硬件协同是关键

未来方向：

稀疏注意力（GQA/MLA）+ 更稀疏MoE层

人类学习效率模拟：从数据中提取最大化知识密度

结语
dots.llm1用工程严谨性证明：效率与性能可兼得。当业界追逐万亿参数时，它选择让每比特算力发挥极致价值——这或是AGI时代更可持续的路径。

附小红书dots.llm1技术报告英中对照版，仅供学习参考：

小红书dots.llm1技术报告英中对照版

Qwen3 Embedding 技术解析：多语言文本嵌入与重排序的新标杆

我爱自然语言处理

作者 52nlp

2025年6月6日 10:08

阿里巴巴通义实验室发布的 Qwen3 Embedding 系列模型在文本嵌入（Embedding）和重排序（Reranking）任务上实现了重大突破。本文深入解读其核心技术、创新点及性能表现。

一、核心目标与背景

文本嵌入（将文本转化为稠密向量）和重排序（对检索结果进行精细化排序）是信息检索、RAG（检索增强生成）和智能体系统的基石。随着大语言模型（LLM）的发展，传统方法（如基于BERT的编码器）面临多语言支持弱、指令泛化能力差、专业领域（如代码）表现不足等问题。Qwen3 Embedding 系列旨在解决这些痛点，提供高效且强大的开源解决方案。

二、模型架构设计

1. 基础架构

骨干网络：基于 Qwen3 基础模型（Decoder-Only 架构），提供 0.6B/4B/8B 三种参数规模。
上下文长度：全系列支持 32K Tokens，适应长文档处理。
指令感知（Instruction Aware）：支持通过指令（I）动态定义任务目标（如“判断法律文档相关性”）。

2. 嵌入模型（Embedding）

输出生成：在输入文本末尾添加 [EOS] token，取其最后一层隐藏状态作为嵌入向量。
输入格式：
{Instruction} {Query}</endoftext>
（文档无需拼接指令）
灵活维度：支持自定义输出维度（1024/2560/4096），便于适配不同下游系统。

3. 重排序模型（Reranker）

任务形式：将相关性判定转化为 二分类问题（输出"Yes"/"No"）。
输入格式：复制下载<|im_start|>system Judge whether the Document meets the requirements based on the Query and the Instruct. Answer only "yes" or "no". <|im_end|> <|im_start|>user <Instruct>: {Instruction} <Query>: {Query} <Document>: {Document} <|im_end|>
得分计算：基于"Yes"的概率归一化值：

三、创新训练策略

1. 多阶段训练流程

阶段	嵌入模型	重排序模型
弱监督预训练	1.5亿合成数据对	不适用
监督微调（SFT）	700万标注数据 + 1200万精选合成数据	高质量标注数据
模型合并（Merge）	多检查点球面线性插值（Slerp）	多检查点球面线性插值

2. 关键创新点

LLM驱动的数据合成：
- 使用 Qwen3-32B 生成 1.5亿多任务、多语言文本对。
- 通过角色扮演（从Persona Hub选角色）和多维控制（任务类型、语言、长度、难度）提升数据多样性和真实性。
- 示例：为文档生成“PhD难度+法官角色+总结型问题”的查询。
高质量数据筛选：用余弦相似度 >0.7 过滤合成数据，得到1200万高质量子集用于SFT。
模型合并技术：合并训练过程中多个检查点，显著提升模型鲁棒性和泛化能力（消融实验显示性能提升1.77分）。

3. 损失函数

嵌入模型：改进的对比损失（InfoNCE变体），引入掩码机制过滤假负例：
重排序模型：标准监督微调损失（SFT Loss）：

四、性能表现：全面领先

1. 文本嵌入模型（MTEB基准）

模型	参数量	MTEB多语言	MTEB英文	CMTEB中文	MTEB代码
Gemini-Embedding	-	68.37	73.30	-	74.66
Qwen3-Embedding-0.6B	0.6B	64.33	70.70	66.33	75.41
Qwen3-Embedding-4B	4B	69.45	74.60	72.26	80.06
Qwen3-Embedding-8B	8B	70.58	75.22	73.84	80.68

亮点：

8B模型在多语言、代码检索任务全面超越Gemini。

0.6B小模型在代码检索（75.41）显著优于7B级竞品（如gte-Qwen2-7B的56.41）。

2. 重排序模型

模型	基础检索分	重排序后提升
Qwen3-Embedding-0.6B	61.82	-
Qwen3-Reranker-0.6B	-	+3.98
Qwen3-Reranker-8B	-	+7.12

在跨语言检索（MMTEB-R）、代码检索（MTEB-Code）等任务中，8B重排序器提升超7分。

五、关键洞见与消融实验

合成数据必要性：
- 移除弱监督预训练阶段，0.6B模型性能下降3.12分（Table 5）。
模型合并的价值：
- 未合并的模型比最终版低1.77分，证明合并有效提升鲁棒性。
指令感知的普适性：
- 通过自定义指令，同一模型可适配检索、分类、相似度计算等不同任务。

六、应用与开源

适用场景：多语言搜索、代码库检索、RAG系统、长文档分析。
部署优势：提供0.6B轻量级模型，满足边缘计算需求。
开源信息：
- 代码库：https://github.com/QwenLM/Qwen3-Embedding
- Hugging Face：https://huggingface.co/Qwen
- 协议：Apache 2.0

七、总结

Qwen3 Embedding 系列的核心突破在于：

LLM赋能的训练流程：用大模型合成高质量数据，突破传统数据瓶颈。
灵活的多阶段训练：弱监督预训练 + 精标数据微调 + 模型合并，兼顾规模与质量。
极致性能：在代码检索、多语言任务上显著超越开源与商业模型（如Gemini）。

该工作不仅推动了文本表示技术的发展，其“指令即任务”的设计理念和开源策略，更为社区构建下一代检索系统提供了强大基础。

参考文献：
[1] Zhang Y. et al. Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models. 2025.
[2] Enevoldsen K. et al. MMTEB: Massive Multilingual Text Embedding Benchmark. ICLR 2025.
[3] Xiao S. et al. C-Pack: Packed Resources for General Chinese Embeddings. SIGIR 2024.

附Qwen3 Embedding技术报告英中对照版，仅供学习参考：

Qwen3-Embedding技术报告英中对照版下载

解密小米MiMo-VL：7B小模型如何实现多模态SOTA性能

我爱自然语言处理

作者 52nlp

2025年5月30日 15:13

近日，小米开源社区发布了MiMo-VL-7B视觉语言模型技术报告，其SFT（监督微调）和RL（强化学习）版本在40多项多模态任务评测中表现惊艳，尤其在复杂推理和GUI交互领域刷新了开源模型记录。本文将深入解析其核心技术方案。

一、核心架构设计

MiMo-VL采用经典的三模块架构：

视觉编码器：基于Qwen2.5-ViT，支持原生分辨率输入保留细节
跨模态投影层：MLP结构实现视觉-语言特征对齐
语言模型：小米自研MiMo-7B基础模型，专为复杂推理优化

图：模型架构示意图（来源：技术报告Figure 2）

二、四阶段预训练策略（2.4万亿Token）

阶段	目标	关键数据	序列长度
1	投影层预热	图文对	8K
2	视觉-语言对齐	图文交错数据	8K
3	多模态预训练	OCR/视频/GUI/推理数据	8K
4	长上下文SFT	高分辨率图像/长文档/长推理链	32K

核心突破：在阶段4注入合成推理数据（含长思维链），使模型在MMMU任务响应长度从680 token跃升至2.5K token，推理深度显著提升。

三、混合强化学习（MORL）

创新性地融合两类奖励信号：

可验证奖励（RIVR）：
- 数学推理：基于Math-Verify库自动验证
- 目标定位：GIoU计算边界框精度
- 视频时序定位：IoU评估时间片段
人类偏好奖励（RLHF）：
- 构建双语偏好数据集
- 分离训练文本/多模态奖励模型
- 采用Bradley-Terry目标函数

技术优势：通过完全同策略GRPO算法避免传统RL性能饱和问题（见图7对比），实现稳定优化。

四、性能突破

基础视觉理解：
- MMMU-val：66.7%（超越Gemma 3 27B）
- CharXiv-RQ：56.5%（领先Qwen2.5-VL 14%）
复杂推理：
- OlympiadBench：59.4%（超越72B模型）
- MathVision：60.4%（较SFT提升2.5%）
GUI交互：
- OSWorld-G：56.1%（超越专用模型UI-TARS）
- 统一动作空间支持跨平台操作（详见表5）
用户体验：
- 开源模型中最高Elo评分
- 接近Claude 3.7 Sonnet水平

图：GUI任务性能对比（来源：技术报告Figure 4）

五、关键洞见

推理数据前置：预训练后期引入长链合成数据，比微调效果提升显著
多任务RL冲突：感知任务需简短输出，推理任务需长链思考，优化目标存在张力
奖励工程挑战：不同任务奖励量纲差异需归一化处理（RaaS服务实现）

六、开源生态

模型权重：完整开放SFT/RL版本
评测框架：覆盖50+任务的LMMs-Eval增强版
数据集：包含GUI动作空间定义等工业级数据

项目地址：https://github.com/XiaomiMiMo/MiMo-VL

结语

MiMo-VL-7B通过三阶段创新—— 精细数据配比预训练、混合奖励强化学习、工业场景专项优化，证明了小模型在复杂多模态任务上的巨大潜力。其在STEM问题求解（见图13）、GUI自动化（见图9）、长文档解析等场景的表现，为开源社区提供了新的技术标杆。

附小米MiMo-VL技术报告英中对照版，仅供学习参考：

小米MiMo-VL技术报告英中对照版

QwenLong-L1：通过强化学习实现长上下文推理的大模型飞跃

我爱自然语言处理

作者 52nlp

2025年5月27日 15:05

近年来，大型推理模型（Large Reasoning Models, LRMs）在数学、编程和逻辑推理等任务中展现了接近人类专家的能力。然而，短上下文推理任务的优势能否扩展到长上下文场景（如处理数万token的文档问答）仍是一个关键挑战。阿里巴巴团队提出的QwenLong-L1框架，通过强化学习（RL）和渐进式上下文扩展策略，首次在长上下文推理任务中实现突破性性能。本文将从技术背景、方法创新、实验结果和实际案例等方面解析这一研究成果。

一、长上下文推理的挑战与解决方案

1.1 问题背景：短上下文与长上下文推理的本质差异

传统LRMs（如GPT-4、Claude等）的RL优化主要针对短上下文任务（如4K token内的数学题），其依赖模型内部参数知识生成推理链。然而，长上下文推理（如120K token的金融报告分析）需要模型从外部长文本中检索信息并逐步整合，这对训练效率和稳定性提出了更高要求。实验发现，长上下文RL训练存在两大核心问题：

训练效率低下：奖励收敛延迟，输出熵降低导致探索不足。
优化过程不稳定：KL散度波动剧烈，长输出序列引入方差放大效应。

1.2 QwenLong-L1的核心创新

QwenLong-L1提出了一套系统性解决方案，包含三大核心组件：

渐进式上下文扩展：分阶段增加输入长度（如20K→60K→120K），避免模型因突变的长上下文输入而崩溃。
混合奖励机制：结合基于规则的精确匹配和LLM语义评判，平衡答案多样性与准确性。
课程引导的强化学习：分阶段训练并引入难度感知采样，优先探索复杂样本。

二、技术实现：从短到长的稳定迁移

2.1 渐进式上下文扩展策略

课程引导的阶段性RL：将训练分为多个阶段，逐步增加输入长度。例如，第一阶段仅处理20K token的输入，第二阶段扩展至60K，最终支持120K。
难度感知回顾性采样：根据样本难度动态调整训练数据，保留前期阶段中奖励低的困难样本，激励模型探索。
热身监督微调（SFT）：通过高质量标注数据初始化模型，提升上下文理解和答案提取的基础能力。

2.2 强化学习算法优化

QwenLong-L1采用两种改进的RL算法：

GRPO（Group Relative Policy Optimization）：通过组归一化奖励估计优势值，避免传统PPO依赖价值网络的复杂计算。
DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）：引入动态采样和长度惩罚，防止输出过长导致的训练不稳定。

2.3 混合奖励设计

规则验证（Rule-Based）：严格匹配答案格式（如正则提取数值），确保精确性。
LLM评判（LLM-as-a-Judge）：利用小型模型（如Qwen2.5-1.5B）评估语义等效性，弥补规则方法的局限性。
最终奖励：取两者最大值（max(r_rule, r_LLM)），兼顾召回率与准确率。

三、实验结果：性能全面领先

3.1 基准测试表现

在7个长上下文文档问答基准（如DocMath、HotpotQA）中，QwenLong-L1显著超越现有模型：

QwenLong-L1-32B平均得分70.7，与Claude-3.7-Sonnet-Thinking持平，优于OpenAI-o3-mini（70.4）和Qwen3-235B-A22B（70.6）。
QwenLong-L1-14B得分68.3，超越Gemini-2.0-Flash-Thinking（65.7）和Qwen3-32B（67.8）。

3.2 关键发现

SFT的局限性：短上下文SFT对长任务提升有限（平均增益仅0.8-3.2分），需依赖RL优化。
RL的核心作用：RL使模型输出熵保持高位，促进探索行为，最终性能提升4.1-5.1分。
测试时扩展（Pass@K）：生成多候选答案可进一步提升效果，QwenLong-L1-14B的Pass@2达73.7，超越DeepSeek-R1（72.1）。

四、案例解析：模型如何“慢思考”？

案例1：金融报告利息计算（DocMath complong-testmini-183）

错误示例：基线模型R1-Distill-Qwen-14B因过度关注无关时间细节（“利息每半年支付”）而误算第一年利息为$20.4M。
QwenLong-L1表现：通过自我验证和回溯，过滤噪声信息，正确整合发行成本（$8.4M）和全年利息（$24M），最终输出正确答案$32.4M。

案例2：债务协议利息推断（DocMath complong-testmini-265）

任务难点：需从长文本中提取本金（$4.9M）、利率（10%）和展期时间（2年）。
模型行为：QwenLong-L1通过分步目标拆解（Subgoal Setting）和多次回溯验证（Backtracking），准确计算总利息为$980,000。

五、未来方向与启示

QwenLong-L1的成功为长上下文LRMs的发展指明方向：

任务扩展：应用于科学文献分析、长视频理解等场景。
架构优化：探索线性注意力、异步参数更新等高效计算方案。
RL范式革新：从Token级MDP转向Turn级交互，支持无限上下文推理。

这项研究表明，强化学习不仅是性能提升的工具，更是解锁模型复杂认知行为的关键。通过渐进式训练和混合奖励设计，QwenLong-L1为实际应用中的信息密集型推理任务提供了可靠解决方案。

附QwenLong-L1技术报告英中对照版，仅供学习参考：

QwenLong-L1技术报告英中对照版

英伟达选择阿里千问背后的技术逻辑：中国开源大模型的全球崛起

我爱自然语言处理

作者 52nlp

2025年5月16日 09:27

Qwen3发布，作为国内首个实现""能力的开源模型，Qwen3不仅达到了36万亿token的训练数据量，还支持119种语言和方言。通过混合专家（MoE）架构与混合推理机制的深度整合，在参数效率与任务适应性层面实现双重突破。旗舰模型Qwen3-235B-A22B在数学证明、代码生成等核心基准测试中，展现出与DeepSeek-R1、Grok-3等顶尖模型的竞争优势。

深度解析DeepSeek-V3：硬件与模型协同设计如何突破LLM规模化瓶颈

我爱自然语言处理

作者 52nlp

2025年5月15日 18:42

就在今天，梁文锋署名DeepSeek新论文的刚刚放出，以下是该论文的解读和英中对照版，仅供学习参考：

近年来，大型语言模型（LLMs）的规模呈指数级增长，从GPT-4、LLaMA到Gemini，模型参数量已突破千亿级别。然而，这种增长也暴露出当前硬件架构的局限性：内存墙（Memory Wall）、计算效率瓶颈和通信带宽不足。如何在有限的硬件资源下实现高效训练和推理，成为学术界与工业界共同关注的焦点。

DeepSeek团队在论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》中提出了一种硬件与模型协同设计的解决方案。通过DeepSeek-V3的实践，他们展示了如何以2048块NVIDIA H800 GPU为基础，结合创新技术实现低成本、高吞吐的LLM训练与推理。本文将从技术原理、硬件优化和未来方向三个维度，深度解析这一里程碑式的工作。

一、核心技术创新

1. 内存效率优化：从KV缓存到稀疏计算

问题背景：LLM推理中，KV缓存（Key-Value Cache）是内存消耗的主要来源。以4096长度的序列为例，传统模型的KV缓存可能占用数百KB/Token，导致长上下文处理时内存迅速耗尽。

解决方案：

多头潜在注意力（MLA）
MLA通过投影矩阵将多头注意力中的KV向量压缩为低维潜变量，仅需缓存潜变量而非完整KV对。如表1所示，DeepSeek-V3的KV缓存仅需70KB/Token，相比LLaMA-3.1 405B（516KB）减少近90%。
低精度模型与量化压缩
采用FP8精度替代BF16，内存占用减半；结合动态量化和窗口化缓存策略，进一步压缩存储空间。

优势：MLA不仅降低内存占用，还减少了内存带宽压力，使得GEMV（矩阵-向量乘）操作更高效，尤其适合资源受限的边缘设备部署。

2. MoE架构：稀疏激活与计算效率的平衡

问题背景：密集模型（如72B参数Qwen2.5）需全量激活参数，计算成本高昂。MoE（Mixture of Experts）通过稀疏激活降低计算量，但传统MoE存在专家负载不均衡、通信开销大等问题。

DeepSeek-MoE的创新：

动态专家路由与节点限制路由（Node-Limited Routing）
将256个专家分组部署在8个节点内，每个Token最多路由至4个节点，减少跨节点通信带宽需求。
计算成本对比
如表2所示，DeepSeek-V3（671B参数）仅激活37B参数/Token，训练成本250 GFLOPS/Token，显著低于405B密集模型的2448 GFLOPS/Token。

优势：MoE架构在保持模型容量的同时，支持单请求低资源推理。例如，DeepSeek-V2（236B）在消费级AI SoC芯片上可实现20+ TPS（Tokens Per Second），而同等性能的密集模型仅有个位数表现。

3. FP8混合精度训练：解锁硬件潜力

问题背景：FP8相比BF16节省50%内存，但此前未在MoE训练中广泛应用，主要受限于累积精度不足和硬件支持缺陷。

DeepSeek的实践：

细粒度量化策略
对激活值采用Tile-wise（1x128）量化，权重采用Block-wise（128x128）量化，结合高精度累加（FP22寄存器）缓解精度损失。
开源框架DeepGEMM
团队开源了针对FP8优化的矩阵乘库，支持细粒度缩放因子计算，实测精度损失低于0.25%。

挑战：FP8在Hopper GPU上的累积精度受限（仅保留13位尾数），需硬件厂商未来支持FP32累加器或可配置精度模式。

4. 通信与网络优化：从多平面拓扑到低延迟协议

问题背景：MoE的专家并行（EP）依赖频繁的All-to-All通信，传统三層Fat-Tree网络成本高且延迟大。

解决方案：

多平面二层Fat-Tree（MPFT）
每个GPU-NIC对绑定独立网络平面，通过PXN技术实现跨平面流量转发。如表3所示，MPFT支持16K GPU规模，成本比三层架构降低40%。
IBGDA与RDMA优化
采用InfiniBand GPUDirect Async（IBGDA），绕过CPU代理直接由GPU管理通信控制平面，减少微秒级延迟。

性能验证：在2048 GPU集群中，MPFT与多轨网络（MRFT）的训练吞吐（272B Tokens/Day）和MFU（43.7%）表现接近，证明其成本优势。

二、硬件协同设计的启示

1. 低精度计算的硬件支持

建议：未来硬件需支持动态范围更大的Logarithmic FP格式（如LogFMT-8Bit），并集成压缩/解压缩单元，降低通信带宽需求。

2. 扩展性与通信收敛

统一网络适配器：将NVLink与InfiniBand整合为统一接口，支持硬件级流量优先级调度。
专用通信协处理器：卸载数据转发、Reduce操作到独立硬件单元，释放GPU计算资源。

3. 内存架构革新

3D堆叠DRAM：通过SeDRAM等技术提升内存带宽，缓解注意力机制的内存瓶颈。
存算一体设计：探索近内存计算（Near-Memory Computing）架构，减少数据搬运开销。

三、未来展望：AI硬件的下一个十年

DeepSeek-V3的实践揭示了硬件与模型协同设计的必要性。未来趋势可能包括：

可配置精度单元：支持训练与推理的不同精度需求，动态切换FP8/FP16/FP32模式。
光互连与硅光子集成：突破电互连带宽限制，实现低功耗、高密度通信。
故障容忍与自适应路由：通过硬件级重传协议和动态路径选择，提升超大规模集群的鲁棒性。

结语

DeepSeek-V3不仅是算法创新的典范，更是一次硬件与软件深度协同的成功实践。其核心在于以硬件特性驱动模型设计，以模型需求反推硬件演进。随着AI负载的复杂化，这种协同设计将成为突破算力瓶颈的关键。或许，未来的AI芯片将不再是通用加速器，而是为特定模型架构量身定制的“智能引擎”。

附该论文英中对照版，仅供参考：

Insights-into-DeepSeek-V3英中对照版下载

Qwen3技术解析：开源大模型的新标杆，附Qwen3技术报告英中对照版

我爱自然语言处理

作者 52nlp

2025年5月13日 22:41

近年来，大型语言模型（LLM）在通用人工智能（AGI）领域持续突破，而开源社区的贡献正不断缩小与闭源模型的差距。由Qwen团队推出的Qwen3系列模型，以其创新的架构设计、高效的多语言支持和卓越的性能表现，成为当前开源大模型领域的焦点。本文将从技术角度解析Qwen3的核心亮点及其背后的设计哲学。

一、Qwen3的核心创新

1. 动态思维模式：推理与响应的灵活切换

Qwen3首次将思考模式（Thinking Mode）和非思考模式（Non-Thinking Mode）整合到同一模型中。

思考模式适用于需要多步推理的复杂任务（如数学证明、代码调试），模型会生成详细的中间推理过程。
非思考模式则针对即时响应场景（如聊天、简单问答），直接输出最终结果，显著降低延迟。
用户可通过在输入中添加/think或/no_think标签动态切换模式，甚至设置思考预算（Thinking Budget）以控制推理深度，平衡性能与计算成本。

2. 混合专家（MoE）架构的优化

Qwen3提供密集（Dense）和MoE两种架构，其中旗舰模型Qwen3-235B-A22B采用MoE设计，总参数量235B，每Token仅激活22B参数。相比前代Qwen2.5-MoE，Qwen3-MoE通过细粒度专家分割和全局批量负载均衡损失优化专家分工，在相同激活参数下性能提升20%以上。

3. 多语言能力飞跃

预训练数据覆盖119种语言和方言（前代支持29种），包括低资源语言如约鲁巴语（Yoruba）和巴斯克语（Basque）。通过多语言数据标注系统，Qwen3在跨语言理解（如翻译、区域知识问答）任务中表现突出，例如在INCLUDE基准测试中，其多语言准确率较DeepSeek-V3提升12%。

二、训练策略：从数据到模型的高效路径

1. 三阶段预训练

通用阶段（30T Token）：构建基础语言能力与通用知识。
推理增强阶段（5T Token）：增加STEM、编程和合成数据比例，强化逻辑推理。
长上下文阶段：扩展上下文窗口至32K Token，结合YARN和双块注意力（Dual Chunk Attention）技术，推理时支持128K上下文。

2. 后训练优化

通过四阶段流程融合思维控制与通用能力：

长链思维冷启动：使用Qwen2.5-72B筛选复杂问题，构建高质量推理数据集。
强化学习（RL）微调：在数学和编码任务上应用GRPO算法，模型AIME得分从70.1提升至85.1。
模式融合训练：将思维与非思维数据混合，设计专用对话模板实现动态切换。
通用强化学习：覆盖20+任务的奖励系统，提升指令遵循、工具调用等能力。

3. 强到弱蒸馏（Strong-to-Weak Distillation）

小模型通过离策略和在策略蒸馏，继承大模型的知识与模式切换能力。例如，Qwen3-14B仅用1/10训练资源，即可达到Qwen2.5-72B 90%的编码性能。

三、性能表现：全面领先的开源标杆

1. 基准测试横扫

数学推理：Qwen3-235B在AIME'24和MATH-500分别取得85.7和98.0分，超越DeepSeek-R1和Gemini 2.5-Pro。
代码生成：在LiveCodeBench v5和BFCL v3中，Qwen3-32B以70.3和70.8分刷新开源记录。
多语言任务：涵盖55种语言的MT-AIME2024测试中，Qwen3平均准确率达80.8%，较GPT-4o提升13.4%。

2. 轻量化模型的高效表现

Qwen3-30B-A3B（MoE）：仅3B激活参数，在SuperGPQA科学问答中超越Qwen2.5-32B（32B参数）。
Qwen3-8B：边缘端模型在GSM8K数学题上取得89.84分，接近Llama-3-70B水平。

四、应用场景与未来方向

1. 实际应用潜力

教育领域：支持多语言的解题辅导，可展示详细推理步骤。
企业级Agent：长上下文处理能力适合文档分析、跨系统工具调用。
低资源语言开发：119种语言覆盖为全球化产品提供低成本适配方案。

2. 未来演进

Qwen团队计划进一步优化超长上下文扩展（>128K）、多模态融合，并通过环境反馈强化Agent的复杂决策能力。此外，模型压缩和训练效率提升将是持续重点。

结语

Qwen3的发布标志着开源大模型在性能、效率和灵活性上迈入新阶段。其动态思维控制、多语言泛化能力和高效的训练方法论，不仅为开发者提供了强大的工具，也为AI民主化注入了新动力。随着后续迭代，Qwen系列有望在更多垂直领域挑战闭源模型的统治地位。

附Qwen3技术报告英中对照版，仅供学习参考：

Qwen3技术报告英中对照版下载

Llama-Nemotron：高效推理大模型的技术突破与应用前景

我爱自然语言处理

作者 52nlp

2025年5月6日 18:21

近年来，大型语言模型（LLM）在复杂推理任务（如数学解题、代码生成、科学问答）上的表现突飞猛进。然而，推理效率和用户控制能力逐渐成为制约模型实际落地的核心挑战。针对这一痛点，NVIDIA 近期发布了 Llama-Nemotron 系列模型，以开放许可、高效推理和动态控制为核心卖点，在性能与效率之间实现了新的平衡。本文将深入解析这一技术报告，揭示其背后的技术革新与应用潜力。

一、核心亮点：为什么关注 Llama-Nemotron？

1. 动态推理切换：按需调整模型行为

用户只需在输入中添加 "detailed thinking on/off" 系统提示，即可实时切换模型的响应模式：

推理模式（On）：生成多步思维链、自我验证和回溯，适合解决复杂问题（如竞赛级数学题）。
聊天模式（Off）：直接输出简洁答案，适用于日常对话或低复杂度任务。

这一功能通过指令微调实现，无需为不同模式部署独立模型，显著降低了部署成本。

2. 极致的推理效率优化

通过 Puzzle 框架（神经架构搜索工具）和 FFN 融合技术，模型在保持高性能的同时大幅提升推理速度：

LN-Super（49B）：单块 H100 GPU 上推理吞吐量比 Llama 3.3-70B 快 5 倍。
LN-Ultra（253B）：在 8xH100 节点上，延迟比原版 Llama 3.1-405B 降低 1.71 倍，内存占用减少 40%。

3. 开源生态的全面支持

模型权重：Nano（8B）、Super（49B）、Ultra（253B）均开放商用许可。
训练数据：公开完整的监督学习和强化学习阶段数据集。
代码库：涵盖 NeMo、NeMo-Aligner、Megatron-LM 等工具链。

二、技术揭秘：如何打造高效推理模型？

1. 五阶段训练流程

神经架构搜索（NAS）：从 Llama 3 出发，通过块级局部蒸馏生成高效变体（如移除注意力层、压缩 FFN 维度）。
知识蒸馏与继续预训练：恢复 NAS 导致的性能损失，扩充领域知识。
监督微调（SFT）：使用 DeepSeek-R1 等教师模型生成的高质量思维链数据，训练模型分步推理能力。
大规模强化学习（RL）：针对科学推理任务（如 GPQA-Diamond），通过课程学习逐步提升难度，使 LN-Ultra 超越教师模型。
对齐优化：平衡指令遵循、安全性与人类偏好。

2. 关键优化技术

Puzzle 框架：通过混合整数规划（MIP）选择最优块组合，精准权衡精度与效率。
FFN 融合：合并连续的前馈网络层，减少序列计算深度，提升多 GPU 并行效率。
合成数据生成：从 Art of Problem Solving、CodeForces 等平台提取问题，结合模型生成解决方案，并通过 LLM 裁判过滤低质量数据。

3. 资源效率突破

LN-Ultra 的 RL 训练：消耗 14 万 H100 小时，采用 FP8 推理生成技术，吞吐量达 32 tokens/s/GPU。
内存管理优化：通过权重分片、流水线并行和动态卸载，在 8xH100 节点上支持 300 万 token 的 FP8 缓存。

三、性能表现：全面领先的开源模型

1. 推理任务表现

模型	GPQA-Diamond	AIME25（30题）	LiveCodeBench
LN-Ultra	76.0%	72.5%	68.1%
DeepSeek-R1	71.5%	70.0%	65.9%
Llama-3.1-405B	43.4%	0.0%	-

2. 非推理任务表现

IFEval（指令遵循）：LN-Ultra 达到 89.5%，接近 GPT-4 水平。
Arena-Hard（对话质量）：LN-Super 以 88.3 分超越 Claude 3.5 Sonnet。

3. 效率对比

在相同硬件（8xH100）下，LN-Ultra 的推理吞吐量比 DeepSeek-R1 高 1.8 倍，且支持 128K 长上下文。

四、应用场景与未来展望

1. 典型应用

教育辅助：动态切换模式帮助学生理解解题过程或快速获取答案。
科研工具：处理复杂科学问题（如化学合成路径推理）。
企业级助手：低延迟响应客户查询，同时支持深度数据分析。

2. 社区贡献

开放数据集：涵盖数学、代码、科学领域的 3300 万条高质量样本。
可复现性：完整公开训练代码与超参数配置，推动开源社区协作。

3. 未来方向

代码能力增强：计划更新 LN-Super 的代码数据集，提升 LiveCodeBench 表现。
多模态扩展：结合视觉模块解决 STEM 领域的图文推理问题。

五、总结：推理模型的新标杆

Llama-Nemotron 系列通过动态控制、架构优化和混合训练策略，在开源模型中树立了新的性能标杆。其技术方案不仅证明了“大模型未必低效”，也为企业提供了兼顾成本与能力的落地选择。随着后续迭代和社区贡献，这一系列有望成为复杂推理任务的默认基础设施。

附Llama-Nemotron技术报告英中对照版，仅供学习参考：

NVIDIA-Llama-Nemotron技术报告英中对照版下载