普通视图

昨天以前bang's blog

bang's blog
Agent 模型的思维链是什么bang
关于 Agent 模型的思维链，之前被几个高大上的词绕晕了，claude 提出 Interleaved Thinking（交错思维链），MiniMax M2 追随和推动标准化，K2 叫 Thinking-in-Tools，Deepseek V3.2 写的是 Thinking in Tool-Use，gemini 则是 Thought Signature（思考签名）。了解了下，概念上比较简单，基本是一个东西，就是定义了模型思考的内容怎样在 Agent 长上下文里传递。是什么在25年年初 deepseek 的轰炸下，思考模型大家都很熟悉了，在 Chatbot 单轮对话中，模型会先输出思考的内容，再输出正文。再早的 GPT-o1 也一样，只不过 o1 不把完整的思考内容输出。在 Chatbot 进行多轮对话时，每一次思考的内容是不会再带入上下文的。每次到下一轮时，思考的内容都会被丢弃，只有用户 prompt 和模型回答的正式内容会加到上下文。因为在普通对话的场景下没必要，更倾向于单轮对话解决问题，长上下文会干扰模型，也会增加 token 消耗。这些思考
2026年1月12日 16:45

Agent 模型的思维链是什么

作者 bang

2026年1月12日 16:45

关于 Agent 模型的思维链，之前被几个高大上的词绕晕了，claude 提出 Interleaved Thinking（交错思维链），MiniMax M2 追随和推动标准化，K2 叫 Thinking-in-Tools，Deepseek V3.2 写的是 Thinking in Tool-Use，gemini 则是 Thought Signature（思考签名）。了解了下，概念上比较简单，基本是一个东西，就是定义了模型思考的内容怎样在 Agent 长上下文里传递。

是什么

在25年年初 deepseek 的轰炸下，思考模型大家都很熟悉了，在 Chatbot 单轮对话中，模型会先输出思考的内容，再输出正文。再早的 GPT-o1 也一样，只不过 o1 不把完整的思考内容输出。

在 Chatbot 进行多轮对话时，每一次思考的内容是不会再带入上下文的。每次到下一轮时，思考的内容都会被丢弃，只有用户 prompt 和模型回答的正式内容会加到上下文。因为在普通对话的场景下没必要，更倾向于单轮对话解决问题，长上下文会干扰模型，也会增加 token 消耗。

这些思考模型用到 Agent 上，就是下图这样，每次模型输出工具调用，同时都会输出 thinking 内容，思考应该调什么工具，为什么调，但下次这个思考内容会被丢弃，不会带入上下文：

Agent 的 loop 是：用户输入 → 模型输出工具调用 → 调用工具得出结果 → 模型输入下一步工具调用 → 调用工具得出结果 → …. 直到任务完成或需要用户新的输入。

这不利于模型进行多轮长链路的推理，于是 claude 4 sonnet 提出把 thinking 内容带入上下文这个事内化到模型，以提升 Agent 性能，上下文的组织变成了这样：

就这样一个事，称为 Interleaved Thinking，其他的叫法也都是一样的原理。

为什么要带 thinking

面向 Chatbot 的模型，倾向于一次性解决问题，尽量在一次 thinking 一次输出解决问题。

Agent 相反，倾向于多步不断跟环境( tool 和 user )交互解决问题。

Agent 解决一个复杂问题可能要长达几十轮工具调用，如果模型对每次调用工具的思考内容都抛弃，只留下结果，模型每次都要重新思考每一轮为什么要调这个工具，接下来应该调什么工具。这里每一次的重新思考如果跟原来的思考推理有偏移，最终的结果就会有很大的出入和不稳定，这种偏移在多轮下几乎一定会发生。

如果每一轮调用的思考内容都放回上下文里，每次为什么调工具的推理逻辑上下文都有，思维链完整，就大大减少了模型对整个规划的理解难度和对下一步的调用计划的偏差。

有没有带 thinking 内容，对效果有多大差别？MiniMax-M2 提供了他们的数据，在像 Tau 这种机票预订和电商零售场景的任务 benchmark 提升非常明显，这类任务我理解需要操作的步数更多（比如搜索机票→筛选过滤→看详情→下单→支付），模型在每一步对齐前面的思路很重要，同一个工具调用可能的理由随机性更大，每一步的思考逻辑带上后更稳定。

工程也能做？

这么一个简单的事，不用模型支持，直接工程上拼一下给模型是不是也一样？比如手动把思考内容包在一个标签(<think>)里，伪装成 User Message 或 ToolResult 的一部分放在里面，也能达到保留思考的效果。

很多人应该这样做过，但跟模型原生支持还是有较大差别。

工程手动拼接，模型只会认为这部分仍是用户输入，而且模型的训练数据和流程没有这种类型的用户输入和拼接，效果只靠模型通用智能随意发挥。

模型原生支持，训练时就可以针对这样规范的上下文训练，有标注大量的包含思考过程的 trajectory 轨迹数据训练，响应的稳定性必然会提升，这也是 Agent 模型的重点优化点之一。

签名

上述工具调用的 thinking 内容带到下一轮上下文，不同的模型做了不同额外的处理，主要是加了不同程度的签名，有两种：

thinking 内容原文，带签名校验

claude 和 gemini 都为 thinking 的内容加了签名校验，带到下一轮时，模型会前置判断思考内容有没有被篡改。

为什么要防 thinking 内容被篡改？毕竟 prompt 也可以随便改，同样是上下文的 thinking 内容改下也没什么。

主要应该是篡改了模型的 thinking 内容会打乱模型的思路，让效果变差，这也是需要避免的。

另外模型在训练和对齐时，已经默认 thinking 是模型自己的输出，不是用户随意的输入，这是两个不同类型的数据，如果实际使用时变成跟Prompt一样可随意篡改，可能有未知的安全问题。

不过国内模型目前没看到有加这个签名校验的。

thinking 内容加密

claude 在一些情况下不会输出自然语言的 thinking 内容，而是包在redacted_thinking里，是一串加密后的数据。

而 gemini 2.5/3.0 的 Agent 思维链没有明文的 thinking 字段，而是 thought_signature，也是一串加密后的数据。

用这种加密的非自然语言数据，一个好处是，它可以是对模型内部更友好、压缩率更大的数据表述方式，也可以在一些涉及安审的场景下内容不泄露给用户。

更重要的还是防泄漏，这就跟最开始 GPT o1 不输出所有思考内容一样，主要是为了不暴露思考过程，模型发布后不会太轻易被蒸馏。

最后

目前 claude 4 sonnet、gemini 3 在 Agent 工具调用的场景下，都强制要求带工具调用的思考内容和签名，这个链路正常是能很大程度提升整体的推理执行效果，是 Agent 多步骤推理的必需品。

但目前 Agent 模型的稳定性还是个问题，例如在某些场景下，业务逻辑明确需要下一步应该调工具 A，但模型思考后可能就是会概率性的调工具B，在以前是可以直接 hack 替换调工具调用，或手动插入其他工具调用，没有副作用。

但在思维链这套机制下比较麻烦，因为没法替模型输出这个工具调用的思考内容，一旦打破这个链，对后续推理的效果和稳定性都会有影响。

可能模型厂商后续可以出个允许上层纠错的机制，例如可以在某个实际告诉函数工具选择错误，重新思考，原生支持，弥补模型难以保障稳定的不足。

bang's blog
密码保护：2025bang
此内容受密码保护。如需查阅，请在下列字段中输入您的密码。密码：
2025年12月31日 20:50

密码保护：2025

bang's blog

作者 bang

2025年12月31日 20:50

此内容受密码保护。如需查阅，请在下列字段中输入您的密码。

密码：

Agent 模型怎么训练？学习 Kimi K2 论文

bang's blog

作者 bang

2025年8月6日 00:33

在 Agent 使用的模型上，Claude 一直独一档，Deepseek、豆包、Gemini 等模型跟它都有很大差距，很多号称 benchmark 接近和超过 Claude 的实际效果都不行。

K2 出来后在 Agent / Coding 相关的 benchmark 上效果很不错，同时也在一些 Agent 场景上试了下，实际体验是不错的，值得学习下它是怎么做的。

它的技术论文《KIMI K2: OPEN AGENTIC INTELLIGENCE》公开了模型训练过程的一些信息，一起学习下。

概览

K2 几个重点：

MuonClip 优化器，支持了万亿参数级别的模型预训练能稳定进行。
大规模构造 agent 合成数据。
通用的强化学习框架，不仅适用于对有明确对错的任务（数学/逻辑/代码开发等），也适用于开放型任务（写作、多轮对话等）。

分别对应大模型训练三部曲：预训练，SFT，强化学习。论文分别阐述了这三个阶段做了什么。

预训练

这部分介绍了训练 K2 基础模型的架构设计、优化器创新、数据增强处理，以及训练的硬件配置和调度。

架构

模型架构遵循 DeepSeek V3 的架构，只是调整了一些关键参数，1.04万亿(1000B) 参数量的 MoE 模型，激活参数32B。

MoE(Mixture of Experts) 架构能做到高性能低成本，基本要成为 LLM 标配。模型参数量越大，模型在训练过程中能存储的信息量就越多，模型聪明程度越高，这是 scaling law。但参数量越大，使用模型的推理成本就越高。 MoE 架构可以设计参数量很大的模型，但在推理时，每一个 token 都会被路由到到其中几个子模块（称为专家）去处理，只有少量参数参与了计算。这也是为什么之前 DeepSeek 的成本很低的原因之一。K2 1000B 的参数量级，激活参数 32B，相当于它的推理成本跟 32B 大小的模型差不多。

跟 DeepSeek V3 的差异是调整了一些关键参数，比较细节了，特别提到两个点：

高稀疏性（MoE 专家数量多但激活很少）的设计能在同样计算量下让模型表现更好，但专家数量多有成本，K2 选了一个性价比高的稀疏性数值来平衡效果和成本。384个专家激活8个。
注意力头 (attention heads，可理解为对输入向量的拆分) 多了对效果提升有限，反而在处理长文本时会慢，不划算。把注意力头从128降到64。

模型架构做的事不多。

MuonClip 优化器

预训练阶段 K2 最大的创新点在 MuonClip 优化器，花了较大篇幅介绍。简单从基础概念出发理解下它做了什么：

优化器：模型训练过程中会不断调节参数，优化器会决定如何去调整这些参数，让模型能更快、更稳定地收敛到一个较好的状态
Muon：是一种优化器，算法原理还挺复杂不展开，简单说它的作用能在保证一定准确度前提下提升训练速度，能比常用的 AdamW 优化器更快地完成训练任务。
MuonClip：Muon 虽然训练速度快，但容易不稳定，理解为可能会一下把模型参数调整得太猛，无法收敛回来，训练崩溃。越大的模型会越容易出现这个问题，K2 万亿参数下更是容易。MuonClip 解决这个问题，简单理解是在 Muon 基础上增加了一个叫 QK – Clip 的裁剪器，超出阈值时做好调节，避免训练的大幅波动。

数据处理

预训练中有个 token 效率的概念，每个 token 对模型更新的影响越大，token效率越高，数据处理目标提高 token 效率，其实就是提高数据质量。

K2 有 1.5 万亿 token 的数据去训练，极端假设这1.5万亿 token 都是一样的，那模型什么也学不到，token 效率很低，如果 1.5 万亿 token 均匀包含了每个领域多样性的数据，token 效率就高。

K2 做了几个事提升 token 效率：

对知识领域的数据，用 LLM 以不同的风格和视角重新生成一份数据（可以理解为蒸馏了某个 LLM 的文风？），还细化了重写方法：分块重写每一段最后拼接在一起，以及有检测模型确保重写内容与原始内容一致。
对数学数据进行重写，遵循 SwallowMath 数据集里的方法，包括去掉题干冗余描述、补全上下文、繁琐的解答重写为简洁连贯分布逻辑、确保格式统一。

互联网数据已经用完的情况下，如何在这些数据里清洗重组出多样和高质量的数据，提升预训练效果，是持续可以做的事。

SFT

除了常规的高质量标注数据做 SFT，K2 专门针对 Agent 场景创建了一套合成数据的流程，能造出大量高质量的 Agent 对话轨迹数据（trajectory），对预训练模型进行 SFT，让模型学会 agent 任务规划/调用工具/环境反馈相关的套路/格式/规则。

这个流程分三步：

1. 造工具（Tool spec generation）

从github 爬3000+个 MCP 工具，作为数据集之一
选一些关键类别（比如金融交易、软件应用、机器控制），每个类别演化出多个应用领域（比如股票交易、开发者工具、工业机器人）。
为每个领域创造一些新的工具：用 LLM，基于上面 MCP 工具的定义和规范，创造出工具的接口、描述、操作语义，确保各个类别和领域数据的多样性。例如下面这样的工具，一共造 20000 多个：

{
      //仅示例，非实际定义的格式
      name: "financial_db_search",
      description: "查询金融数据库中的产品信息，支持股票、债券、基金的基本数据（如代码、名称、价格、发行量）及历史交易数据（如近30天收盘价）",
      // 输入参数的JSON Schema定义（约束模型传入的参数格式）
      properties: {
        type: "object",
        required: ["product_code"], // 必选参数
        properties: {
          product_code: {
            type: "string",
            description: "产品代码，如股票代码（A股：600000.SH，美股：AAPL）、债券代码（019547.IB）"
          },
          time_range: {
            type: "string",
            enum: ["latest", "30d", "90d", "1y"],
            default: "latest",
            description: "查询时间范围：最新数据（latest）、近30天（30d）、近90天（90d）、近1年（1y），默认返回最新数据"
          },
        }
      }
    }

2. 造 Agent 任务（Agent and task generation）

合成各种系统提示词，从上面两三万个工具库中配备不同的工具组合，生成几千个 Agent。（system prompt + tool set = Agent 定义，这里怎样去做工具配备没详说，应该是由 LLM 加一些流程完成。）
基于每个 Agent，生成简单到复杂的各类任务，每个任务都配有明确的评分标准，规定了任务成功指标、预期的工具使用和中间的检查点。

3. 造对话轨迹（Trajectory generation）

LLM生成具有不同沟通风格和偏好的用户角色，跟上述 Agent 进行多轮对话。
对话过程中，Agent 会调用工具，但上述生成的工具只有 spec （接口定义/描述），并没有真正的实现，所以做了一个工具执行模拟器，用 LLM 模拟调用了这个工具给出结果返回过去。
也有部分工具不是调工具模拟器，会针对比如软件编码任务，给一个真实的调用环境，真实地执行实际工具调用代码，返回数据。
会有裁判 LLM 去评估这里生成的对话记录的质量，符合要求的才会挑出来作为训练数据。

最终造出的数据示例：

//仅示例，非实际定义的格式
<|system|>
你是金融股票专家，可调用工具：stock_quote（查实时行情）、industry_trend（查行业趋势）
[{
      name: "stock_quote",
      description: "查询金融数据库中的实时行情",
      properties: {
	      product_code: {
            type: "string",
            description: "股票代码..."
        },
			}
}, { ... industry_trend}]
<|/system|>

<|user|>帮我看看宁德时代（300750）现在的股价和涨跌幅。<|/user|>

<|assistant|>需要查询宁德时代的实时行情。<|tool_call|>{"name":"stock_quote","parameters":{"code":"300750","fields":["price","change"]}}<|/tool_call|><|/assistant|>

<|tool_response|>{"code":"300750","name":"宁德时代","price":118.50,"change":"+2.3%","time":"09:45"}<|/tool_response|>

<|assistant|>宁德时代（300750）当前股价118.50元，涨2.3%（截至09:45）。<|/assistant|>

<|user|>那新能源板块这周表现怎么样？适合加仓吗？<|/user|>

<|assistant|>用户想了解新能源板块周趋势，需调用行业工具。<|tool_call|>{"name":"industry_trend","parameters":{"sector":"新能源","period":"week"}}<|/tool_call|><|/assistant|>

<|tool_response|>{"sector":"新能源","period":"week","trend":"上涨5.2%","hotspots":"储能/充电桩","risk":"政策不确定性"}<|/tool_response|>

<|assistant|>新能源板块本周上涨5.2%，储能和充电桩领涨，但需注意政策不确定性。短期可少量加仓，建议持仓不超过总资金的15%。<|/assistant|>

总的来说，通过少部分真数据和大部分合成数据，去造出大量模拟 Agent 对话轨迹的高质量数据，数据量原文说是数以万计，也可能不止。这些数据可以直接用于 SFT，让模型学会 Agent 需要的多轮交互推理、工具调用能力。

这里造数据用到的 LLM，猜测是 claude sonnet 4，算是蒸馏了 claude 的 agent 能力？

强化学习

强化学习阶段讲了很多策略，核心是通用的给训练环境、造任务、定义奖励模型。对于可验证奖励的任务，有多种不同验证策略，创造和引入大量的任务做训练；对于不好验证奖励的任务，用自我评判的方式去选更好的输出；另外也介绍了算法上的几个小优化策略。

可验证奖励任务

给模型的强化学习搭建了一个训练场(Gym)，设计了各种有明确对错标准的任务，让模型在里面学习。

数学题、理科推理题：收集大量数学、科学、逻辑题，也包括数独、密码破译等逻辑题，补全冷门的领域的题目（这个好像比较常规？）。清洗数据，用模型筛掉太难和太简单的，留难度适中的题目，模型练了能进步。
听懂复杂指令：
1. 对一些可验证输出的 prompt case，LLM 生成结果检测的代码去做检测。比如“生成小故事，别太长”，LLM 生成一个检查结果字数的函数，超过200字就扣分。
2. K2 数据团队自己造了一波复杂的 prompt 和这波 promot 的评判规则数据。
3. 参考 AutoIF 指令扩充，输入一小批人工指令，用 LLM 自动生成更多变体，形成丰富复杂和可验证的指令集。例如指令“7加9加8等于多少”，扩写成“计算把7加到9上，再加上8，等于多少”之类的形式，并生成 python 代码去测试输出的答案是否正确。
说真话：参考 FACTS Grounding 的做法，训练了一个忠实度判定模型，能识别每个句子对事实的遵循度，作为奖励模型之一。比如模型说参考表1 数据X，实际上表1并没有数据X，就扣分。
编程和软件工程能力：编程上包含各种竞赛题目，额外给这些题目找了对应的单元测试。软件开发方面，跟 SWE-bench 的做法一样，扒了 github 上大量的代码修复 case，issue 描述扔给模型生成修复代码，搭建了环境支持运行代码单源测试，测试结果作为奖励模型。
安全：收集一堆危险问题(暴力/色情等)让模型学会拒绝回答。用一个 LLM 模拟生成一些绕过安全规则的问题（比如扮演角色/讨论正经问题过程中混入危险问题），让 K2 回答，再用另一个 LLM 去判断 K2 的回答是否危险，做好引导。

总的来说，就是各种造数据，定义奖励模型，让模型靠近我们想要的结果。

自我评判机制

上面基本是能定义好奖励模型的任务，接下来是对不太好衡量结果的任务怎么进一步提升，例如回答有没有帮助、有没有创意、推理深度够不够等。

这种要不就是人类标注数据，要不就是用 LLM 评估结果。K2 这里大致的意思：

这里大意是让 K2 自己对自己的输出好坏进行评判：

在预训练和 SFT 阶段，给 K2 喂相关的人类标注能用于评判好坏的数据，让模型初步有评估好坏的能力。
强化学习阶段，给 K2 输入我们的偏好(system prompt)，包括核心价值（例如表达要简洁、逻辑要连贯、保持客观等）和规范（例如不要在开头迎合用户赞美），让它去评判自己输出的内容符不符合我们偏好。
K2 的评判能力会在训练过程中也不断提升，因为同时会拿它去评判之前提到的那些可验证结果的问题，它如果评判错了也会纠正参数去提升评判能力。

算法策略

介绍了几个算法上的小策略：

预算控制：RL 只看最终结果是否能得到奖励，所以模型会倾向于输出更多的内容，更多的内容意味着更高命中答案的概率，但对很多任务来说是没必要的。K2 对不同任务类型设了输出 token 限制，超出会惩罚，引导模型输出简洁有效的回答。

PTX loss(Pre‑Training Cross‑Entropy) ：OpenAI 在 RLHF 提出的，RL 过程中避免模型对原先能力的遗忘，K2 准备了一份高质量数据，训练过程会时不时加入评估，如果模型对这些数据效果变差了，就惩罚，让学习更稳健。

温度衰减（Temperature Decay）：温度在大语言模型里是指激进输出还是保守输出，更细的理解是 next token 推理时是直接选概率最高的(保守)，还是随机选前面几个(激进多样)。温度衰减是训练前期先激进多尝试不同方向，后期保守收敛，保持输出稳定。

其他

强化学习相关就这些，对 Agent 推理能力起作用的，是可验证奖励模型里的 2-让模型理解复杂指令和 3-输出遵循事实，以及自我评判机制让模型输出推理深度更好。对 Coding 能力起作用的，基本就是编程和软件工程能力。

这些方法应该都多少在各种论文上出现过，但能不能做得好，数据质量怎样，中间有多少细微的策略调整，就看细活了。

整个模型训练基本就这样，其他的内容就剩下各种 benchmark 评估了，不再列。

感受

看完什么感受？

整个论文工程同学是能看懂大概的，算法公式比较少，我理解主要是大模型算法结构已经固定，让实用性大模型训练更偏向是一个系统优化工程，而不是创新算法项目。
感觉友商看了这论文也没法快速复刻，因为用的很多方法似乎多少有在各种论文上出现过，小部分是特别的算法策略，影响模型效果的应该在每一个策略和数据构造处理的细活上。也许某一个策略和数据是对模型效果影响很大，但论文没提到。
K2 很厉害，值得敬佩，它目的也是造一个 Agent / Coding 能力好的实用性模型，策略做法都很强。只是感觉只靠这些策略模型没法突破上限，scaling law 没有继续突破，thinking 模式的 test time scaling 被抛弃，最近模型惊艳的进展基本来自于多模态模型，纯文本 LLM 下一个突破不知在哪里，等 OpenAI 了。

LangChain 作者聊 AI Agent 的几个相关课题

bang's blog

作者 bang

2025年3月24日 15:58

参加 NVIDIA GTC 会，其中一场听了 LangChain 的作者 Harrison Chase的分享《AI Agents in Production Insights and Future Direct》，聊了 Agent 当前遇到的一些问题和他的想法，包括 Planing，UX，Memory，Reliability，Deployment，Multi-Agent，也结合我的理解说说这几个课题。

Planing

任务规划是 Agent 的核心，这个课题是进展比较多的，业界解决得相对比较好，核心是 o1/r1 推理模型的出现和不断增强，让规划能力上了一个台阶，这也是 agent 能起来的基础。

但模型本身目前解决不了所有问题，还需要工程上的一些策略和串联做优化。例如 Tree of Thought 让任务不是以线性一步步执行的形式，而是生成解决问题的多个节点，多角度思考问题，形成树结构的任务，评估节点的价值，在里面寻找最优解。 Reflexion 会有 Evaluator 对各种反馈（工具调用结果/模型输出/用户指令）进行反思，梳理改进方向，也会把反思结果作为知识库经验，指导后续的任务。

这些策略链路是需要有一个工程流程把他们串起来的，这个工程链路的构建也是 Agent 在 Planing 能不能做好的关键因素，langgraph 和众多 Agent 框架服务都持续在做这个事。

UX

Agent 的交互应该是怎样的？

Devin 多窗口，有聊天框发送指令、又能实时看到 Agent 在怎样用浏览器、命令行、编辑器，是不错的交互。

大部分 Agent 会是后台异步运行的模式，可以让它直接跑在后台，在需要人类给出反馈处理的，用类似邮件 inbox 的方式交互，Agent 发邮件给你等待指示，你回复邮件给输入。

相较于交互界面形态，交互的策略可能更关键。Agent 在执行任务过程中，

用户是否应该能随时中断并提出新的指示？
Agent 应该在什么时候暂停任务等待用户反馈再进行下一步？
用户指示应该用表单一次性收集，还是一步步收集？

如果做每一步都要用户反馈做指示，那是非常枯燥不好用的，如果完全不需要用户反馈，那做出来的东西可能不符合用户预期的概率高很多。模型应该能做好这里的交互策略，但目前还没看到有特别好的实践。

Memory

长时记忆是个有意思的话题，杨立昆在对话中也有提到，记忆这个课题是值得研究的方向，现在是缺乏突破和讨论的。

现在的 Agent，普遍都只有知识库 RAG 而没有记忆，记忆不是知识库，或者说知识库只是记忆的一种。

记忆应该跟人类一样，模型能记住和学习交互过程中用户给到的信息和偏好，在每次推理过程中发挥作用。

它跟 UX 相关，如果模型能理解记住用户偏好，用户的反馈交互就可以减少。

它也跟 System Prompt 的优化相关，System Prompt 是激活了模型按某个方向去做推理预测，记忆也应该是在模型推理的过程中发挥作用。

简单做的话记忆可以作为 System Prompt 的一部分去影响模型，更彻底的可能应该是能持续内化到模型内，或者以新的模型架构去做这事。

现在的应用场景还没到记忆是必选项的程度，但要做 AGI 或者要 Agent 好用这块必不可少。

Reliability

主要是指 Agent 能不能稳定地解决同一个(或同一类)问题。

Agent 跟之前的软件工程不同，受限于模型输出的不稳定，整个系统的可靠性是远不如传统工程的，用户输入同样的或差不多的需求，agent 不一定每次都能解决问题。

模型输出的，一是会受用户对任务描述的影响，可能描述不准确，可能会有歧义。二是受模型本身不够聪明的影响，近期模型能力越来越好，解决了部分问题，但仍是不稳定。

保持 Agent 输出的稳定性，是一个非常需要持续迭代优化的工程，搭一个 demo 容易，持续优化难。

Agent 节点多，需要能看清每个任务节点的详细情况，有问题时知道问题出在哪里，需要有效果评估的测试能力，也需要框架有能力比较方便地在过程中对模型的输出进行评估实时纠错，提升稳定性，这些配套 langchain 相关生态都提供了，NVidia 这次开源的 AgentIQ 框架也基本涵盖了，还有很多框架服务也在做。

Deployment

Agent 要在线上跑，相关部署基建现在也还没有很完善，它跟传统工程链路还是有一些区别，主要是链路长、耗时长、成本高。提供 Agent 部署的服务应该针对这几个特性做好相关基础设施。

稳定性：整个 agent 链路很长，每一个环节调用如果成功率是 99%，平均要调用十次接口的 agent 成功率就只有90%，而大模型的接口往往也不稳定，如何保证成功率？重试策略、排队机制等，这些都是 agent 工程基建应该做的事。
性能：当前 agent 处于效果大于耗时的阶段，只要效果好，五分钟输出还是十分钟输出都可以接受，但真正规模化应用起来时，性能问题肯定也是重点，整个链路耗时太长，可优化空间会比较大，NVidia 对 agent 的分享也提到了，很多任务不一定要串行做，可以并行化节省整体耗时。
监控： Agent 线上跑的效果怎样，准确率多高，有没有安全风险，应该有直接可用的相应配套。
成本：如果 Agent 全程用最好的模型，跑一次十几分钟的任务可能要几美元的成本，前期问题不大，效果优先，粗放式探索，后续真能规模化上线应用，成本这里的优化空间会比较大，用不同的专家小模型处理不同的任务、做好模型 – GPU 卡适配优化推理（NVidia NIM 提供了相关能力），都是可优化的方向。

Multi-Agent

预期后续会有非常多的 Agent 出现，Agent 跟 Agent 之间如果能相互联系，能形成新的智能体，但 Agent 之间应该怎样通信？

这里的通信不止是把 Agent 当成一个黑盒，给指令 – 输出结果，而是能深入 Agent 内部的通信，上下文共享、中间步骤共享、过程中的协作、用户操作插入等。

目前没有一个标准，各项目都是自己的一套，业界可能需要这样一个标准，能实现把使用不同框架、不同服务上部署的 agent 连接起来。

MCP 是近期在快速发展的标准协议，很有前景，但它只是把工具工具调用标准化了，对 Agent 和 Agent 相关的协作是没有定义的，可能需要另外的协议。

上一篇文章刚好探讨了这个内容，用 Agent as Tool 的方式，把 Agent 当成工具的一种，基于 MCP 去做，好处是架构简单，Agent 可复用性高。

但它只把 Agent 当成黑盒 Tool 去使用，给指令 → 输出结果，Agent 之间更深入的联系是没有的。我们也在尝试，给这个 MCP 子 Agent 输入主 Agent 的上下文，同时这个子 Agent 也可以流式把每步处理过程上下文输出给主 Agent，这样就可以实现 Agent 之间的上下文共享。同时也可以继续做更深入的交互定义，比如子 Agent 与用户反馈交互的流程协议。

目前这些协议都需要自定义，但以 MCP 、以 Agent as Tool 去定义标准的 Agent 间交互协议，也是可行的，MCP 可以把这套交互协议也定了，可能是 Anthoropic 很好的机会。

上述这些基本是工程上的事情，这次 GTC 很少有人讨论到 Agent 在数据收集/模型调优上的实践，基本是直接使用基础通用模型，但要提升 Agent 的上限，应该是需要专有模型并能支持端到端训练的形态，待探索。

带文字的 AI 图片生成是怎么做的？

bang's blog

作者 bang

2024年12月15日 19:37

近期即梦上线了 AI 图片生成文字的能力，在生成海报、封面以及各种场景下渲染文字效果是非常不错的。最开始AI生成的图片中，涉及到文字的基本都是不能看的乱码，需要针对性训练优化才能做到生成清晰的文字并融入图片。那这里是怎么做优化的？对这个原理比较好奇，尝试通过几篇公开论文学习下相关实现思路原理。

大致思路：Recraft

目前生成文字(英文)最好的模型是 Recraft，官方有篇文章《How To Create SOTA Image Generation with Text: Recraft’s ML Team Insights》介绍了模型训练的大体过程，挺适合简单了解大致思路的，简单复述下。

首先说明下为什么图片生成文字容易乱码？

一是数据量不足：图片生成模型是通过大量图片+图片描述去做训练，而大部分图片的描述是不怎么包含图上的文字的，比如拍一个街道建筑图，图上会有很多店面的名字文字，图片描述可能就是类似城市/街道/红色招牌等描述，并没有把图上的所有文字放进去，模型只能在少部分相对简单的场景（比如图上只有几个字，图片描述中也有这几个字）中学习生成正确的文本，幻觉会比较严重。
二是文字的错误更容易被发现，相对于人物动作不协调、衣服花纹的差错，文字只要有一笔一划错误就很容易被人察觉识别为乱码，需要更精确的生成。

接下来看优化文字生成能力的大致流程：

第一步，准备数据。准备大量的包含文字的图片，包括海报、封面、广告、Logo等，对这些图片进行处理。处理包含两部分，一是用 OCR 模型识别图像上的文字位置和文字内容，二是用多模态模型识别这张图的内容，输出描述文本。得到了海量的图片 – 文本布局和内容 – 图片描述组合的数据。

第二步，使用数据训练模型，跟第一步是反着的过程。先训练一个布局模型，可以通过输入 prompt → 输出文本布局+内容。再把 prompt 和文本布局输入生图模型，最终生成带文字的图片。

大流程就是这样，再稍微把其中布局模型展开一下：

输入 prompt 输出文字内容+布局，用的是一个大语言模型(LLM)，定义了一个输出的文本格式，包含文本内容和这些文本的坐标。同时还会根据文本和坐标数据，用文字渲染工具画张图片出来。

这张渲染出来的文字布局图会作为生图时的参考，用类似ControlNet 的方式作用在生图过程中，最终生成图上的文字。

这是个大致流程，文中没有展开里面模型架构的一些细节，原文上表示思路基于 TextDiffuser2，但看起来思路上跟 GlyphControl、TextDiffuser、TextDiffuser2 都有关系。

各方案大的思路都差不多，基本都是分两步，生成文字布局信息，再作用在生图过程中，主要是模型架构不同，以及数据集质量不同。下面看看这些相关的论文和一些模型细节。

GlyphControl

先看看相对简单的 GlyphControl，23年11月的论文，基本就是一种 ControlNet，跟边缘轮廓、姿态等 ControlNet 没太大差异。ControlNet 的相关介绍可以看回这篇。

训练阶段：找一批带文字的图片，用OCR 识别文字内容和位置，再渲染出一张白底黑字的图片，将图片描述和这张白底黑字图片一起进入 Glyph ControlNet 网络训练。这个白底黑字的图片就是参考图，跟边缘轮廓/姿态等其他 ControlNet 的参考图作用和流程都一样。

推理阶段：分两部分输入，生图的 Prompt 和白底黑字参考图，这张参考图看起来是要用户自己另外准备的，可以直接画一张白底黑字的图，或者描述文字内容、行信息、大小位置布局，用工具生成白底黑字参考图，再和 prompt 一起去生成相应的带图的文字。

效果：文字能较准确生成，但没有控制字体样式和文本颜色的能力，泛化性会比较差。布局和位置需要额外输入，产品化实用性低一些。

疑问：controlNet 23年2月出现，为什么11月才有人用于改进图片文字渲染，ControlNet作者自己不试试呢？

还有一篇更直接的，直接用 ControlNet 的边缘轮廓做文字生成，也不用自己训练，做了个评测：《Typographic Text Generation with Off-the-Shelf Diffusion Model》

TextDiffuser

TextDiffuser 是23年10月的论文，跟上面 ControlNet 的思路有差异：

不用准备参考图，用一个模型从 prompt 中推断文字布局。
直接在生图扩散模型中训练，非 ControlNet 插件的形式。

流程：

布局生成：先根据 prompt 生成逐个字母的文字形状 mask 图。用一个 transformer 模型（非LLM）理解输入的语义，识别出图上要画哪些文字，这些文字在画布上应该是在哪个位置，获得每一个字符在画布上的box位置，再用字体渲染库（如pillow）把这些文字渲染上去，生成这些字符的遮罩表示(Mask)。
图像生成：将上一步得到的字符遮罩输入扩散模型，参与引导扩散过程，使图片能在遮罩对应的位置生成对应的字符形状。

训练：

数据：作者从各处收集了1000万张带有文字的图像-文本对，称为MARIO-10M，主要来源是开源的LAION-400M，从中筛选带文字的高质量的图，也对数据进行了处理，包括文本检测识别、字符级的位置数据、原有的图片描述文字等。
布局阶段：会使用这个数据集去做训练上面提到的 transformer 模型，输入是图片描述文字，输出是每个字符的 mask 遮罩。在数据集中，每张图片的描述、以及每张图片经过 OCR 识别处理后字符的遮罩位置都有，模型就能学习到对不同的图片描述，对应的最终的文本位置和形状应该是怎样的。
图片生成阶段：这个数据集也会在扩散模型的基础上去做进一步训练，在这过程中 U-Net 的参数是冻结的，猜测是避免核心生图能力被破坏？训练过程中只会修改扩散模型 U-Net 以外的其他模块参数，整个网络还是能学习拟合到数据集里图片描述(prompt) + 字符遮罩数据 → 带文字图片这里的对应关系。

这整个过程，就是为生图增加信息量，布局阶段渲染的每个字符的 mask 是很大的信息量来源，引导图片扩散方向不飘。

效果：

相对未针对性训练的生图模型，能生成合理清晰的文字，在给定图像补充文字上效果也不错，也能做到控制文本颜色了，但字体多样性差一些。

TextDiffuser2

TextDiffuser 有个问题，它第一阶段产生的文字 mask 是用单一字体渲染的结果，用这个 mask 引导生图，结果是生成的结果字形的多样性比较差，生成的文字倾向于规整，手写或艺术字很难出现，GlyphControl也有同样的问题。另外 TextDiffuser 布局转换器对用户输入 prompt 的理解能力也有限。

TextDiffuser2 差异在于：

布局模型用大语言模型去替换。LLM 能表现出比较强的语义理解布局规划能力，用一个 LLM 去理解 prompt 转化为对应的布局格式，效果会更好。
生图阶段，对扩散模型中的语言模型(clip)和 U-Net 都做了训练。

训练

布局模型：

使用 LLM vicuna-7b-v1.5 模型进行微调，训练用的还是前面的 MARIO-10M 数据集，拿这个数据集每张图对应的描述文字作为输入，用 OCR 把每张图片的内容和位置信息提取出来作为预期输出做训练。
这里自定义了布局的格式，一个关键词以一组坐标和字母组成，比如 [x25][y89][x108][y96][W][I][L][D]，两个坐标表示方块左上右下两个点。每个字符单独标记，会比去做BPE分词标记效果好。
LLM在学习了大量文字对应图片的构图后，可以从语义推理这些文字的构图应该是怎样的，同时 LLM 自身也能很好理解哪些词是关键字，哪些词应该在同一行。比如上图的旷野之息邮票 a stamp of Breath of the Wild，LLM 可以学到图上的文本应该是 Breath of the Wild，而对于邮票比较好的布局是上下两行，有个关键字 Wild 突出，得出相应的布局数据。
根据论文描述，5000个数据量的训练效果是最好的，可能数据多了反而过拟合效果不好。

生图模型：

直接在扩散模型中训练，图上的 M2 是扩散模型里的 clip 文本模型，布局内容和文本 prompt 会一起输入，U-Net 也参与了训练，继续在用 MARIO-10M 数据集做训练。为什么这种方式训练效果好，文中没怎么提到。

效果

TextDiffuser2 的多样性会好一些，字体形态多样。

总结

还有一些其他方案，例如 GlyphDraw、AnyText等，大原理差不多，不展开多说了。最后，用 notion AI 总结下本篇文章：

AI 图片生成文字主要有以下几种方案：

GlyphControl：通过白底黑字的参考图来控制生成文字的位置和内容，实现简单但泛化性较差。
TextDiffuser：采用两阶段方案 – 先用 transformer 模型生成文字布局 mask，再用扩散模型生成最终图像。但生成的字体样式比较单一。
TextDiffuser2：改进了 TextDiffuser，用大语言模型替代布局生成，并对扩散模型进行更全面的训练，使生成的文字样式更加丰富多样。

这些方案的核心思路都是：

准备大量包含文字的图片数据集（如广告、海报等）
设计两阶段架构：先生成文字布局，再生成最终图像
通过不同的技术手段（如 ControlNet、LLM等）来提升生成效果

目前 TextDiffuser2 的效果最好，既保证了文字的准确性，又能生成多样化的字体样式。Recraft 借鉴了 TextDiffuser2 和 GlyphControl。

谁在用 AI 图片生成

bang's blog

作者 bang

2024年9月23日 11:58

AIGC 图片生成的技术，基本是22年开始爆发，Midjourney 2022年7月推出，Stable Diffusion 2022年8月推出，至今两年发展迅速，已经广泛在很多场景应用，但这个市场上是谁在用图片生成，用来做什么，一直以来在我认知里都有些模糊，这篇文章做下相关调研。

线上线下所有用到图片的地方，都有 AI 图片生成的应用空间，而 AI 图片生成的能力，也会创造出新的领域和行业，就目前能看到的已经在应用的场景，归归类可以分为：生产力工具、大众娱乐、探索创作。

ToB：生产力工具

把 AI 图片生成能力作为实际工作中的生产力工具，用在各领域的内容生产，替换原来的工作流，效率有量级上的提升，同时也有因为 AI 图生成带来的新的领域，例如自媒体。

这里的用户大部分是设计师，全球设计师 9000w，包含建筑设计、室内设计、工业设计、服装设计、产品设计、平面设计等，Adobe 付费订阅人数2650w（2022年），是非常大的市场。

电商

电商有大量的市场，为了展示、介绍、美化不同种类的商品，对图片有巨大的诉求，是AI图片（以及视频）最好的应用场景。

模特图：模特换衣、模特生成、在线试衣，专门服务服饰品类的工具，全球电商服饰品类市场规模六千亿美元，这让它对应的工具需求也足够大，能搜到的有几十家公司专门在做，例如Botika、VModel.AI、摹小仙、千面AI模特、ZMO.ai、linkfox，美图秀秀/醒图等也有相关工具。入门门槛低，但效果的调优是wu’zhi’jing的，不同角度/动作/不同衣服穿上后的自然度等都需要不断调优。

换模特换衣
商品图：上传商品图，AI 可以帮你生成商品在不同环境下的宣传图，免去摆拍。相对于直接抠图→套模板，AI生成质量高，可定制程度也高，可以创造符合商品的各种背景，商品能更好融入对应背景、环境的光线阴影、颜色、高保真，这里的效果调优也是无止尽。同样有非常多公司在做，photoecom、灵动AI 、PicCopilot。综合性的图片工具大多也会加入这个功能，比如 photoroom。

灵动AI photoroom
其他长尾：电商很庞大，除了上述两个类，整个上下游各个品类还有不少细小长尾的 AI 图片生成需求，例如 T恤定制、衣服花纹生成、款式生成、站外营销图等。
从发展趋势看，电商平台如果自身有余力，都会去做这样的工具，嵌入到自己平台内，整个工作流更顺，像淘宝千牛自己就做了。但竞争是无止境的，所有商家都用平台提供的工具，质量品质同质化后，就会有个性化或追求更好效果的诉求，外部工具一直会有机会。

素材

素材应该是需求第二大的领域，活动图、海报、封面插图(文章/播客/杂志)、PPT，日常工作很多场景会用到，以前是搜图片找素材拼接，但如果是商用场景，一不小心有侵权的风险，素材是需要付费的，AI 图生成目前没有这个问题，而中国的版权图片市场规模在2020年是34亿，在高速复合增长。素材生成的诉求很泛，不太依赖可控生成，应该大部分都用图生成质量最好的 Midjourney，海报生成因为涉及文字，ideogram.ai 有较大的优势。


ideogram海报	营销素材	壁纸

自媒体

AI 图片生成的能力会被一些自媒体创作者用于创作有趣的内容，带来流量，进而接商单。例如影视/动漫 IP 二创、自制IP形象（宠物打工、宠物时装秀等）、扩图玩梗、表情包等，会不断有各种有趣的玩法持续出现。


高质量图	扩图，玩梗	玩法	影视IP二创	自制IP

其他

游戏设计：首当其冲是游戏原画，AI 图片生成出来的质量，跟外包原画师已经没有太大差异，或者质量更好，去年就传出游戏公司大规模砍原画外包的新闻。同时游戏内容本身需要大量的角色、场景设计，对于质量要求不高的 2D 游戏，AI图生成已经可以很好满足需求。

角色生成游戏原画
建筑设计：借助 SD ControlNet 的能力，很容易做到建筑线稿设计图转绘为效果图，渲染不同风格，也不需要有多少微调的工作，各工作室自己可以部署。对于建筑灵感，直接用 Midjourney 看起来也是足够。

概念设计线稿转绘
漫画/绘本故事：核心是模型角色保持的能力。儿童绘本故事门槛很低，网上也有大量应用的教程，大众对质量的要求也没那么高，这是 AI 图生成目前擅长的。漫画门槛高一些，核心是故事、分镜的质量，生图所占的比例其实不高，所以如果用 AI 大规模生产，质量堪忧，但也有一些精品，比如这个。针对漫画有一些独立的产品和模型，例如dashtoon、Comic Factory、comicsmaker、llamagen等。

武侠漫画 Comic Factory
动画/短剧：同样借助角色保持能力，生成图片后转成视频形式去消费，这也是后续内容制作的趋势。目前还没看到大规模成熟的应用，短剧类 midreal 相对小众，月活几万的级别。小说转动画视频有不少产品在尝试剪映的故事成片、极虎漫剪、漫剪猫等，规模比较小，但作为生产力工具，付费率是挺高的，做出来的内容有一定消费价值。

ToC：大众娱乐

图片特效

大众用户日常社交对图片是刚需，AI 图片生成在这个领域的应用是最广泛和成熟的，跑出很多爆款产品，Top 的是 Remini（23年MAU 8000w+，收入6643万美元），其他也有非常多产品冒出，AIMirror/FaceAPP/Lensa/Prisma等。

这个领域不断会有爆品出现，理论上不会一家独大，每个产品都有机会，逻辑是：出效果爆款→社交媒体传播全网引爆→大量用户使用&付费→热点几周后消退，用户少量留存，大量流失→找下一个爆款→找到进入下一个循环，找不到产品逐渐消亡。典型的持续活下来的产品是Remini，消亡的是妙鸭。

具体应用上，姑且分为 AI 写真和特效。

AI写真：人像 P 图是刚需，AI写真算是这个刚需的分支，火过很多产品，国内的妙鸭，海外Remini，还有一大波专门做这块的垂类产品 PhotoAI、星绘等。妙鸭虽然火一波以后销声匿迹，但这个需求是长期可持续的，photoAI 是独立开发者的产品，月流水已经到17万美元。主要用于各社交软件头像、linkedin商务照等。
特效：比如风格化的黏土风格、盲盒公仔、迪斯尼风等，还有其他例如换发型、换性别、变老变年轻、扩图等特效。


Remini 众多特效	星绘 AI 写真	ailabtools 换性别、年龄

新场景

另一类 ToC 的应用，是把 AI 图片生成能力作为全新产品的一部分嵌入，跟产品形态有较强的绑定。

陪伴类产品：纯 LLM 文字陪伴发展下去肯定是结合图片生成/视频生成，让人更沉浸式，可以衍生抽卡、剧情图、虚拟女友形象等。产品非常多，MiniMax 的星野/Talkie、candy.ai、dreamgf.ai 等，AI 陪伴还在爆发增长期，AI 生图在这个领域有很大应用空间。
教育类产品：DoDoboo 将儿童涂鸦实时转为绘画作品，激发儿童创造力。是一个尝试性的应用场景，没有很成功，但 AI 教育是万亿级别市场，儿童教育领域本身注重创造力想象力的培养，AI 图片生成就是想象力的呈现，是有机会创造或融入更多教育产品。
NSFW：成人产品，比较特殊，市场自然是巨大的，待分析。


Talkie	DoDoboo

探索创作

除了上述 ToB 和 ToC 两类非常明确的应用场景外，AI图生成还衍生出另一波探索型用户。他们不是为工作，无商业目的，单纯喜欢玩 AI 创作，他们可能不会画画，AI 让他们可以不需要学习绘画技能，就能创作出好的作品，这对有创作欲的人有很强的吸引力。

Midjourney 付费用户中，只有 32% 的用户目的是工作或实际需求，68%的用户是为了娱乐。一方面因为 Midjourney 可控性不足，导致很难在真实生产环境使用，较少覆盖上述 ToB/ToC 的那部分用户，另一方面也能看出，纯粹探索 AI 玩图片生成的人群规模也不小，24 年 Q2 Midjourney 月活 600万+，24 年预计收入预计超过 3 亿美元。


Midjourney	Midjourney	thehybridportraits 高端定制

图片生成技术，跟摄影技术有点像：

没有摄影时，只能通过超高的绘画技术记录现实画面，门槛很高，摄影技术让人人拥有记录现实的能力，只需要按个按钮。
而没有图片生成技术时，也只能通过绘画技术记录和创作现实没有的画面，把心中想象的创意具象化，图片生成技术让人人拥有创作的能力，只需要输入文字。
除此以外，还有一些相似点：
1. 人人能用，但专业才能用得好：AIGC跟相机一样只是技术，日常拍照人人能拍，要拍出好的照片，不是人人能做到，即使摄影看起来只是按下快门，调下参数。图片生成随便输入 prompt 人人能创作图片，但要创作出好的作品，也不会是人人都能做到，即使看起来只需要输入文字。
2. 大众需要，商业也需要：摄影可以记录生活，这是大众需要的，也可以杂质配图、做商业广告等，这是商业需要的。图片生成也一样。
3. 新的艺术形式：摄影单独是一种艺术形式，相信 AI 图片生成也会带来独有的新的艺术形式，只是目前还未成型，摄影从诞生到成为一种艺术形式，也花了60年。跟画画与摄影不同的是，AI 图片生成创作，是有双向交互的，它不是定死的画笔或相机，创作过程中，AI 创作出来的内容会牵引下一步创作动作，不是一步到位，也不是忠实呈现自己脑里所想、呈现现实世界已有的东西，AI 不仅是工具，作品是人与 AI 的共创，有可能是新的艺术形式。

但跟摄影不同的是，图片生成技术，也许无法像拍照一样普及率那么高，摄像头记录美好生活是高频刚需，但创作不是，纯 AI 创作最终还是属于少部分创作者，就像能称为摄影师的只是少部分人。AI 技术进步是赋予了不会画画但有创意的一波人更强的能力，就像抖音最终赋予的也是少部分创作者展示他们才华的能力一样。

创作无法普及到大众，但创作出来的内容是能普及的，内容消费是大众刚需，至于这波创作者能否创作出跟摄像头相媲美的另一个维度的内容，支撑起一个 AI 内容消费社区，有待探索。

最后

生产工具、大众娱乐、探索创作，这三类图片生成的应用，差距还是比较大的。

生产工具，需要深入到场景做微调，不断优化效果、深入工作流。
大众娱乐，需要的是制造爆款的能力。
探索创作，需要有最好的基础模型能力，以及做好社区运营。

目前看起来没有一个产品能大面积覆盖这几个场景，未来会不会有？只要团队能满足这些条件，能造出一个超级应用满足所有图生成的诉求，大众认知上是没问题的，像上个时代的 Photoshop。

什么是多模态大模型

bang's blog

作者 bang

2024年8月20日 11:31

是什么

在机器学习领域，”模态”被用来描述不同类型的数据形式，如文本、图像、视频、音频等。
最开始以 ChatGPT 为代表的大语言模型，都是只支持文本这个单一模态。
可以同时处理文本、图像、音频等多种形式的数据输入输出的大模型，就是多模态大模型。

特点：端到端

一个模型能同时理解和处理多种模态的数据输入。

非端到端的例子：
1. 在 ChatGPT 上，可以调用 DALL-E 生成图片，但实际流程是 prompt → GPT4模型 → 生成细节提示词 →DALL-E模型 → 生成高质量细节图像，只是一个能力串联，并不是一个多模态大模型。
2. 在豆包或其他一些LLM APP上，支持语音输入→文字和语音输出，实际流程是语音→ASR模型转文字→LLM→文字→tts模型转语音，并不是端到端语音→LLM→语音。
端到端的例子：
1. GPT4o 的实时语音对话，流程是语音→ GPT4o模型→语音。延迟低、语气/音色/停顿/语义都能综合理解到。
2. claude3.5 支持按要求识别图片，流程是图片+prompt → claude模型→文本。能很好结合 prompt 按要求输出对图片的识别。
端到端的好处：
1. 模型能直接从原始的数据中学习不同模态之间的关联和映射关系，发现隐藏在数据中的复杂跨模态模式，可以 scale up 达到涌现，没有中间折损，可以做到低延时。

原理：基于大语言模型

多模态大模型以大语言模型为基础模型，复用已预训练好的模型理解能力，在上面增加其他模态的能力，对齐多个模态的特征让原大语言模型能理解。GPT4o 就是在 GPT4 基础上增加音频/图片的特征能力，它在文本上的理解能力还是跟 GPT4 差不多。
模型通用的基本构造(参考这篇文章)：
1. 编码模块，将图片/视频/音频等模态编码为特征 token，一般还伴随一些压缩的处理。
2. 投影层(Projector)，让不同模态的特征 token 语义对齐，这是模型重点要训练的部分。
3. LLM，多个模态的特征都在基础 LLM 大模型上做处理理解，通常 LLM 本身也要在新的模态训练过程中做相应微调，适配新的模态。
4. 若支持多模态输出，也同样有模态对应的投影层和解码层。

当前模型能力

把多模态大模型能力拆分成输入理解、输出生成的话：

当前主要在发展输入理解部分，较多大模型支持了图片理解、视频理解能力。
输出生成上，主流的还是各模态各自在发展阶段，如图片生成模型、视频生成模型、音乐生成模型，都是独立单任务模型。GPT4o、gemini 支持了音频的端到端理解和生成，其他大模型基本还只支持文本生成。
有一些新的模型在尝试大统一，输入输出都支持文本、图片、音频、视频多种模态，如腾讯刚出的 VITA、AnyGPT、Unified-IO，都处于起步阶段，看起来综合效果还没很好。

图片理解

通往多模态的第一步，基本都是在LLM上加入图像识别能力，已成为目前大模型标配，这是最自然最广泛的需求，难度也不高。

现状：大部分模型文心一言，豆包，GPT4o，claude、Gemini 等都支持，开源的 Qwen-VL、LLaVA、Yi-VL、MiniCPM-V 等也非常多。

能力：大模型加持的图像识别，各项能力都能胜任，包括OCR、图片物体理解、逻辑理解、文档图表理解、隐喻理解等。

效果：能力比较全面，但也相对平庸，相对垂直领域专门优化的图片识别模型，效果有差距。例如各大模型在OCR能力上的评测，相对最好的OCR垂直模型有差距，更垂直的像植物识别这种，跟PictureThis 这类专门优化过的差距会更大。对图片理解上，结合大模型能力效果会比较好（评测）。图片识别评测维度非常多，有各种维度的评测标准，从个人实际观感上综合识别效果最好的是claude 3.5。

原理

以 Yi-VL 为例，其他模型差不太多，都是在 LLM 基础上增加图像编码处理然后端到端训练：

图中的Large Language Model是基础模型，Yi-34B-Chat或Yi-6B-Chat。
Vision Transformer（ViT）模块用于图像编码，用CLIP模型。
Projection 模块处理图像特征，训练后的这一层让图像特征跟文本特征空间对齐，包含 layer normalizations 和 Multilayer Perceptron（MLP）。
火焰标志表示训练，雪花标志标识冻结不训练。训练分了3步，用了不同的图片-文本数据对，最后一步 LLM 也参与训练了。
LLaVA/MiniCPM-V也是类似的结构和训练过程，训练最后一步都会微调到LLM基模参数。

应用

图片搜索、语义搜索、物体识别、人脸识别这些垂类小模型已经能做好。
给图片配诗、给图片配音、拍照搜题+解题、阅卷、验证图识别等，这些用结合LLM的大模型，门槛会降低，效果也会有优化。
截屏识别自动化，试卷阅卷，这种场景结合 LLM 才能做好

视频理解

现状：部分主流大模型支持通过把视频抽帧为一系列静态图进入模型分析，本质上是图片理解能力，能做到一定程度的内容理解，GPT4o 基本是这样，一些支持图片识别的大模型稍加调整也能支持这种方式。少部分模型能识别视频和对应的音频，如Gemini、阿里开源的 VideoLLaMA2。有比较多的开源模型在做各种方式的尝试，更好识别视频帧之间的时间逻辑关系、跟音频/文字模态做更好的整合理解。

效果：有个项目 Video-MME 专门分析各大模型视频识别理解能力，测了多个模型在各种理解任务上的表现，包括时间/空间关系的感知和逻辑推理、文字/物体感知、信息总结等，视频类型包括电影、体育、vlog等，能结合整个视频里的信息做理解。各模型在2分钟以内的短视频上理解能力已经不错，中长视频会差比较多，Gemini、GPT4o和效果最好的，开源的模型差距还比较大。

原理

视频理解的主流方法是使用图像编码器从视频中提取帧，对其进行编码，然后用压缩模块压缩视频编码信息，再将其输入到 LLM 中，与文本输入进行联合理解。

也有很多模型在尝试各种方案，如智谱 CogVLM2 加入时间定位、时间戳的数据，让模型能感知视频对应时间。有些模型尝试改造 LLM，不让视觉特征与文本混合，在 LLM 内部增加独立的 transformer 模块处理，如 mPLUG-Owl3。

以 VideoLLaMA2 为例看下大致原理，综合支持了视频和音频输入，视频和音频分别编码：

视频按帧编码为特征，经过STC Connector 处理，Spatial Convolution 处理视频帧特征，提取空间信息，Spatial – Temporal Downsampling 降低视频数据维度，再经过投影层与其他模态特征对齐，一起进入大模型。音频也是一样的流程。
训练分成多个步骤，视频、音频分别单独训练，最后再联合视频音频一起训练，每个步骤有对应的数据集，看起来只有最后一步联合训练，LLM基模的参数才会参与训练。

（题外话，名字叫 VideoLLaMA2，实际上跟Llama没关系，LLM基模用的是Mistral）

应用

基于类似的原理，可以自行训练在垂类表现更好的视频模型，例如：

视频配文案
视频内容总结、解读
视频内容搜索（以自然语言搜索长视频特定内容出现位置）
影视解读（影视时长过长，当前大模型 context 能力还不具备）

音频理解&输出

能力：GPT4o 和 Gemini 都支持了音频理解和输出，能很好理解音频里的语气、语调、节奏、风格等信息，细微的喘息、叹气声都能很好识别和生成，实时性也能做到很高。

原理

目前 GPT4o 和 gemini 相关公开的具体实现细节较少，最基本的原理跟上述应该差不多，语音编码为token→投影层对齐其他模态→输出预测语音token→解码为语音。可以看看 AnyGPT 的实现：

应用

最主要的应用是拟人真实程度高的实时语音对话，从GPT4o的演示看，这点对体验影响很大，即使智能能力进步不大，真实性和实时带来的 AGI 感受也是很强。

语音转录、会议记录总结等，虽然已经有很多 ASR 模型能做到转文字，但整个音频的内容、多人对话、语气情绪都能输入大模型，结合大模型理解能力，预计能做到更好的效果。

其他

端到端生成图片 Gemini 号称支持，但没找到相应资料，视频生成单模型都还在摸索，结合 LLM 还早。多模态大模型整体处于发展阶段，各模态的理解和生成还没到很高的水平，整体进展没预期快，但以当前的能力，针对垂直场景做一些训练，是能够较低门槛做出一些之前做不到或做不好的应用了，例如视频配旁白。

视频生成模型调研 – 人像视频/基础模型/可控编辑/DiT

bang's blog

作者 bang

2024年7月21日 23:34

经常看见有一些视频生成的模型出来，类型还不太一样，简单学习和调研下这个领域和相关技术的情况。在我所看到的有限的范围里，可以把近期出现的视频生成能力分成两类：

一类是专门精细化控制人物表情动作的模型，驱动一张人像照片动起来。这类模型存在已久，老技术也能实现，近期不断有新模型出现，效果也越来越好，业界好像没针对这一类命个名，姑且叫它人像视频。
另一类是通用的视频生成基础模型，包括基于扩散模型的，以及 sora 出现后的 DiT 架构模型。另外跟 Stable Diffusion 图片生成的生态类似，也会有一些为视频生成基础模型配套的可控编辑扩展模型。

人像视频

先来看看人像视频，常见有两类：

表情控制：输入人物表情视频，让图片的人脸跟着做同样的表情。变种是输入音频，让图片人脸跟着音频的口型动，talking photo。
姿态控制：输入人物动作的视频，让图片的人跟着视频的动作动。火过的 case 是通义千问的全民舞王科目三。


表情控制(Vimi)	姿态控制(Animate Anyone)

这里的技术都不是这波大模型后才有的，上个时代已经有很多做得不错，上一波爆火的蚂蚁呀嘿已经是 2021 年的事了，相关论文也是 2019 年就有了：《First Order Motion Model for Image Animation》。后面不断有新的方案，包括基于和不基于扩散模型的方案。下面列几个近期出现，看起来还行的方案。

表情控制

基于扩散模型

基于扩散模型的方案，大体思路看起来是在原网络插入 pose/人脸点位控制，跟 ControlNet 原理差不多，扩散模型本身除了 SD Unet 那套外，基本都会加入视频生成常见的 spatial-attention 和 temporal-attention。

AniPortrait(华为)：24年3月发布。支持从语音生成对应每一帧的口型和人脸位置图，再基于 SD1.5 扩散模型 + motion module 从参考图生成视频结果。开源可用。
megActor(旷世科技)：24年5月发布。没有把视频解析成中间关键点去驱动图片，而是原视频画面直接驱动，以预期得到更生动的效果，2个UNet网络，推理成本看起来会高一些，效果稳定性一般。只支持视频面部特征，不支持音频对口型，开源可用。
EchoMimic(蚂蚁)：24年7月发布。同时使用音频和面部特征进行训练，可单独用音频生成，也可以结合输入视频的面部特征生成，结果更自然，开源可用，comfyUI module可用。

还有几个不开源的：微软的VASA-1，阿里的EMO，都是语音对口型，朝着数字人方向做的。

非扩散模型

非扩散模型的方案，看起来基本也是先把人脸节点生成完，再用其他的网络结构去应用到图上生成视频。

LivePortrait(快手)：24年7月刚出的模型，模型很小，主干网络是 ConvNeXt-V2-Tiny，28M参数量，各部分加起来就500M，号称速度很快，单帧推理时间在 RTX 4090 GPU 是 12.8ms，都能稳定实时输出 60 帧视频了，很适合端上部署，这也是非扩散模型的优势，还有个特点是能快速精确控制眼睛和嘴巴的开闭程度，动画稳定。comfyUI module 也有了。

VividTalk(阿里)：跟 AniPortrait 有点像，同样是训练音频→表情嘴型关键点，音频→头部运动关键点，再经与图片一起进入另一个网络生成最终视频，只是这网络不是基于扩散模型。未开源，真实效果未知。

姿态控制

AnimateAnyone(阿里)，23年底发布。效果比较稳定，官方没开源，但摩尔线程基于论文做了开源实现 Moore-AnimateAnyone ，后续腾讯 MusePose 基于这个开源实现继续优化和封装，comfyUI可用。

magic-animate(字节)，23年底发布。Pose 序列不是 OpenPose 人体骨骼，而是丰富的整个人的动作 densePose，视频转 densePose 还比较麻烦，densePose 序列用 ControlNet 的方式去做生成的控制，另外有一个网络去编码人物形象做IP保持。试用下来，参考图跟 pose 的形象姿态差异大的场景也能支持，比如让蒙娜丽莎跳舞，但这种场景下效果不太好，人脸基本不保持，只保持了人物衣着的IP形象。已开源。

还有其他很多，MimicMotion，MuseV，Follow Your Pose，DreaMoving 等，大同小异。

视频生成

视频生成模型业界除了最出名的 runway、pika、sora，也陆续有不少开源的方案出来，当前已有的开源方案基本都是基于 Latent Diffusion Model，核心是 UNet 降噪网络，基于这种网络还有不少做视频可控编辑扩展模型，DiT 架构还在路上。

基础模型

I2VGen-XL(阿里)，23年11月发布。比较常规，基于 3D-UNet 扩散模型生成，分成基础生成和高清细化两个阶段，细化阶段不是单纯提高分辨率，会改善时间连续性、引入文本输入控制内容。开源可用。
SVD(Stable Video Diffusion)，23年12月发布。模型结构复用 Video LDM，主要是在 U-Net 和 VAE 解码器中分别加入时序层（temporal attention layer），SVD 论文本身在讲模型怎么训练的，包括高质量视频的微调。
PixelDance(字节)，23年11月发布。特点是首尾帧机制，首帧图作为强引导，与噪点图拼接一起作为输入，严格遵守首帧图，同时尾帧图作为弱引导，训练中会随机抛弃尾帧，推理降噪过程中在步数大于τ值时也会抛弃尾帧，避免完全对齐，让生成的结果有多样性。在 DiT 架构的模型出现之前，效果基本是最好的，生成的视频运动幅度大，稳定性不错。未开源。
ConsistI2V(零一万物) ，24年2月发布。跟 PixelDance 有点像，也是首帧与噪点图拼接一起作为输入（类似 SD 的垫图），同时会把首帧也作为降噪过程条件作用在 spatial-attention 和 temporal-attention 上，较大地强调首帧图片的重要性，这样生成的视频不容易崩，一致性比较好。已开源，可在线试用。

可控编辑

视频生成的可控编辑是指通过各种方式控制视频生成方向，例如运动方向、内容替换、风格迁移等，原理上跟图片生成的 ControlNet / IPAdatper 等机制差不多，基于上述视频生成基础模型，训练扩展模型插入原网络，控制生成方向。

图生视频控制

大部分视频生成是图生视频，在图片上圈选运动范围和运动轨迹是很自然的诉求，一代目 Runway 上的 Motion Brush 就是做这个，基本应该应该是后续正经视频生成模型的标配，也有开源模型基于 SVD 等基模做了这个能力。

mofa-video(腾讯)，24年7月发布，基于 SVD。可以训练多种 adapter，控制图片生成，包括手势控制、人脸关键点控制、姿势关键点等，每种控制 adapter 独立训练，可以独立使用或组合使用，比较灵活通用。开源可用。

视频内容编辑/风格化

这一类指 Video to Video，修改原视频上的元素，替换衣服、人物等，部分也包含了视频风格迁移能力。

ReVideo(腾讯)，24年7月发布，基于SVD。通过修改第一帧和绘制轨迹线，对视频中特定区域内容和运动进行定制化编辑。使用分阶段训练的策略，简单理解为，A阶段重点训练运动轨迹，B阶段重点训练内容替换，再进行结合。开源可用。
I2VEdit(商汤)，基于SVD，利用成熟的图像工具编辑第一帧，再将第一帧的修改应用到整个视频，实现局部替换和风格化。
AnyV2V(华为)：比较通用的视频编辑框架，可以灵活用于多个视频生成模型，包括I2VGen-XL、ConsistI2V、SEINE，同样是先通过各种方式改造编辑视频首帧，再插入视频生成模型，将风格和替换内容扩展到整个视频，实现视频编辑能力。通用于多个模型的原理，简单理解是提取了空间注意力/时间注意力特征注入了原生成模型的 spatical-attention/temporal-attention 模块，理论上差不多架构的模型都能通用。可试用。
animatediff：animatediff 比较特殊，不是基于 SVD，而是基于图生成 Stable Diffusion，在上面训练加上运动模块 Motion Module，学习了视频片段的运动知识，支持视频生成。很早发布，在 SD 生态配合 IPAdapter / ControlNet 等各种扩展和 LoRA 模型一起使用，组合出很多有趣的应用，看到的大部分视频风格转动漫风基本是基于这个方案。

DiT

DiT(Diffusion Transformer) 是视频生成基础模型的一个算法架构，应该放在基础模型部分的，但它太新了，想单独抽出来细看一下。

上面大部分模型，包括可控性的扩展模型，核心底层都是基于经典的 UNet 架构，但 Sora 出来后，业界公认 DiT 架构才是未来，毕竟效果太碾压了，最近可灵 / Luma 的出现也印证了这点。架构范式转移到 DiT 后，原先在 UNet 上做的各种可控雕花，看起来基本上是没法迁移到 DiT 架构的，一切得重来。

DiT 架构开源的只见到去年11月 sora 出来之前的 Latte，研究性比较多，效果一般。其他靠谱的开源模型还没见到，毕竟 Sora 还没见影，可灵和 luma 也刚出。（DiT架构的图片生成就有一些，比如腾讯混元）

DiT的架构图，与 LLM 的架构同源，核心是 transformer 模块，跟基于 UNet 的模型都不一样，我们尝试来看看在这个架构下视频生成的推理过程：

初始化一个噪声视频。
视频会先转换成潜空间的表示，后续的运算都在潜空间里运算，这点跟 Stable Diffusion 一类的扩展模型一致，视频应该是使用 VQ-VAE 进行编码到潜空间。
视频的表示会被分割成一个个 patch 块，每个 patch 块是一个 token，patch == token。
这些代表整个视频的 patch 块集合，一起进入 DiT Block。这个 DiT Block 就是个类 transformer 模块，与 LLM 一样核心也是多头注意力，在这里会计算每个 token 之间的注意力，加上引导词和步数条件，做相应计算。
按 LLM 模型的套路，这里 N 个 DiT Block 跑完，整个流程跑完，输出会是预测的下一个 token。但我理解这里的输出并不是下一个 token（一个 token 只是一个 patch），而是这里的 patch 合集经过这些 DiT Block 的注意力运算和条件引导，变换成离最终视频更近的一个表示，也就是对这里的噪声视频做了一次降噪。
如果是20次降噪，重复20次这个过程，一个纯噪声视频生成最终清晰的视频。
如果要垫图，首帧图尾帧图，只需要让图片跟输入的纯噪声视频做一些结合就可以。

可以看到跟其他的 UNet 为核心的架构有本质差别，像 ControlNet 各种可控性的研究没法迁移，需要另外找控制路径。从业界在这领域卷的程度看，预期发展还是会非常快，等下一个 DiT 架构的靠谱视频生成模型开源，也应该很快会有人在上面把相关可控能力不断研究补齐了。

感想

这个领域给我感受是模型超多，看不完跟不上，只能先了解个大概，在有具体应用场景时，再根据需求做相应深入的调研。

为什么这么多模型？看起来它训练的资源门槛没那么高（比 LLM 低），有公开训练数据集（WebVid 和 LAION），论文上都会把方法给出，width=甚至模型和代码也开源，各研究者很容易从中吸收学习做改进，再造一个模型，现在也没出现一个效果通用秒杀一切的模型，所以三天两头出个新模型是常态。

DiT 架构后，视频生成和视频编辑这些模型大概率要淘汰，而人像视频可能在较长一段时间内仍有应用空间，如果要做 AI 视频短片，人物表情动作精细控制挺重要，DiT 架构目前还没看到有能做到精细控制的技术，基于 Unet 的通用视频生成模型这么长时间也没法做好这块的可控性，可能一段时间内还得靠原有技术做这里的可控后编辑。

AI 瞎想 – LUI交互/新计算机

bang's blog

作者 bang

2024年6月29日 13:05

LUI 交互

LUI (Language User Interface，自然语言 or 输入框为主的交互) 有几大缺点：

效率低（打字）or 隐私性差（语音）。
说话是填空题（要动脑），GUI 是选择题（可无脑选）。
难以精确表达。

这三点都是成本，如果一些场景想尝试 LUI 代替部分 GUI，需要时刻想好，如果用户得到的体验大于这几点成本，那就是合适的场景，否则不要勉强。

用 LUI 操作使用工具，模型能力（识别/执行能力）得在这个垂直领域靠近 AGI（代指跟人的识别和执行能力一致），或者能在这领域内限定在尽量小的范围内靠近 AGI，否则交互过程中模型不理解/无法执行带来的挫败，加上第一二点的成本，用户得到的体验大概率是负的。

微软copilot 尝试了GUI 为主，LUI为辅的方式。剪映的对话式剪辑尝试了以 LUI 为中心，GUI 为辅或者没有 GUI 的方式。目前看起来都没达到预期。原因自然是模型能力还达不到，识别和执行能力差。

视频剪辑/PPT制作领域都太大，在这个大垂直领域模型要做到 AGI 的程度还太早，也是高估了短期模型能力的进步速度，需要把领域范围限定得更小，在这范围内用户的输入都能很好理解和执行，才可能跑通。

假如模型真达到 AGI 的程度，跟人的能力一样，是否视频剪辑用 LUI 是最好的方式？想象中不一定，工具能力不会是无限的，总有个范围，这个范围 GUI 能清楚地告诉你，LUI 很难，到时可能会有其他演化的交互配合 LUI。

新计算机

最近学习 transformer，看那些向量/矩阵的乘法，有种在学数字电路原理的感觉，要作类比的话，模型就是新的计算机，transformer 像芯片，SFT 像汇编，prompt 像 c 语言，往上 langchain/coze 是高级语言的尝试。原计算机是确定性计算，模型是概率性的模拟人脑的计算机。

但模型并没有遵循摩尔定律，18 个月性能翻一翻，GPU 运算能力确实每年性能都在暴涨，但模型的性能不是计算速度，而是理解能力。GPT-3.5 出来已经 18 个月了，GPT-4 已经 15 个月，模型能力的进步很有限，在这过程最大的变化只是开源模型逐渐追上，以及基于模型上层搭建的应用和生态上，基础模型能力没有大的突破。

我们预期模型性能能持续增强，基础是 Scaling Law，Llama3 训练中的最大参数量模型是4000亿，传闻 GPT4 参数量是1万亿，而人类大脑神经元突触连接有1000万亿（来源Wikipedia，也有说100万亿的），神经网络本身就是模仿大脑的构造，如果做类比有 100-1000 倍的差距，有很大的空间。Scaling Law 目前看还没收敛，能继续往这条路走，只是技术上的承接还没看到规律，无法形成新的摩尔定律，所以大家很期待 GPT-5，它能一定程度上让人判断模型的摩尔定律大概是什么节奏和速度。

图生成和视频生成领域，反而在过去18个月里有非常明显的提升，因为相对 LLM 它还在早期，而图像和视频的特性导致它早期也能有很好的应用。若 LLM 不顺利，图片视频能持续保持这提升速度，更有可能成为这几年的重点。

理解 Stable Diffusion UNet 网络

bang's blog

作者 bang

2024年5月26日 17:09

在前面的学习中，我们把 SD UNet 网络当成黑盒，不太影响对图片生成大致原理的理解，但在继续学 SD 的过程中，发现 ControlNet、T2I-Adapter、IPAdapter 等这些技术，都是在原 SD 网络模型上以各种方式对网络做修改叠加，要理解这些技术，还是得先了解下 SD UNet 网络结构的一些细节，不然看得很费劲。

SD 模型构成

从之前的学习我们知道，Stable Diffusion 模型里包含了三个组件：CLIP、VAE、UNet，这三个组件的参数和大小分布(来源)：

组件	参数个数	文件大小	占比
CLIP	123,060,480	492 MB	12%
VAE	83,653,863	335 MB	8%
UNet	859,520,964	3.44 GB	80%
Total	1,066,235,307	4.27 GB	100%

整个生图的核心网络就是 UNet。UNet 最初是用于医学图像分割任务而提出来的，但它的特性展现了在图像其他领域的应用潜力，后续经过扩散模型的改进，很好应用在了图像生成上，所以 Stable Diffusion 的 UNet 实际上在原 UNet 网络架构上做了一些改造。

基础 UNet 网络

我们先来看看原 UNet 网络架构：

左边输入图片，经过整个网络处理，右边输出同尺寸图片。（原 UNet 网络用于医学图像识别分割，所以图上右边标的输出是一张同尺寸分割图。SD 这里的输出是降噪图）
左边下采样（也可以称为编码器），右边上采样（也可以称为解码器），一张图片经过一层层下采样计算，尺寸逐渐减小（图中的网络是减小到32×32），再经过右边层层上采样，恢复到原尺寸。那这里下采样和上采样的作用是什么？
下采样，是使用某种计算方式让更小的数据表示整张图片，这更小的数据代表了对这张图片高纬度的描述，而不是像素级细致的描述。
1. 越小的数据对图片的表示和描述越宏观，有利于捕捉图片的语义特征。
2. 例如一张猫在屋子前玩耍的地图，原图能看清所有细节，但因为细节太多，模型想要知道图里有猫和屋子，得把每个像素组合运算才行，但下采样到最小，最宏观的猫和屋子就容易识别。
上采样，是让图片的宏观小尺寸表示恢复成原图片尺寸。
1. 比如对于图片分割（把图片上的物体分割出来），我们在下采样后的小数据量的高维表示里识别了图片的主体、边缘，最后还是要转回在原尺寸图片上表示，不然识别了也没用。
2. 那不断下采样过程中肯定把图片细节都丢失了，再上采样，怎么可能还原图片细节？那就要说到跳跃连接（skip connection）了。
跳跃连接，也就是并不是顺着网络的方向连接，而是跳过原网络方向，跳着连接传输信息。说得有点拗口，看图很容易理解，就是图上中间的几条灰色箭头。
1. 原网络连接方向是图片输入→下采样各节点→上采样各节点→输出图片这个链路，就是图中U字型的路径。
2. 在这个路径之外，左边的下采样的每一层，都额外连接到右边上采样对应的层上面，将两个网络进行拼接。
3. 上采样每一层，都在拼接了左边下采样对应层的数据后，再一起作为下一层上采样的输入。
4. 为什么这样做，很容易理解，左边的每一层网络都保留了图片不同程度的细节，右边的每一层因为是上采样过来的，只有宏观信息，没有图片细节，那把左边图片细节信息拼接过去，右边这个网络宏观特征和微观细节都具备了，每一层都有不同程度的对图片的宏观语义理解和微观细节，就能做各种事情了，包括图片分割、语义生成图片。

UNet 网络大致思路是这样，这里面具体的卷积运算和公式，不看应该不影响对整体思路和作用的理解。

Stable Diffusion UNet 结构

最初的 DDPM（去噪扩散概率模型），和后来改良的 LDM（潜在扩散模型），对 UNet 网络逐步做了一些改造，以适合扩散模型图生成的过程，SD 是基于 LDM 实现的。

最后 SD 里的 UNet，整体结构流程跟上述一致，改造大部分是在上采样和下采样的每一层的实现里，最大的改造是引入了 ResnetBlock（残差模块）和 Transformer 模块。ResnetBlock 提升网络表达能力（原 UNet 是简单卷积模块），而 Transformer 模块的交叉注意力机制，将文本提示（prompt）的嵌入与图像特征进行融合，实现基于文本条件的图像生成。

SD UNet 每个模块的组成如图（图片来源）：

左边下采样每层由2个残差模块和2个Transformer模块连接组成，右边上采样是各3个，中间层是2个残差模块和1个Transformer模块。（高维的d4和u1没有接入Transformer模块，原因不明，可能是试过加入后效果不佳，在高维这里加入 Prompt 交叉注意机制，文字权重太大？）

细分模块结构

里面每一块具体的结构这篇文章画得很详细，摘录学习一下。我们拿其中一个下采样模块看看：

两个残差模块，两个Transformer模块。这图表示了 SD 生图的三个输入：input（噪声图）、prompt_embdding（文字 Prompt）、time_embdding（步数）在这几个模块的流转和处理。这里每一个小模块处理完后，输出的可以近似认为都是一个预测的噪声图的数据表示。

残差模块的输入输出噪声图+步数 → 预测噪声图，Transformer 模块的输入输出是噪声图+ Prompt → 预测噪声图。

Transformer 模块

再细看一下 Transformer 模块，Transformer 模块由下图所示好几个部分组成，最主要的是自注意力模块（SelfAttention）和交叉注意力模块（CrossAttention）：

展开看看这两个模块：

自注意力模块，Transformer 结构里的 QKV 输入都是图片特征（上一层的处理结果，就是降噪图的特征），这样做可以让模型获得包含整个输入图像的感受野，捕捉图片特征中不同位置之间的关系，全局感受力是 Transformer 架构的特点。

交叉注意力模块，它的作用是融合不同模态的输入，在这里就是融合噪声图和文本特征，Q的输入是图片特征，KV的输入是文字 prompt_embedding，让图片特征可以关注到文字输入，根据注意力权重调整图片的生成方向。文字 prompt 在整个Transformer模块中只作用在交叉注意力这部分里。

Transformer 的机制原理、QKV的含义，是另一个比较大的话题，可以先看看网上其他相关讲解，比如这篇，后续再细拆深入。

回顾

关键几个模块的组成了解了，再回到整个UNet的构成：

现在通过这些结构图，可以大致看到 UNet 网络里的整体处理流程，以及关键模块的作用，经过这些模块的逐个叠加，组合成一个个采样模块，再组合成 UNet 网络架构，完成整个生图运算。

这里面还有很多需要深入学习的点，当前先了解到这个维度，已经可以帮助大致理解后续 ControlNet 等网络的机制原理。

参考资料

UNet 论文：https://arxiv.org/abs/1505.04597

原版实现及 Diffusers 实现源码解读：https://zhouyifan.net/2024/01/23/20230713-SD3/ （周弈帆的博客，看简介挺有意思的一人）

U-Net简明教程：http://www.bimant.com/blog/unet-crash-tutorial/

Stable Diffusion1.5网络结构-超详细原创：https://blog.csdn.net/xd_wjc/article/details/134441396

Stable-Diffusion模型结构详解：https://zhuanlan.zhihu.com/p/638867353

Unet网络详解：https://blog.csdn.net/qq_58529413/article/details/125704059

Stable Diffusion XL网络结构：https://blog.csdn.net/xd_wjc/article/details/134530784

从零开始学扩散模型：https://huggingface.co/datasets/HuggingFace-CN-community/Diffusion-book-cn

2022

bang's blog

作者 bang

2022年12月31日 19:10

疫情

2022是疫情防控拉胯的一年，各种大规模封控带来的不合逻辑的事情频繁出现，到11月顶峰，太多魔幻的事情，真是挺怕要倒退50年，一个不符合逻辑的社会，还好后面止住了。那段时间在家办公关了一个多月，真是给闷坏了，12月放开后，某天开车出去转转，看到街边恢复生气的样子有点感动，自由而归于正常的感觉。

紧接而来的就是大规模的快速感染，速度确实是快到出乎意料，而zf在这块确实继续在拉胯，核酸全撤，抗原不准以及难抢，导致想尽早自我隔离避免感染家人是很难做到的，撤了所有防控措施，药也储备不足，拉胯，全得靠自己。放开后去深圳出了趟差，一不注意，回来就导致全家中招了。

两三天的反复发烧，最高到40度，头痛欲裂，睡不着非常痛苦，脑子乱七八糟转，感觉在非常高速地运转，各种碎片漂移凑不成一块但又停不下来，夹杂着痛苦，在万花筒的世界中。全身酸软、刺痛、咳嗽加剧、肠胃不舒服、鼻塞，症状确实是很猛，还好布洛芬能帮助扛一下。家人有各不一样的症状，总的来说还好，算平安度过，希望以后不要再得了。

不知道世界接下来能不能恢复正常，传播力这么强的病毒，变种又那么多，持续下去受不了。回看以前出去玩的照片，人堆中没有戴口罩，有种恍如隔世，希望世界能恢复。

股票

还以为去年股市已经是惨案了，没想到今年更拉胯，持续下跌，最低只跌剩最高点的20%，我买的都是中概股，跌的也都是中概，也是跟疫情的操作有关，对中国的信心快被疫情期间的各种操作消磨殆尽了，从奋斗变成躺平，爱怎样怎样，放弃幻想，做好打工人，不想玩了。

教育

俩小孩大娃上学了，小娃上幼儿园，小学还好，没有传说中那么卷，作业不多，我们也是很佛系，前面还有每天晚上陪着做作业看英语绘本，后面也少了。虽然不卷，但像英语没有提前学就容易跟不上，跟不上就容易产生厌学情绪。大娃在学习上算是很乖了，目前还没有血压高涨的经历。小娃幼儿园基本就上了一个多月，后面就因为自己感冒、疫情一直没去，社交能力基本为0，希望下学期能正常。

回看小孩的成长，今年2月希希才掉第一颗牙，转眼间牙掉了七八颗，大牙都长出来了，挺快的。希希年初也还不会玩游戏，下半年跟她一起通关了双人成行，现在也玩得很溜了。

旅游

很想旅游的一年，5月去了下潮州汕头转转，7月去了呼伦贝尔，带着大娃三个人，幸运地没被疫情封控影响，完整地游玩了草原，大片大片的草原，金黄色的油菜花田比草原更美，村庄里看漫天繁星，高空秋千和滑草，麋鹿卡丁车骑马，玩得还算不错，不过就景色来说，还是去年的新疆最美。

8月跟公司团队去成都开会，再去了下川西海螺沟一片，不过时间太短过于仓促，没玩什么，仅到此一游，走非常险的山路到若丁山，很适合野营的一个地方，大片草地配合漂亮的山景，下午在那里度过很舒适惬意，要是晚上能住下看星星就更好了。

期望明年可以出国游，可憋太久了，疫情以后不断把自己缩小在两点一线，封控期间还只剩一个点，整个人感觉非常闭塞，长久下去对身心健康不利，希望能更多出游，对在全国全世界留下脚印这事很感兴趣。

玩乐

当前几乎唯一持久的兴趣就是看看NBA，22赛季一整个赛季勇士库里看下来，最后竟然真的夺冠了，有点梦幻，G4感受到库里强悍的意志力，体育不是体能技巧的比拼，精神力量在当中占的比重很高，才会这么有魅力。同时这一年也见识了威少、杜兰特从各种嘲讽中不受影响一步步走出来的坚韧，球星确实身心都很强大，看别人做到自己做不到的事，敬佩。

科技和互联网变得有些无趣，以前喜欢体验感受各种手机，现在千篇一律，已经玩不出花了，iPhone也没什么惊喜，反而摄像头越来越傻大黑粗，VR彻底凉凉的感觉，互联网产品没什么让人惊艳的新品，也就chatGPT稍微亮眼。倒是今年玩了个让人惊叹的游戏–双人成行，每次玩都在感叹它的创意创造力，不愧是年度最佳游戏，强烈推荐亲子或情侣玩。

及时行乐，成了新的标语，之前工作的比重占太大了，现在各方面都无趣的情况下，不如多让自己玩得开心，旅游、游戏、体育娱乐等，看到同事们也在开拓自己的兴趣找乐子，多玩玩多体验生活，别到老了后悔。

最后

2022年元旦全家感冒咳了两个月，年末全家中新冠又是一波，希望来年都能健康，多体验美好生活。

2020

bang's blog

作者 bang

2020年12月31日 01:02

2020是很特殊的年份，世界发生很多大事，感觉过得很快，又感觉过得很慢，每年都会发生很多不好的事和好的事，看自己更在意和看重哪部分。

工作

今年上半年工作上拿到不错的成绩，年中去晋升答辩，也是一段难忘的经历，前一晚通宵改PPT，大雨的日子，六七点回家还被车栏撞到流血，睡了半个钟匆忙跑去答辩，喝了几瓶红牛咖啡头脑都不是很清醒，顺利讲完回答完问题，然而并没有通过，确实很难。

年末从蚂蚁转岗到lazada，结束三年半蚂蚁的历程，也结束了一年多以来北上广深杭多地跑的处境，今年飞机坐了36次，因为疫情算起来只比去年多几次，但总感觉多了很多，好几次延误凌晨两三点才到家，也经常早上五点出发赶飞机，有点累，对比下现在广深跑简直跟同城没什么区别。刚到新环境，目前状态不错，尽力做好事情，务实解决问题，不着急，就是英语口语这个问题没解决。

蚂蚁上市这历史的一粒尘落头上，作为其中一小员无力影响事情本身，能做是调整心态，做好自己的事，以及相信公司本身的价值。舆论上势头往哪处走，内容就会投其所好地往哪处生产，追涨杀跌是群众普遍行为规律，谁都能上来说两句，看起来讲得头头是道，实际上基本事实都不顾，跟那些养生排毒文章一个性质。巧合的是，2010年11月3日腾讯发表3Q大战“艰难的决定”声明，2020年11月3日，蚂蚁暂缓上市，十年过去。

物质

用心感受一些美好的物质，对提升幸福感很有帮助。

特别喜欢今年的 iPhone 12 pro 的工业设计，用了半个多月每次用还是很有愉悦感，上次有这种感觉的手机是9年前的 iPhone 4s，可能我更偏向喜欢这种规规整整很有秩序感的设计，美轮美奂，爱不释手，全平的屏幕，玻璃跟金属直接衔接感觉很完美，如果摄像头处是平的就更完美了。今年iPhone 买的就是外形工业设计和拍照的提升，5g/A14什么的基本无感，iPhone已经性能过剩，软件没有把提升的性能吃完，就算是三年前的iPhone X用起来速度也是没什么问题。智能手机诞生13年，还没有看到下一代突破的曙光。

今年换了辆车，起初到处试驾一些bba传统车型，感觉跟我的雷凌没什么区别，后面试特斯拉model3，真是有种震撼的感觉，我这个不懂车的理工男太容易被这种产品吸引了，极简（大部分人觉得是粗糙）的内饰，没有一大批乱七八糟的按钮，现代的车机系统，给我第一感受这跟之前试驾的车不是一个时代的东西，冲击比较大，我不知道传统车厂会不会成为诺基亚，但当时确实有类似手机功能机和iPhone 对比的感觉。只是model3这种自己开着爽坐车的人不舒服的体验，不适合我这二胎家庭的需求，所以并没有买model3，而modelX又过于高价，觉得远不值那个价钱，最后买了特别符合我这个实用主义奶爸定位的理想ONE，这车除了外形个人不喜欢，其他表现都很好，车机系统的体验感觉是所有车里最好的，比较满意。

今年开始似乎酒成了我一大爱好，开始品尝各种威士忌，买了各种酒摆柜子上，看着就舒服，有种手办的感觉，喝着也爽，经常小酌。有时不同酒的小差别我也喝不懂，就是喜欢尝，目前喝起来感觉最好的是山崎，就是太贵了。酒吧里的鸡尾酒和氛围也是挚爱，同时我一直想知道酒吧里的冰块哪里有卖，透明无暇实心的冰块可以融化得很慢，自己冻不出来，也没地方买，酒吧的酒就贵在这冰块上了。

家庭

小男孩进入精力旺盛阶段，男孩跟女孩真是天生有巨大差别，大女儿一岁多时经常乖乖坐着玩玩具，小男孩一岁多基本坐不下来，满屋不停乱跑乱爬，举止粗鲁，摔了无数次，破皮流血都好几次，真是累坏人了，茁壮成长中。

大女儿有时特别暖心，有时特别任性，教育的问题长期困扰我们，家里每个人的教育方式理念难达成一致，加上大人自身一些脾气缺陷让孩子学了，经常会闹腾搞得不愉快，不知道怎么教。年末开始听一些育儿类书籍的讲书，正面管教、亲密关系、父母的语言、不吼不叫等等，讲的教育理念其实差不多，就是无条件爱孩子、倾听、说出情绪、正面肯定、理解、保持温柔、不计较、定规则底线、不评价、言传身教、以身作则，我觉得听完是有些作用的，对小孩在努力变得更有耐心容忍度更高一些，有意识实践这些理念，只是小孩性格习惯形成后，并不是一两招一朝一夕就能轻易改变的，任重道远，知行合一不容易，努力做好父亲的角色吧。

今年小孩学钢琴，我也以极其缓慢的速度跟她一起学了，羡慕会弹琴的人，不需要达到多好的水平，只需要有时能玩玩抒发情绪减缓压力，琴棋书画诗词歌赋是抒发和感受情感的介质，少了这些能力，人生会少了一些乐趣。

今年的疫情改变世界，作为普通人被改变的并不是很多，疫情导致年初在老家一家老少十几个人一起待了一个月整，十分难得，这一个月估计我爸妈可开心了，一大家人在一起的感觉多好，几个小朋友也玩得high，离开时小孩哭得很厉害，以后估计很难有这样的机会了。疫情导致全国的感冒大降，因为全年戴口罩，今年我完全没生过病，什么感冒咽喉发炎都没了，口罩的作用很大，只是戴口罩像给人类打了个补丁，只是个临时方案，期望科技能提供更好的方案。

个人

有段时间工作上有些迷失，加上一直多地跑，家庭矛盾等问题，状态很差，那时看脱口秀李雪琴的的专访，说到以前没事桌上的笔掉地上了，都能让自己情绪一下子掉下来，虽然还没那么夸张，但竟然感觉情况特别类似。经过几轮调整后现在好很多，年末这段时间基本恢复正常了。

有时候多看看或听听一些我觉得是“科学式鸡汤”的书对调整心态挺有帮助的，像正念、被讨厌的勇气、活好这些书，短期内可以注入一些理念，时刻提醒关注当下，意识上淡化处理压力带来的负面情绪。幸福快乐是种能力，如果不是天生具有的话，是应该花时间学学的。

另一个缓解方式是多跟不同的人聊天，了解广阔世界不同的生活方式价值观，过去几年好像被困在一个圈子里出不来，视野越来越局限在公司内，内心也狭小起来，一些问题在狭小的圈子/体系/空间里可能是致命焦虑的大问题，但在其他多元的世界里它可能不值一提，前提是脑子里有没有这个世界。

2021 期望能持续年末的状态，找好自己的节奏和方法，做点事情赚点钱实现好自己的价值，多点感受身边美好的事物。

个性化UI在金融场景的探索和应用

bang's blog

作者 bang

2020年8月3日 10:11

背景

随着各业务流量红利逐渐见顶，如何在有限的流量下，提升流量给用户带来的体验，对流量进行精细化运营，进而提升转化效率，成为各业务的重要课题。

蚂蚁数字金融线包含了保险/理财/信用/借贷等业务，经过多年建设，形成了多样的金融资产/场景服务/权益/内容等多维度的产品去服务用户，而这些产品分发给用户时，决定曝转率的大体上以产品推荐是否精准，以及产品以什么样的UI表述方式进行展示决定。在产品推荐上，算法已经逐步覆盖，给业务带来很大的效果提升，在产品推荐算法优化到一定程度后，提升的投入产出比已经有限，我们开始在UI展示上探索，是否个性化智能化的展示能为业务带来提升。

探索

淘宝比较早地做了智能UI的尝试，在推荐出商品后，对于商品的UI展现方式进行千人千面个性化，商品列表有两列/三列/横排的布局方式，商品封面有场景图/白底图/视频等类型，商品本身有标题/描述/评价/销量/属性/标签/活动/价格/快递/地区等一系列字段标签，在列表上无法全部容纳，不同的人对不同的布局密度/封面/字段标签会有不一样的关注度，这里就有了智能化的空间，对这些属性进行自由组合千人千面推荐，取得不错的提升成果。

在数字金融线的业务，是否也可以这样做？数字金融线各业务的“货”并不是统一标准化的商品，主要由金融资产/服务/权益/内容构成。例如财富业务，金融资产(基金/定期等)在购买门槛高的情况下，会通过各种包装降低门槛，包括场景化包装成服务(工资理财/笔笔攒等），配合营销活动包装权益(体验金/财运金/黄金票等)，包装资讯/视频/直播等形式的内容。同时这些包装后的“货”在不同场景有不同的UI展现形式，并不是标准化的，这些“货”也没有多种字段可以直接进行自由组合搭配，如何能做个性化千人千面？

问题

我们可以针对一个个场景设计多个模板样式去匹配不同的人，这也是之前在一些业务上进行过一些尝试的，但有几个问题：

无设计标准：设计什么不同的UI样式才可能有效，没有标准和指导，靠设计师个人经验。
样式生产效能：UI样式需要一定量级进行分人群匹配，设计工作量大。
算法匹配信息不足：算法难以识别不同UI样式间的差别，以人<->样式ID 的方式匹配效果有限。
无沉淀不通用：不同的场景割裂，设计经验/算法经验/工程链路无法复用，无法沉淀用户偏好，各场景实现成本大。

针对这些问题，我们探索了一套相对通用的个性化UI解决方案。

方案

语义标签体系

首先是根据过往数金各场景的设计经验，由设计团队主导抽象出一套UI语义标签体系，去描述一个UI样式里可能吸引用户点击的关键点。

这个标签体系分表现层和内容层两个层面：

表现层去描述UI长什么样，比如它的风格是实物还是扁平的，色彩是鲜艳的还是偏透明的，字体相对大小。
内容层表示这个UI展现有什么内在含义，比如它是突出权益的(红包/抽奖等)，代表从众心理的(xx人正在购买)，代表认知的(黄金图/人物图/降维描述/品牌权威描述)等等。

我们认为不同人对这里列出来的标签是会有不同偏好的，例如年轻持仓少的，可能用扁平图/从众/降维描述相对能打中，老年人可能对权益/实物图形/大按钮比较敏感。

这套标签期望能产生几个作用：

指导设计往什么方向进行差异化设计。
语义化描述UI，作为特征让算法更好地认识UI的外在和内在含义，多场景通用。
后期可以针对线上数据进行归因分析，语义化看出不同用户的UI偏好差异。

工程算法

标签体系的思路把UI的维度拆细了，为不同人原子化设计不同的元素，我们沿着这个思路打造了相应的工程和算法方案：

1.多样式生成

我们将UI原子化打散-自由组合。一个产品可以以各种方式包装后呈现给用户，主要包括描述产品的创意物料（文案/图片/动画），再配合不同的样式和版式（字号/背景/布局排版）组成，这些元素可以进行自由组合，例如一个单图文模块，我们可以参考标签体系设计10个文案，10个图片，2个排版样式，排列组合就可以生成200个UI样式包，作为丰富的可以匹配不同用户的素材。

2.UI偏好模型

我们将组合生成的UI样式包结合UI标签与用户属性进行匹配关联，以CTR为目标训练模型。训练中取三种数据：

用户属性，包括年龄性别等基础属性，以及像持仓情况、投资次数这样的业务属性
每个UI样式包所打的UI标签数据
每个UI样式包在线上随机投放的曝光点击数据

经过特征工程处理，组成训练集去训练出DNN模型，在线上部署使用，输入是用户属性 + (UI样式包对应的)UI标签列表，输出是每个UI包的点击概率排序。

3.工程链路打通

从样式配置，到数据组装，到召回排序，到最后前端渲染，对接各个平台串联整个链路，在各场景实现千人千面UI推荐能力。

落地效果

当前个性化UI在数金多个场景落地，不同场景有不同的提升效果，按流量平均下来CTR（曝光点击率)提升20%左右，同时接入的场景CVR(曝光转化率)也同步提升。

其中流量最大的是支付宝首页财富生活模块，组合了几百种样式进行匹配推荐，CTR的提升在首页大流量的加持下为业务带来很大价值。

CTR提升最大的是理财Tab蓄水版直通车里的黄金和黄金票卡片，一千多种样式，CTR 和CVR可以提升50%左右。在这个版本里卡片在屏幕占比较大，不同元素的展示对用户点击的影响是非常大的，这也是最适合接入个性化UI的场景。

分析

有效性分析

为什么这套方案会有效提升CTR，尝试回答几个常见问题：

1.疲劳度

是不是用户对一成不变的样式有疲劳度，只要有新的样式点击率就会提高？我们在每个场景里上线个性化UI，会分几个桶进行AB效果对比，其中随机桶是对组合生成的几百个样式进行随机投放，比如这是财富生活的实验数据：

可以看到随机投放组合出来的样式效果并不好，并没有因为样式多了就能提升，反而因为组合出来的某些质量相对差的样式影响CTR下降，这在多个场景里都有类似的的情况，可以看到CTR的提升并不是疲劳度新鲜UI带来的。

2.UI外的因素

是否是UI以外的因素影响CTR，例如不同的产品/权益内容？每个展位接入的AB实验里，产品和权益是固定不变的，个性化UI用不同的表述方式（图片/文案/样式/排版）展示同样的产品和权益在同一时间随机人群进行AB对比，没有其他因素干扰。

3.新样式抢眼

是否有几个很吸引眼球的UI拉高了CTR，没什么人群偏好差别？很有可能因为原来的样式不抢眼，我们组合出来的某些样式加红加粗天然吸引用户注意力，实际上我们实践中因为设计规范的约束不会做太抢注意力的设计，同时我们也分析了，不同样式在随机投放和算法投放的差别，例如下图玩转理财场景里，一些样式算法推荐的人群比这个样式随机投放它的点击率提升了几十个百分点，说明不同人对这些样式有明显偏好，算法把这些样式分配给真正偏好的人，带来了点击率提升的收益。

归因分析

我们看到了用户对不同UI表述展示方式有不同偏好，期望能沉淀出具体人群跟UI的偏好关系，给设计师和业务方在新场景设计中提供参考帮助。得益于UI语义标签体系，我们是可以沉淀出UI偏好和画像的。

我们探索尝试了多种方法去做归因分析，包括：

数据统计，直接统计线上不同人群在不同样式的点击率，在图表上找出点击率的差异，沉淀偏好结论。
EBM可解释性模型，解释DNN模型中各特征对最终效果的贡献度，以及交叉特征观察人群特征和UI标签的关联关系。
网格分析，在表格上将多个人群特征-UI标签进行组合，列出所有组合的点击率，从中找出点击率变化规律和差异，找出偏好差异。
标准化偏好，CTR(UI特征,人群特征,对应产品)/CTR(人群特征,对应产品)，衡量单个UI元素在指定人群特征里对点击率的影响程度，再进行对比找出偏好差异。
单样本方法，建模的方式分析人群特征和UI特征的贡献度。

初步可以沉淀出一些偏好洞察，例如：

理财货架场景上，收入较低者偏好产品名称，普通/高收入者偏好产品推荐语。
按钮颜色上，总体红色比蓝色更吸引，但越年轻的用户，越偏好支付宝蓝。
白领/初级投资者偏好金融元素，蓝领/高级投资者偏好品牌元素。
有信用卡者对走势图不敏感，无信用卡者更偏好走势图。
中年(40-50岁)年龄段特别偏好紧迫心理类型的标题，尤其偏好行业风口类。
理财货架中，整体上宫格样式效果远低于列表样式(宫格面积相对小)，但年长者对宫格偏好不低。

归因洞察还未形成稳定分析体系，处于探索期，最终是期望探索到一种或多种分析有效通用的方法，沉淀为平台自动分析能力，能在平台沉淀业务维度、场景维度、人群维度的UI偏好画像。

产品化

在方案落地出效果后，我们看到这套能力是具备一定通用性，各业务可以接入获益的，于是我们致力于将它的能力产品化，沉淀多样式生成配置、通用高效的UI偏好模型等能力，让各场景可以快速接入。主要围绕接入效率和接入效果进行优化。

效率优化

个性化UI的接入成本比较高，需要设计素材，人工打标，前端/业务后台/中台对接工程链路，训练UI偏好模型，跟进实验，手工清洗数据分析。涉及流程长，对接的角色多，投入较大。在平台级大流量展位上接入这套能力，能产出很大的业务效果，这样的投入还能接受，但要覆盖更多的长尾场景，这样的接入效率性价比相对低，难以被接受，我们从几个方面建设去提升各场景的接入效率：

一站式配置平台(万花筒平台)，完善样式配置、组合预览、打标、筛选审核、业务干预、样式三板斧发布、数据分析能力。
通用链路，提供从样式包召回、推荐、数据组装的通用工程链路，通过 BFF SDK 输出，普通场景只需要前端BFF接入SDK即可完成接入，减少与业务后台和中台的链路对接。
通用模型，用户特征和UI标签特征在各个场景里是通用的，也就可以训练出一个通用模型，映射用户特征和UI标签特征的偏好关系进行推荐，虽然效果相对专门训练的模型会打折扣，但适合长尾场景快速接入。
专用链路，数金多数场景与各业务平台和中台结合较紧密，我们把个性化UI能力嵌入这些平台，可以提供更好的结合业务和特定场景的一站式使用体验，提升效率，例如对接UCDP/梵高/毕加索建设banner链路、对接洛可建设微贷专有链路等。

以上几点是短期内会建设完成的能力，此外有两个正在探索中的提升接入效率的课题：

素材生成，当前接入的大多数场景需要设计师和运营一起产出多个图片和文案素材，这是接入流程中最大的成本，我们在探索素材自动生成的方案，沉淀符合设计规范的原子图片素材库，提供对不同场景尺寸和组合的处理适配能力，让图片素材可以在多个场景里复用。文案方面在中台智能文案基础上加入更多的业务语料，自动生产的文案更符合业务调性和用户偏好。
自动化打标，当前需要手工对每个元素进行打标，当标签趋于稳定，并且打标量达到一定程度后，可以通过算法理解图片和文本，归类到指定的标签进行自动化打标，减少人工投入。

效果优化

如何对样式推荐的效果进行进一步提升，也是我们持续在探索的，算法效果的提升，很大一部分取决于特征数据的丰富和准确，围绕数据会在这几方面进行尝试：

端智能结合，云端不直接推荐UI样式结果，而是推荐几个样式候选集，端上再进行实时重排。为什么端上重排可能会有效，端上可以根据用户的实时行为，判断用户看了还是没看(停留了、快速划过)，再结合它的行为路径(点了有某个UI标签的展位、快速离开、去了很多二级页等)，去综合判断是否因为疲劳度、兴趣变化等去切换其他样式，更好打中用户。
自动特征工程，训练专用的UI推荐模型时，会根据对场景的理解进行特征筛选和交叉组合处理，这里选择什么特征交叉由个人经验决定，我们借助AI中台的能力，尝试autoCross自动筛选有效的交叉特征，理论上能得到比手工交叉筛选更好的效果，同时减少特征工程的人员投入。
多模态建模，抽取图片素材/文本素材的高维特征，融合后作为UI标签的补充加入训练，丰富模型对UI的理解。
UI标签演进，我们一开始构建的表现层/内容层的标签体系，几个场景使用下来有不错的效果，但还没能做到很通用地描述UI，正在尝试以描述因子/驱动因子的方式组织标签，我们会尝试不断迭代标签的描述粒度和通用性。

未来

个性化UI在金融场景我们实现了从0到1的突破，后续从1到100我们还需要做很多工作，除了上面说的产品化效率和效果优化，还有三个方向持续探索：

通用性，当前的标签体系、模型、工程链路都是围绕数金业务进行建设，实际上这套能力在多产品服务分发的场景都能适用，比较适合支付宝的业务形态，后续可提升通用性，在支付宝分发海量产品服务的展位上进行尝试。
UI偏好画像，接入的场景足够多，标签体系足够完善，归因的方法探索出通用有效的方案后，可以沉淀用户的UI偏好画像，作为体验端的数据资产，为后续算法模型、业务设计提供价值。
能力扩展，我们围绕单展位模块的千人千面建设个性化UI能力，在这以外，跟智能展示相关的，还会有其他空间可以挖掘，例如全屏的注意力管理，用智能化的手段，避免全屏范围内动画/红点/抢眼颜色/弹屏不断抢占用户吸引力，以合适的方式分配用户注意力，提供更好的体验和效果，是一个可以探索的方向。

总结

我们针对数金的业务特性，在对产品的个性化UI展示上提出了元素打散组合-语义打标-算法推荐-归因分析的方案，落地取得了不错的效果，当前在将能力进行产品化沉淀的过程中，逐渐完善核心的多样式生产、精准UI偏好模型、UI偏好画像能力，让各长尾场景快速接入取得规模化的业务结果。过程中会碰到许多困难，但核心的“不同人有不同UI偏好”已被验证，我们会沿着这个方向，联合设计、产品运营、算法、质量一起持续深耕和拓展个性化UI能力。

《少年的你》碎念

bang's blog

作者 bang

2019年11月3日 12:30

看电影《少年的你》，挺喜欢。

回想起来小学我也被打过几次，不过印象不是很深，也没那么夸张，小学时回家告诉了家人，然后去学校找了老师，后来怎样记不得了，但大家都表示出这是个麻烦事，老师更是在班上严肃地说没什么大事就应该自己搞定，不用搞得这么大，作为男孩，大家觉得被欺负还不能自己解决是丢人的。回想起电影里班主任离职时，说的话肯定是被审查过了，原版应该是一些尖酸怪罪的话。有多少老师能做到真正关心学生，而不是是不是给自己带来麻烦。

电影渲染了高考的恐怖氛围，比我们当时严重，但高考确实一直是我的噩梦，虽然我考得不错，但那段日子不堪回首，成年很多时候可以靠平时的成绩，而不是高考这样的一锤定音。高考是底层通往中上层走出去的几乎唯一通路，而底层的学生要克服的困难比中上层多得多，在学校受歧视欺负时的话语权，电影里没提到的教育资源的不足，思维惯性的缺陷，原生家庭可能的不安宁，甚至上学机会都没有。十年前有《我奋斗了18年才和你坐在一起喝咖啡》，现在依然一样。

电影表现出来的满满少年感，压抑的氛围中有美好和温暖，不知不觉已接近中年，少年的美好总是很能触动人。男女主角的表演看着特别高质量特别享受，敬佩这些演员，一直在感叹人与人之间的差距，天赋和努力程度都差距巨大，脑回路上的差距比社会地位上的差距更大。

保护世界看起来是个虚无宏大的事情，但这部电影确实能做到保护世界，把社会上一些不怎么被关注的问题放大成热门话题，多少正在受校园欺凌的人会感谢这部电影，虽然按网民惯性很快会冷却，但影响力在那里，跟《我不是药神》那样。期待有越来越多被公众误解或不关心的主题电影出现，像抑郁症，同性恋等。

另一种保护世界，就在我们日常工作中，经济增长是保护世界最有效的方式，商业创造出来的低门槛工作岗位，工厂，快递，外卖，能帮助多少家庭走出困境，多少小混混走上正轨，商业就是慈善。

程序员和工程师

bang's blog

作者 bang

2019年9月28日 11:15

程序员和工程师是两个不同的角色。

程序员是创作者，作品的所有者。

工程师是工程的设计者，建设者。

公司里的职位是工程师，而不是程序员。

工程师是负责把公司产品打造出来的角色，涉及到方方面面的工作，写代码，架构设计，规范制定，质量保障，进度把控，方案权衡，制度建设，上下游沟通，多团队协作，业务理解，问题定义，中长期规划。

程序员则是更纯粹一些的角色，就是通过写代码进行创作的人，与作家、画家、木匠、铁匠类似的角色。

早期只有程序员没有工程师，因为程序是一批嬉皮士的玩物，还没进入工业化批量生产。

现在可能只有工程师没有程序员，程序成了工业化社会中的一环，现代软件产品大多都需要作为一个工程去由一个团队实现。

理论上程序还是可以脱离工程存在，作为一种创作介质，程序员可以独立创造属于自己的作品，它的自由度很高，可以是引擎，工具，语言，游戏等，但它的空间越来越小了。

在做工程师的同时，可以尝试保留程序员的角色，创造自己的代表作。

信息与思考

bang's blog

作者 bang

2019年6月12日 11:47

在微博上看到蔡学镛发了句话：“你总是看大量的信息，你以为你热爱学习。但事实上，大脑本身就喜爱被信息刺激，这跟你是否热爱学习无关。… 真正判断是否热爱学习，要看是否喜欢动脑思考，大脑本能上并不喜欢思考，因为太消耗能量和时间。 ”觉得挺有道理，对于信息和思考，想再写两句。

我们每天摄入的信息是同质化的信息。无论是刷微博，头条，知乎还是抖音，在这些平台上能获得的信息都是同质化的，你会固定关注一群人，机器推荐也会推荐你喜欢的内容，固定的信息样式配合每天新发生的事情，看起来每天看到的是不同的信息，实际上是一套样式翻来覆去，并不能得到多少有价值的信息。

可以把世上的信息分成三种，第一种是直接以文字等形式在网上提供的信息。第二种是虽然相关资料在网上能找到，但需要自行进行加工处理才能得出有用信息。第三种是网上找不到，只存在于一些人的脑里的信息。

这三种信息稀缺性递增，价值也递增，第一种是当下最廉价的，价值也是相对较低的，而我们每天刷的就是第一种信息，而且是这种信息的一小部分。

要想获得更多有用信息，就要多获取第二种第三种。第二种靠思考和输出，对获取的信息多进行整合思考得出自己的结论，第三种靠人脉关系，很多时候关键信息都掌握在少数人手里，这些少数人并没有什么动力去把这些信息公之于众，需要多跟不同的人、重要的人交流和发生连接，获取只存在于他们大脑里的信息，这也是人脉的价值。

对于思考，王兴说：“多数人为了逃避真正的思考愿意做任何事情”，可能真是因为大脑思考太耗能量了，本能上不喜欢，思考如健身，要想长期保持或喜欢上思考，一靠习惯，二靠长期激励（对其带来好处的想象），三靠即时激励。若思考能经常即时带来好的反馈和刺激，可能有助于形成习惯，写博客这种古老的方式算是一种即时激励方式，把虚无缥缈的思考变成看得见的东西，有创作的感觉，满足表达欲，若其他人看到能有互动就更好了。

用户端智能的应用实践

bang's blog

作者 bang

2019年3月25日 12:06

去年团队在用户端上进行了一些简单的智能应用探索实践，这里记录梳理下。

现在很多“智能”，是普通推荐算法借深度学习的风包装的，核心也就是决策树/随机森林/SVM这些90年代已经提出的算法，我们这里的实践也是这样。在用户端上，智能应用最广泛的目前两个点：个性化和多媒体识别，我们主要实践是在个性化上，从原来所有用户都用同一套或几套规则，换成根据推荐算法给每个用户制定符合他个性化特征的不同规则。

实际上简单的个性化推荐也可以认为是规则，只是这个规则很复杂，里面的if/else/权重/概率计算不是人工写的，而是算法算出来的，大多采用监督学习的方式，这种需求大体实现步骤是：

建模，把问题转化为三个点：输入/输出/算法。也就是挑选特征集X，确定输出目标值标签Y，挑选算法尝试找出Y=f(X)。
取数，选择一坨线上数据，清洗出需要的特征和对应的目标值。
训练，不断调整算法/参数/数据，找出用户特征->目标值的一个靠谱转化方式，输出一个模型。
应用，部署线上应用，实时预测，分析效果输入特征。

按这个套路，寻找了一些应用场景，做了一些尝试。

金额推荐

金额推荐概念很简单，我们作为理财业务，有很多场景是需要用户填入金额的，例如工资理财（每月自动把钱存到理财），小星愿（许愿存入钱），基金定投，各种理财产品的购买等。目前这些填金额的地方不是空着，就是有一个固定的默认值，金额推荐想根据每个用户的情况给推荐不同的金额，可以预填进输入框或出提示供用户选择，提升体验，甚至做出一些引导提升客单价。接下来套在上述步骤里来看下大致实施过程。

建模：
- 输入特征基本上先拍脑袋尽量多的选取可能有关的特征，比如年龄，城市，过去交易金额等，后期训练迭代过程中会根据计算出的每个特征的重要性再进行几轮筛选。
- 输出标签目标值是金额，但金额推荐这个需求不需要把每个用户的金额预测精确到个位数，从用户数据观察多数金额集中在有限的一些整数上（比如100/500/1000/2000等），所以这里只需要把金额分成一些档位，目标值是金额档位。
- 算法，目标值是金额档位，是一个分类问题，分类算法中选用了随机森林这种集成算法，简单应用广，过程中也试过其他算法，效果差不多。
取数：
- 进行一些数据预处理，例如把非数值类型的特征转为数值，合并特征和标签等。
- 把最近一次交易金额转为对应金额档次分类作为目标值标签。
训练：使用第二步的部分数据进行训练，拟合出一个模型，再使用另一部分数据评估模型的预测效果。过程中通过各种调参/分析/数据处理，优化模型评估效果，例如：
- 提升数据质量，筛选出过去购买金额有一定规律的人群数据，比如多次购买的方差不超过某个数值。
- 参考随机森林特征重要性中的 entrophy 和 gini 指数，去除重要性较低的特征。
- 减少标签金额档次的个数，只保留多数用户会命中的几个档次。
应用：部署模型，不同的交易产品有不同的用法，可以把预测值直接预填进输入框，也可以在旁边出输入提示显示推荐的金额。然后就是一系列ABTest、性能优化、监控、数据效果分析的工作。

不同交易产品(工资理财/小星愿)对特征和标签的选取有一些小的不同，但大致处理流程一致。实践中工资理财把固定的1000元引导改成推荐的金额，订单平均金额提升60%，32%用户直接使用了推荐的金额。小星愿把金额推荐作为提示供用户选择，相比直接放一个该用户历史交易金额作为提示，点击率高十几倍，用户对推荐金额的接受程度较高。

智能push

智能push想做的是在合适的时间给人推push，提高点击率。基于一个假想：每个用户都有不同时间段的活跃时间点，如果push不是统一固定时间下发，而是选择每个用户对应活跃的时间点下发，可以提高点击率。这里的push是促活类的，例如资讯的push。这里的问题可以转化为：怎样根据一个用户已有信息预测出他的活跃时间点。

建模
- 输入，选取可能跟用户作息有关的年龄/收入/城市等基础信息，再加上用户过去7天的push点击数据作为特征值。
- 输出，用户的活跃时间点，精确到小时，用户一天可能在多个时间点活跃，需要输出多个时间点。因为需求原因，push时间点限制在8-21点。
- 算法，8-21点共14个小时，14小时->14个分类，多个时间点活跃->属于多个分类，是个多标签分类问题，我们用多个二分类的方式实现，同样用随机森林的算法，14个时间点每个点都单独做一次二分类，每个二分类的计算结果都是0-1之间的数，可以当成这个用户在这个时间点的活跃概率，最后合起来，得到每个时间点的概率。再根据指定阈值确定是否活跃时间点，例如：
取数：
- 对过去的push数据进行处理，根据8点-21点每个时间是否有点击push，合成多条特征数据，取过去8天的数据，1-7天的数据作为特征，第8天的数据作为目标值标签。
- 清洗用户基础特征，数据转换，拼接push特征。
训练：根据第二步的数据分14个二分类(14个时间点）训练，得到14个模型，每个时间点一个模型，最后合成一个。
应用：经过算法模型可以得到用户每个时间点的活跃概率，有多种使用策略，可以通过阈值得到几个活跃时间点，也可以直接选用概率最高的时间点，还可以在业务发送push时，往后选取概率最大的时间点发送，例如业务12点发送push，选12点-21点之间概率最大的时间点，把push进队列延迟到该时间点发送。

同样是经过了多轮的数据分析、模型调整、特征优化、AB实验、Android分链路优化等，最终同一条push内容，使用智能push链路和普通链路直接推送相比，点击率稳定在提升25%左右。

本地处理

push的优化上当时我们想做更多，除了活跃时间段，实际上影响用户点击push的还有他当前手机的实时状态，例如是否在看视频/玩游戏/放在口袋里等状态，在这些情况下用户点击push概率一定很小，如果在收到push后显示前能实时检测到这些状态，就可以推迟到更合适的时间显示。为此我们在iOS上做了一些尝试：

需要在用户收到push后执行代码逻辑，再决定是否显示push，经调研 Notification Extension 没有取消展示push的能力，VoIP 需要特殊权限，只能用普通的静默push去做。
每条push都改成静默push，收到后唤起执行代码，经过各种判断后创建Local Notification，在指定时间展示push。
iOS 无法直接判断用户正在运行的程序和手机状态，只能通过一些侧面属性判断，包括横竖屏状态、耳机插入、内存情况、cpu情况、锁屏情况、网络状态这些信息，模糊猜测用户当前所处环境，给出一条运算公式计算用户当前是否适合展示push，公式可以动态下发，根据效果调整。
用户本地保存上面跑出来的每个时间点活跃概率数据，把push延迟到下一个较活跃的时间点显示。

Android 也实现了差不多的方案，不过iOS和Android的方案都有缺陷，iOS方面用户手动kill掉的APP情况会收不到静默push，会影响push的到达率，Android方面没有可靠的延迟展示push手段，若延迟的时间点APP处于非活跃状态，会无法展示，同样也是会影响 push 到达率，这些缺陷导致最后本地处理的方案实现后没有很好地应用上。

其他

除了金额推荐、智能push，还做了一些其他智能的尝试，包括

智能异常检测：客户端的一些异常很多时候无法通过代码准确地检测到，例如图形引擎在一些安卓机器上的花屏，没有报错的白屏/黑屏，期望是有统一的手段检测到这些显示的异常。做法是在端上内置机器学习框架，云端训练模型，输入是截屏图片，输出是异常分类，我们挑了三种情况作为异常截屏样本：白屏/黑屏/花屏，做一个简单的图形分类模型，典型的深度学习cnn入门级项目，压缩模型下发到客户端运行，用户运行过程中根据一定的规则抽样进行截屏检测，有异常可能即上报。
股票OCR导入：自选股票从不同APP迁移时，需要逐个股票进行输入->搜索->添加自选，这里要做的是在应用A自选列表截屏，在应用B导入截屏，OCR识别出截屏上的股票代码。OCR是比较通用的识别能力，直接用现成模型，配合一些逻辑处理就能实现了。

还有像智能预加载/智能分页/交互预测/交易流失归因分析这些实践，但还没有做完整，就不描述了。

感想

当智能基础能力的基建（训练平台，模型部署，数据打标等）做好了，要把智能能力应用到业务上时，需要的更多是业务理解和数据分析能力，多数精力会耗费在清洗数据、模型调优上，这个能力跟工程能力有很大不同。
简单的“智能”需求，不需要理解具体算法实现也能做出来，只是理解了算法可能对优化有帮助。
机器学习算法繁多，与过往计算机通用经验复用度不高，要达到创造/改进算法的程度门槛太高。
用户端体验上的智能应用在多媒体、IoT、系统级优化上比较有空间，其他的并没有找到特别大的应用场景。
即使做了几个智能的应用，也没法说已经入门了这个领域，只是接触到一点皮毛，而且当时去补的各种知识点在一段时间没有接触使用后，也很容易就遗忘了。


换模特	换衣


灵动AI	photoroom


角色生成	游戏原画


概念设计	线稿转绘