普通视图

发现新文章，点击刷新页面。

昨天以前张浩在路上

张浩在路上
《进化的力量·刘润年度演讲》观后感ZhangHao
进化的力量刘润，中国著名商业顾问，润米咨询创始人，“5分钟商学院”主理人，微信公众号“刘润”主理人，微软（中国）有限公司前战略合作总监，曾任百度、海尔、中远国际、五源资本、康宝莱等，现任腾讯、恒基、尚景家居、云汉芯城等多家知名企业的战略顾问。商业进化和生物进化的底层逻辑是相通的：不是最强壮的，也不是最聪明的，而是最适合的才能生存。我们必须不断地进化，企业如此，个人也如此。《进化的力量·刘润年度演讲》梳理2022年企业最需要关注的8个方面！帮助你看清世界的变化，不断进化。达尔文雀厄瓜多尔的加拉帕戈斯群岛距离南美大陆约970公里，是一些由海底火山喷发形成的小岛。这些岛上生活着一群看起来不怎么起眼的鸟类，1835年，达尔文随皇家海军“贝格尔”号勘探船造访此地时，第一次采集到了这些鸟类的标本。因为在演化生物学研究领域声名显赫，这些外形各异的鸟类得到了“达尔文雀”（Darwin’s Finches）这一响亮的名称。传说，正是这些鸟儿启发了达尔文，让他领悟了演化理论的关键。老龄化现状增速放缓(年平均增速：0.57%->0.53%)，男女均衡(出生人口性别比：118.1->111
2022年1月9日 00:00

《进化的力量·刘润年度演讲》观后感

张浩在路上

作者 ZhangHao

2022年1月9日 00:00

进化的力量

刘润，中国著名商业顾问，润米咨询创始人，“5分钟商学院”主理人，微信公众号“刘润”主理人，微软（中国）有限公司前战略合作总监，曾任百度、海尔、中远国际、五源资本、康宝莱等，现任腾讯、恒基、尚景家居、云汉芯城等多家知名企业的战略顾问。

商业进化和生物进化的底层逻辑是相通的：不是最强壮的，也不是最聪明的，而是最适合的才能生存。我们必须不断地进化，企业如此，个人也如此。

《进化的力量·刘润年度演讲》梳理2022年企业最需要关注的8个方面！帮助你看清世界的变化，不断进化。

进化的力量思维导图

达尔文雀

厄瓜多尔的加拉帕戈斯群岛距离南美大陆约970公里，是一些由海底火山喷发形成的小岛。这些岛上生活着一群看起来不怎么起眼的鸟类，1835年，达尔文随皇家海军“贝格尔”号勘探船造访此地时，第一次采集到了这些鸟类的标本。因为在演化生物学研究领域声名显赫，这些外形各异的鸟类得到了“达尔文雀”（Darwin’s Finches）这一响亮的名称。传说，正是这些鸟儿启发了达尔文，让他领悟了演化理论的关键。

进化论

老龄化

现状

增速放缓(年平均增速：0.57%->0.53%)，男女均衡(出生人口性别比：118.1->111.3)，家庭缩小(户均人口：3.10->2.62)。这三组数据，是关于中国人的“生命”状态，能不能找到另一半，如何组成家庭。

流动明显(人户分离人口：4.9亿,增长88.52%)，城乡转移(城镇人口：9.02亿；乡村人口：5.10亿)，人口聚集(东部：2.15% 西部：0.22%；中部：0.79%；东北：1.2%)。这三组数据，是关于“生活”，人们选择在哪里生活，靠什么生活，和谁一起生活。

少子继续(总和生育率：1.3，意愿生育率：1.8)，老龄加深(60岁以上：2.64亿；65岁以上：1.91亿)，劳力减少(10.06亿->9.68亿)，素质提升(9.08年->9.91年)。这四组数据，是关于“生产”，有多少人需要工作，养活另外多少人，用什么方式。

每一年平均年龄增加三个月，我们这一代人大概率可以活到100岁。
中国在2000年，就已经进入轻度老龄化。预计在2022年进入深度老龄化时代，65岁以上人口占比13.5%。

活力老人

日本，1995年进入深度老龄化，26年了。或许可以是我们主要的研究对象。
日本应对老龄化的措施
关于少子化，试过生孩子就给钱啊，生孩子就放假啊，甚至海外移民计划。关于老龄化，试过延迟领取退休金啊，退休再就业啊。有些有效，有些效果不明显。在所有这些制度中，有一项制度，效果越来越突显，越来越突显。
这项制度就是：“活力老人”计划（Power Senior）

适合的岗位：专车司机，客服中心，银行柜员，空乘人员

活力老人的目的是提高生产率，让年轻人去做更有创造力的事情。

科技创新

总财富 = 劳动力 * 生产率, 一个社会所能创造的总财富，等于劳动力总量，乘以每人所创造的财富。这个“每人所能创造的财富”，就是生产率。

劳动力不会高速增长了，要实现生产率的倍速增长，只能靠科技创新。

最好的企业家拿到最先进的科学专利，找到最具行业洞察力和执行力能力的人一起合作，找到最好的协作企业共同开发。 – 王煜全科技投资人

所有理所当然的现在，都是曾经不可思议的未来，所有现在不可思议的未来，可能都是明天理所当然的现在。

数字化

销售数字告诉你：我想买什么，评论数据告诉你：什么在阻止我付钱

数字化定义：从物理世界中，开采出数据，粗炼出信息，精炼出知识，聚合为智慧

开采数据

真正让iphone成功的，不是能让你感觉到他存在的东西；真正让iphone成功的，是让它能感知到你存在的东西。
你在感知这个世界的时候，这个世界也在感知你。

隐私问题

Google读取邮件内容，可以在Google地图中查到酒店入住，可以直接帮你写好回复邮件。
隐私和便利性是相互冲突的
《个人信息保护法》11月1日实施。一个没有法律保护的市场，就是一个劣币驱逐良币的市场。

粗炼信息

妈妈的味道，就是你小时候习惯了的味道。

粗炼：从数据到信息：从金木水火土，到氢氦锂铍硼。

牛肉的数字化：M1-M9，钻石的数字化：4C标准

牛肉、玉石、茶叶、沉香、古董。。。所有柠檬市场都值得用数字化重新做一遍。

这里主要指数据标准化的工作。

精炼知识

广告公司：用数字化的方式，把行业信息提炼为知识，提升广告效果。

企业办公：用数字化的方式，把组织信息提炼为知识，提升办公效率。

聚合智慧

智慧，就是用更低的成本，做更好的决策。 – 信也科技创始人

数字化 + 个人信息保护法 = 数字石油时代

新消费

体验 - 只要我喜欢，没有值不值

2021年中国人均GDP 1.21w美元，世界高收入标准是1.27w美元。

2021年，我们站在了高收入的边界线上。 – 香帅著名金融学者

2001年，出口，中国外贸跑赢GDP1.5倍，一直增长到GDP占比36%。
2008年，投资，4万亿计划地铁、4G、高铁
2020年，消费，大循环，双循环，消费升级，产业升级。

2021年，中国或将成为全球最大的消费市场。 – 迟福林中国改革发展研究院院长

新消费时代：新模式，新渠道，新品牌

新模式

看上去，我们是在帮开发商买房子，其实上，我们是在帮消费者买房子。 – 胡炜若缺科技创始人。
基本上不赚钱，交个朋友。 – 罗永浩 [帮用户消费，大型团购]
面向超级用户，春暖花开。 – 罗振宇得到APP创始人 [对用户好]

新渠道

消费者决策的唯一依据：信息，文字->图文时代->视频时代

视频，可能是“经典互联网”的终极形态，直到元宇宙出现。经典互联网：听觉，视觉，元宇宙：触觉、味觉、嗅觉。

用短视频+直播，把所有产品都重新卖一遍。

新品牌

品牌的基础是信任 – 未来设计
炮制虽繁，必不敢省人工，品味虽贵，必不敢减物力。 – 同仁堂

品牌可能有点贵，但是被“骗”的成本更高。

新国货：经济自信 + 制度自信 = 文化自信

Z0时代

22年，00后大学毕业了。

时代划分

X世纪(1965～1980):科技发展，社会巨变，经济危机。 – 迷茫
Y时代(1980~1995):千禧一代，个人电脑，互联网。 – 自信
Z时代(1995~2009):数字时代原住民，看重体验，挖掘更好。 – 独立

人群特点

富足：他们能赚，他们更敢花。
感性：有表情包广告文案，比没有表情包的，多33%的关注。
颜值：买基金看基金经理的颜值。
爱国：他们长大时，国家已经强大。
独立：不喜欢团建，反对加班。
懒宅：追求生活最优解，买衣服买最省事的。懒得社交，懒得点赞，懒得恋爱，懒得出门。
养宠：我可以得过且过，但主子必须应有尽有。
养生：啤酒里面加枸杞，可乐里面加党参。 – 朋克
意义：不是被缺钱的焦虑驱动，而是被意义的动力驱动。

我们必须理解他们，只有理解了他们，我们才理解了未来。我们必须和他们做朋友，只有和他们做朋友，才是时间的朋友。

流量

产品生意和流量生意，前者是把产品做出来，后者是把产品卖出去。

流量生态

流量生态的第一次打通

线下：一铺养三代，流量成本高
线上：天下没有难做的生意，流量成本低。

流量生态的第二次打通

公域：付费用水，价高者得。
私域：打井很贵，用水免费。

私域就是那些你直接拥有的、可重复低成本甚至免费触达的用户
私域模型

私有化

临沂君悦购物中心

用拼团，建立信任，团购转化率22%
用内容，降低成本，节约了90%以上的海报印刷费
用倾听，改进服务，从反馈中，创新产品。

复购率

用覆盖率，来摊薄越来越贵的初次获客成本。

花400元留住老客户，比花4000元获得新客户，便宜太多了。 – 小鹅通

转介绍

	高频	低频
高价	苹果手机/茅台太爽了	房子/装修私域：转介绍
低价	生鲜，订阅服务私域：复购率	针/指甲刀太难了

同行已经做了的服务，就不是服务，是义务。 – 纪文华豪车毒

私域带来了8%的时间增量，和11%的空间增量。

跨境

行业挣钱，看“红利”，企业挣钱，看“稀缺”。

把红利变成利润，把“不得不来”变成“不想离开”。

跨境加时赛：专业化品牌化本土化

专业化

吴三柜，遇到了张三封。

你明明知道我在做什么，但是就是干不过我。

品牌化

在美国人心中最知名的品牌：1.大疆，2.联想，3.安克Anker， 4.海尔， 5.青岛啤酒 – 郭杰瑞

当消费者在平台上搜你的品牌，而不是品类时，你就获得了溢价。

本土化

物物交易 - 外汇储备限制。

东南亚招商，菲利宾：我们这里罢工少

所谓全球化，就是在每个国家的本土化

我们的星辰大海，不是跨境电商，而是全球化品牌。

疯狂生长

这个世界在哪里被撕裂，就会在哪里迎来一轮疯狂生长。

教培新规

曾经的爬竿选手拿到关键，被取消的原因是，都会去买更贵的杆，更好的老师学爬竿。

反垄断

2021年4月，阿里被罚182亿
2021年10月，美团被罚34亿

流量生态的第三次打通：平台壁垒
渐变，是大公司的小机会；突变，是小公司的大机会。2022年，平台壁垒打破，万物疯狂生长。

我们用微软的软件武装了iPhone，我用的是iPhone Pro。 – 微软CEO

进化的力量：用“海量”的物竞，应对“复杂“的天择。

参考资料

进化的力量 / bilibili

自然语言处理预训练技术综述

张浩在路上

作者 ZhangHao

2021年11月15日 00:00

预训练

预训练(Pre-trained Models,PTMs)的实施过程跟迁移学习是一样的，一般是先在一个基础数据集上进行任务训练，生成一个基础网络，然后将学习到的特征重新进行微调或者迁移到另一个目标网络上，用来训练新目标任务。

预训练是在大量常规数据集上学习数据中的“共性”，然后在特定领域的少量标注数据学习“特性”，这样子模型只需要从“共性”出发，去学习特定任务的“特性”部分即可。

预训练模型

这和小孩子读书一样，一开始语文、数学、化学都学，读书、网上游戏等，在脑子里积攒了很多。当他学习计算机时，实际上把他以前学到的所有知识都带进去了。如果他以前没上过中学，没上过小学，突然学计算机就不懂这里有什么道理。预训练模型就意味着把人类的语言知识，先学了一个东西，然后再代入到某个具体任务，就顺手了，就是这么一个简单的道理。

为什么需要预训练

预训练模型中的参数都是从大量数据中训练得来，比起在自己的数据集上从头开始训练参数，在预训练模型参数基础上继续训练的方式肯定要快一些。
预训练模型是通过海量数据训练得来，更好地学到了数据中的普遍特征，比起在自己的数据集上从头开始训练参数，使用预训练模型参数通常会有更好的泛化效果。

计算机视觉上的预训练

预训练首先是在计算机视觉方向取得较好效果并实现大规模应用的，我们会在庞大的ImageNet语料库上预训练模型，然后针对不同的任务在较小的数据上进一步微调。这比随机初始化要好得多，因为模型学习了一般的图像特征，然后可以将其用于各种视觉任务。
ImageNet这个数据集，数据量足够大，而且分类齐全，不限定领域，具有很好的通用型，使用范式一般如下图所示：
ImageNet预训练

自然语言处理上的预训练

借鉴视觉领域的做法,自然语言处理领域开始尝试使用预训练技术实现迁移学习，但是预训练在自然语言处理领域大爆发会缓慢很多，主要是因为自然语言处理任务(除机器翻译)没有计算机视觉方面那么多的标注好的数据集，而且没有很好的特征提取器，直到最近几年几个关键技术的成熟，神经网络才开始全面引入到了自然语言理解。从大规模的语言数据到强有力的算力，加上深度学习，把整个自然语言带到一个新的阶段。

自然语言处理预训练在不同时期有不同的称谓，但是，本质是使用大量语料预测相应单词或词组，生成一个半成品用以训练后续任务。

自然语言处理任务可以分为以下3个模块:数据处理、文本表征和特定任务模型。其中，数据处理模块和特定任务模型模块需要根据具体任务的不同做相应设计，而文本表征模块则可以作为一个相对通用的模块来使用。类似于计算机视觉领域中基于ImageNet预训练模型的做法，自然语言处理领域也可以预训练一个通用的文本表征模块，这种通用的文本表征模块对于文本的迁移学习具有重要意义。

发展历史

自然语言处理的预训练方法属于自然语言的表示学习，自然语言表示学习的形成已经经过了长期的历史发展。

1948年N-gram分布式模型被提出来，使用one-hot对单词进行编码，这是最初的语言模型，存在维度灾难和语义鸿沟等问题。
1986年出现了分布式语义表示，即用一个词的上下文来表示该词的词义，他在one-hot的基础上压缩了描述语料库的维度，从原先的V-dim降低为了自己设定的K值。当时通用的方案是基于向量空间模型（Vector Space Model，VSM）的词袋假说（Bag of Words Hypothesis），即一篇文档的词频（而不是词序）代表了文档的主题，我们可以构造一个term-document矩阵，提取行向量做为word的语义向量，或者提取列向量作为文档的主题向量，使用奇异值分解(SVD)的进行计算。
2003年经典的NNLM神经语言模型被提出，开始使用神经网络来进行语言建模。更早期百度 IDL（深度学习研究院）的徐伟在他2000年发表的文章《Can Artificial Neural Networks Learn Language Models?》中也有相似方向的探索。
2013年word2vec被提出并在NLP领域大获成功，他基于向量空间模型的分布假说（Distributional Hypothesis），即上下文环境相似的两个词有着相近的语义，构造一个word-context的矩阵，矩阵的列变成了context里的word，矩阵的元素也变成了一个context窗口里word的共现次数。Word Embedding是Word2Vec模型的中间产物，是在不断最小化损失函数时候，不断迭代更新生成的。
2018年出现了预训练语言模型。

传统的预训练技术 VS 神经网络预训练技术

传统的预训练技术
传统预训练技术与模型耦合较为紧密，该技术与模型之间并没有明确的区分界限，为了方便阐述，将语料送入模型到生成词向量的这一过程称为传统预训练技术。

神经网络预训练技术
神经网络预训练技术是在预训练阶段采用神经网络模型进行预训练的技术统称，由于预训练与后续任务耦合性不强，能单独成为一个模型，因此也称为预训练语言模型，这一称谓是区别于传统预训练技术的叫法。

神经网络自然语言处理的预训练发展经历从浅层的词嵌入到深层编码两个阶段，按照这两个主要的发展阶段，我们归纳出预训练的两大范式：「浅层词嵌入」和「上下文的词嵌入」。

第一代预训练旨在学习浅层词嵌入(Word Embeddings)。由于下游的任务不再需要这些模型的帮助，因此为了计算效率，它们通常采用浅层模型，如 Skip-Gram 和 GloVe。尽管这些经过预训练的嵌入向量也可以捕捉单词的语义，但它们却不受上下文限制，只是简单地学习「共现词频」。这样的方法明显无法理解更高层次的文本概念，如句法结构、语义角色、指代等等。
第二代预训练专注于学习上下文的词嵌入(Contextual Embeddings)，如CoVe、ELMo、GPT以及BERT。它们会学习更合理的词表征，这些表征囊括了词的上下文信息，可以用于问答系统、机器翻译等后续任务。另一层面，这些模型还提出了各种语言任务来训练，以便支持更广泛的应用，因此它们也可以称为预训练语言模型。

本文重点讲解基于神经网络模型在自然语言处理领域的预训练技术。

关键技术

Transfromer

Google 2017年提出了Transformer模型，之后席卷了整个NLP领域，红极一时的BERT、GPT-2都采用了基于Transformer的架构，现在都用到CV领域了，用于目标检测和全景分割的DETR就是代表。Transfromer的特征提取能力显著强于以往常用的CNN和RNN，这可以让我们更快更好的在样本上学习知识

Transformer之所以表现优异有以下几点原因：

模型并行度高，使得训练时间大幅度降低。
可以直接捕获序列中的长距离依赖关系。
可以产生更具可解释性的模型。

想详细了解Transfromer，可以参考我以前的文章《Attention Is All You Need – Transformer》

自监督学习

自监督学习是无监督学习的一种特殊方式，这些自监督的方法的核心是一个叫做 “pretext task” 的框架，它允许我们使用数据本身来生成标签，并使用监督的方法来解决非监督的问题。NLP预训练模型，就是利用自监督学习实现的，可以看做是一种去噪自编码器denoising Auto-Encoder。这可以让我们在大规模无标注数据集上学习知识。

在预训练模型中，最常用的自监督学习方法是自回归语言模型（AutoRegressive LM，AR）和自编码语言模型（AutoEncoder LM，AE）。 自回归语言模型根据上文内容预测下一个可能跟随的单词，就是常说的自左向右的语言模型任务，或者反过来也行，就是根据下文预测前面的单词。 自编码语言模型根据上下文内容预测随机Mask掉的一些单词。

微调

微调旨在利用其标注样本对预训练网络的参数进行调整，可以将预训练的模型结果在新的任务上利用起来。

第一代技术预训练技术：Word Embeddings

NNLM

神经网络语言模型(Neural Network Language Model，NNLM)是2003年蒙特利尔大学的Yoshua Bengio教授在《A Neural Probabilistic Language Model》中提出来的模型，这个模型第一次用神经网络来解决语言模型的问题，虽然在当时并没有得到太多的重视，却为后来深度学习在解决语言模型问题甚至很多别的nlp问题时奠定了坚实的基础，后人站在Yoshua Bengio的肩膀上，做出了更多的成就。
NNLM
模型一共三层，第一层是映射层，将n个单词映射为对应word embeddings的拼接，其实这一层就是MLP的输入层；第二层是隐藏层，激活函数用tanh；第三层是输出层，因为是语言模型，需要根据前n个单词预测下一个单词，所以是一个多分类器，用softmax。整个模型最大的计算量集中在最后一层上，因为一般来说词汇表都很大，需要计算每个单词的条件概率，是整个模型的计算瓶颈。

评价

NNLM模型是第一次使用神经网络对语言建模
由于模型使用的是全连接神经网络，所以只能处理定长序列。
由于模型最后一层使用softmax进行计算，参数空间巨大，训练速度极慢。

Word2Vec

Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，将单词从原先所属的空间映射到新的多维空间中，即把原先词所在空间嵌入(Embedding)到一个新的空间中去，用词向量的方式表征词的语义信息，通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。

Word2Vec模型中，主要有Skip-Gram和CBOW两种模型，从直观上理解，Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文，来预测input word。
CBOW&Skip-Gram

评价

优化了计算效率，特别是google同时开源了工具包，使得其在工业界能够大规模使用。
Word2vec并没有考虑到词序信息以及全局的统计信息等

GloVe

Glove(Global Vectors for Word Representation)是一种无监督的词嵌入方法，该模型用到了语料库的全局特征，即单词的共现频次矩阵，来学习词表征（word representation）。

第一步统计共现矩阵：下面给出了三句话，假设这就是我们全部的语料。我们使用一个size=1的窗口，对每句话依次进行滑动，相当于只统计紧邻的词。这样就可以得到一个共现矩阵。共现矩阵的每一列，自然可以当做这个词的一个向量表示。这样的表示明显优于one-hot表示，因为它的每一维都有含义——共现次数，因此这样的向量表示可以求词语之间的相似度。

第二步训练词向量：共现矩阵维度是词汇量的大小，维度是很大的，并且也存在过于稀疏的问题，这里我们使用SVD矩阵分解来进降维。
SVD求解

评价

利用词共现矩阵，词向量能够充分考虑到语料库的全局特征，直观上来说比Word2Vec更合理。
GloVe中的很多推导都是intuitive的，实际使用中，GloVe还是没有Word2vec来的广泛。

第二代技术预训练技术: Contextual Embeddings

通过预训练得到高质量的词向量一直是具有挑战性的问题，主要有两方面的难点，一个是词本身具有的语法语义复杂属性，另一个是这些语法语义的复杂属性如何随着上下文语境产生变化，也就是一词多义性问题。传统的词向量方法例如word2vec、GloVe等都是训练完之后，每个词向量就固定下来，这样就无法解决一词多义的问题。接下来的模型就是基于解决这个问题展开的。

ELMo

ELMo（Embeddings from Language Models）是有AI2提出，该模型不仅去学习单词特征，还有句法特征与语义特征。其通过在大型语料上预训练一个深度BiLSTM语言模型网络来获取词向量，也就是每次输入一句话，可以根据这句话的上下文语境获得每个词的向量，这样子就可以解决一词多义问题。

ELMo

Elmo模型的本质思想是先用语言模型学习一个单词的 Word Embedding，此时无法区分一词多义问题。在实际使用Word Embedding的时候，单词已经具备特定的上下文，这时可以根据上下文单词的语义调整单词的 Word Embedding 表示，这样经过调整后的 Word Embedding 更能表达上下文信息，自然就解决了多义词问题。

评价

在模型层面解决了一词多义的问题，最终得到的词向量能够随着上下文变化而变化。
LSTM抽取特征的能力远弱于Transformer
拼接方式双向融合特征融合能力偏弱。

GPT

GPT（Generative Pre-Training）模型用单向Transformer代替ELMo的LSTM来完成预训练任务，其将12个Transformer叠加起来。训练的过程较简单，将句子的n个词向量加上位置编码(positional encoding)后输入到 Transformer中，n个输出分别预测该位置的下一个词。

GPT的单项Transformer结构和GPT的模型结构，如图所示：
GPT

评价

第一个结合 Transformer 架构（Decoder）和自监督预训练目标的模型
语言模型使用的是单行语言模型为目标任务。

BERT

BERT采用和GPT完全相同的两阶段模型，首先是语言模型预训练，其次是后续任务的拟合训练。和GPT最主要不同在于预训练阶段采了类似ELMo的双向语言模型技术、MLM(mask language model)技术以及 NSP(next sentence prediction) 机制。

BERT

评价

采用了Transformer结构能够更好的捕捉全局信息。
采用双向语言模型，能够更好的利用了上下文的双向信息。
mask不适用于自编码模型，[Mask]的标记在训练阶段引入，但是微调阶段看不到。

延伸方向

研究方向

预训练模型延伸出了很多新的研究方向。包括了：

基于知识增强的预训练模型，Knowledge-enriched PTMs
跨语言或语言特定的预训练模型，multilingual or language-specific PTMs
多模态预训练模型，multi-modal PTMs
领域特定的预训练模型，domain-specific PTMs
压缩预训练模型，compressed PTMs

摘自《Pre-trained models for natural language processing: A survey》

模型衍生

模型衍生
摘自《Pre-Trained Models: Past, Present and Future》

应用于下游任务

迁移学习

不同的PTMs在相同的下游任务上有着不同的效果，这是因为PTMs有着不同的预训练任务，模型架构和语料。针对不同的下游任务需要选择合适的预训练任务、模型架构和语料库。
给定一个预训练的模型，不同的网络层捕获了不同的信息，基础的句法信息出现在浅层的网络中，高级的语义信息出现在更高的层级中。针对不通的任务需要选择合适的网络层。
主要有两种方式进行模型迁移：特征提取（预训练模型的参数是固定的）和模型微调（预训练模型的参数是经过微调的）。当采用特征提取时，预训练模型可以被看作是一个特征提取器，但以特征提取的方式需要更复杂的特定任务的架构。除此之外，我们应该采用内部层作为特征，因为他们通常是最适合迁移的特征。所以微调是一种更加通用和方便的处理下游任务的方式。

微调策略

微调的过程通常是比较不好预估的，即使采用相同的超参数，不同的随机数种子也可能导致差异较大的结果。除了标准的微调外，如下为一些有用的微调策略：

两步骤微调：两阶段的迁移，在预训练和微调之间引入了一个中间阶段。在第一个阶段，PTM 通过一个中间任务或语料转换为一个微调后的模型，在第二个阶段，再利用目标任务进行微调。
多任务微调：在多任务学习框架下对其进行微调。
利用额外模块进行微调：微调的主要缺点就是其参数的低效性。每个下游模型都有其自己微调好的参数，因此一个更好的解决方案是将一些微调好的适配模块注入到PTMs中，同时固定原始参数。