三年LLM:过去和未来
2026年3月28日 13:00
OpenAI的ChatGPT于2022年年底发布。得益于境外手机号接码渠道,我第一时间就用上并惊叹于人工智能的突破。一转眼,LLM在过去的三年里已无可辩驳地渗透至千家万户。 一小段历史 Transformer模型最早于2017年由谷歌提出,核心思路是通过Self-Attention机制显式地表达词语之间语义联系1。OpenAI在2018年首次发布GPT-1模型,将架构简化为Decoder-only的Autoregressive词语预测2。自此,LLM的总体架构尘埃落定,后续的GPT-2、GPT-3等皆在此基础上扩展模型大小和数据集的规模。不仅局限于文字,Transformer在视觉领域表现也很好3。为何大模型能够涌现出强大的能力仍不得而知。Anthropic于2021年在一个极度简化的模型中发现了Induction Heads结构4,但如同生物学第一次发现红细胞,我们离真正理解L...