【人工智能通识专栏】第一讲：LLM的发展历程-智慧文博士

大型语言模型（Large Language Models，简称LLM）是当前人工智能领域最核心的技术之一。它基于深度学习，能够理解和生成人类般的自然语言，已广泛应用于聊天机器人、内容创作、代码生成等领域。本讲将从历史起源讲起，系统梳理LLM的发展脉络，帮助大家建立对这一技术的整体认知。

LLM的根源可以追溯到自然语言处理（NLP）的早期阶段：

1950s–1990s：早期NLP主要依赖规则-based系统和统计语言模型（如n-gram模型），通过概率统计预测下一个词，但处理复杂上下文能力有限。
2000s–2010s：神经网络兴起。2013年，Word2Vec引入词嵌入（word embeddings），将单词转化为向量表示，解决了“维度灾难”问题。RNN（循环神经网络）和LSTM（长短期记忆网络）进一步提升了序列处理能力，但仍受限于长距离依赖和并行计算。

这一时期，语言模型仍以小型规模为主，远未达到“大型”的门槛。

2017年，Google发表论文《Attention Is All You Need》，提出Transformer架构。其核心创新是自注意力机制（Self-Attention），允许模型并行处理序列，高效捕捉长距离依赖。这取代了RNN，成为现代LLM的基石。

2018年：
- GPT-1（OpenAI，6月）：首个基于Transformer解码器的生成式预训练模型，参数1.17亿，证明了“预训练+微调”范式的潜力。
- BERT（Google，10月）：基于Transformer编码器，双向上下文理解，参数3.4亿，在多项NLP任务上超越人类表现。

Transformer的出现标志着LLM从实验室走向实用，开启了规模化定律（Scaling Laws）：模型参数越大、数据越多、计算越多，性能越强。

这一阶段，焦点转向参数规模和预训练：

2019：GPT-2（OpenAI，参数15亿），生成文本更连贯，但因潜在风险未完全开源。
2020：GPT-3（OpenAI，参数1750亿），引入Few-Shot学习，能在少样本下完成复杂任务，震惊业界。
2021–2022：多模态和对话模型涌现，如LaMDA（Google）、PaLM。2022年11月，ChatGPT（基于GPT-3.5）发布，引入RLHF（人类反馈强化学习），使模型更安全、对话更自然，引发全球AI热潮。

同时，开源社区活跃：LLaMA（Meta，2023年初）系列推动开源LLM发展。

2023：GPT-4（多模态，支持图像输入）、Claude系列（Anthropic）、Grok（xAI）。开源模型如LLaMA 2、Mistral爆发。
2024：焦点转向推理模型。OpenAI o1系列引入“思考链”（Chain-of-Thought）和RLVR（可验证奖励强化学习），模型在生成答案前“内部推理”，显著提升数学、代码等复杂任务能力。其他如Gemini（Google）、DeepSeek系列（中国）跟进。

这一时期，LLM从单纯规模竞赛转向效率、推理和多模态（文本+图像+视频）。

2025年，LLM进入“推理时代”和“高效时代”：

推理模型主流化：RLVR成为新范式，模型学会“逐步思考”。代表作包括OpenAI o3/o4系列、DeepSeek-R1（中国，高性价比，引发全球关注）、Claude Opus 4等。推理时间可调节，复杂任务性能大幅跃升。
开源与高效优化：DeepSeek、Qwen3、GLM-4等中国模型在成本和性能上领先。MoE（专家混合）架构流行，激活参数更少但效果强。
多模态与代理：模型支持更长上下文、工具调用，走向自主代理（Agent）。如Gemini 2.5、MiniMax系列。
趋势：从“卷参数”转向“卷推理”“卷应用”。小型高效模型（如Phi系列）在边缘设备流行；安全、对齐、偏见缓解成为重点。

截至2026年初，顶级模型如GPT-5、Claude 4、DeepSeek-V3.2在基准测试中接近或超越人类专家水平，但仍面临幻觉（hallucination）、偏见和高能耗挑战。