AI 这三年: 从 ChatGPT 说起
AI 这三年: 从 ChatGPT 说起
2022 年 11 月 30 日, OpenAI 悄悄上线了一个叫 ChatGPT 的网页. 那天没几个人意识到, 一个时代开始了. 这篇札记按时间把这几年捋一遍 —— 冒出了哪些概念, 哪些公司, 哪些产品 —— 给你一张地图.
起点: 2022 年底, ChatGPT 引爆
- 2022-11-30 ChatGPT(基于 GPT-3.5)上线, 5 天破百万用户, 2 个月破亿, 史上最快.
- 它不是凭空来的: 2017 年 Google 的 Transformer 论文《Attention is All You Need》是地基, 2020 年 GPT-3 已在圈内惊艳. ChatGPT 的突破在于"好用的对话界面 + RLHF 调教".
- 起点概念: 大语言模型(LLM), RLHF(人类反馈强化学习), prompt(提示词).
2023: 百模大战 + 第一波 agent 幻想
大厂集体入场:
- OpenAI: GPT-4(3 月, 更强 + 多模态), 插件与 Code Interpreter, 年底推 GPTs 和 GPT Store.
- 微软: 把 GPT-4 塞进 Bing 和 Office, 打出 Copilot 牌.
- Google: 仓促应战发 Bard, 年底整合出 Gemini.
- Anthropic: 发布 Claude / Claude 2, 主打长上下文与安全.
- Meta: LLaMA 泄露后顺势开源 Llama 2, 点燃开源模型生态.
概念井喷: prompt engineering, RAG(检索增强生成), 幻觉(hallucination), 上下文窗口, 向量数据库, 微调 / LoRA.
工具与玩法: LangChain(把 LLM 串成应用), 向量库(Pinecone / Chroma), AutoGPT / BabyAGI(第一波"自主 agent"狂热, 大多还是玩具). 隔壁图像圈: Stable Diffusion(开源), Midjourney, DALL-E 引爆 AI 绘画.
2024: 多模态 + 推理模型 + agent 变认真
模型继续卷:
- OpenAI: GPT-4o(全模态, 语音 / 图像), 年底 o1(推理模型, 会"先想再答").
- Anthropic: Claude 3 系列(Haiku / Sonnet / Opus)到 Claude 3.5 Sonnet, 还首发"电脑操作(computer use)".
- Google: Gemini 1.5, 把上下文窗口干到百万级.
- Meta: Llama 3 / 3.1(405B 开源大模型).
- 新玩家: Mistral(法国, 开源), xAI Grok.
新概念: 多模态, MoE(专家混合), 推理模型 / test-time compute(用更多思考换更高正确率), 工具调用(function calling), MCP(Anthropic 11 月开源的工具连接标准协议).
agent 从玩具走向能用: Devin("首个 AI 软件工程师"), Cursor(AI 代码编辑器)崛起, GitHub Copilot 进化; Perplexity(AI 搜索), NotebookLM; Sora / Runway / Pika(AI 视频).
2025: agent 元年 + 中国队入场 + 成本崩塌
- DeepSeek 时刻: 中国的 DeepSeek R1(开源推理模型)以极低成本逼近顶尖闭源, 震动全球市场, 把"推理 + 开源 + 便宜"推到台前.
- 模型格局: Anthropic Claude 4 系列 + Claude Code(终端里的 agentic 编程工具); OpenAI 的 o 系列推理模型持续迭代; Google Gemini 2.x 更 agentic; 中国队全面开花 —— 通义千问(Qwen, 阿里), DeepSeek, Kimi(月之暗面), 智谱 GLM, 豆包(字节), 文心(百度).
- 主题词只有一个: Agent. 大家不再满足于聊天, 要的是"会自己干活"的 AI.
- 概念再升级: agentic AI, MCP 成事实标准, A2A(agent 间协作), 上下文工程 / harness engineering, Skills(技能), vibe coding(Karpathy 造的词: 对着 AI 说话就把软件写出来).
一张脉络图
2017 Transformer 论文 (地基)
2020 GPT-3
2022.11 ChatGPT 上线 <- 起点
2023 GPT-4 / Claude / Llama 开源 / RAG / LangChain / AutoGPT
2024 GPT-4o / o1 推理 / Claude 3.5 + computer use / MCP / Devin / Cursor
2025 DeepSeek R1 / Claude 4 + Claude Code / Agent 元年 / 中国队 / vibe coding
玩家速查
| 阵营 | 代表公司 | 代表产品 / 模型 |
|---|---|---|
| 闭源第一梯队 | OpenAI | ChatGPT, GPT-4 / 4o, o 系列, Sora |
| Anthropic | Claude 系列, Claude Code, MCP | |
| Gemini, NotebookLM | ||
| 巨头绑定 | 微软 | Copilot(绑 OpenAI) |
| 开源阵营 | Meta / Mistral / DeepSeek / 阿里 | Llama, Mistral, DeepSeek, Qwen |
| 中国队 | DeepSeek / 阿里 / 月之暗面 / 智谱 / 字节 / 百度 | DeepSeek, 通义千问, Kimi, GLM, 豆包, 文心 |
| 明星创业产品 | - | Cursor(编程), Devin(编程 agent), Perplexity(搜索), Midjourney(绘画), Runway(视频) |
三条主线总结
- 模型: 从"更大更强"到"会推理 + 多模态 + 更便宜".
- 形态: 从聊天框到工具调用, 再到自主 agent.
- 阵营: 闭源(OpenAI / Anthropic / Google)与开源(Meta / Mistral / DeepSeek / Qwen)长期拉锯.
最值得注意的是战场转移: 当模型能力趋同, 竞争就从模型本身, 往外面那层 agent / harness / 工作流 走. 谁能让同一个模型"干得更利索", 谁就赢 —— 这也正是本站(superpowers 与 skills)关注的方向.
写在最后
这张地图必然挂一漏万, 几年后再看大概率还要补很多. 但主线很清楚: 我们正从"会聊天的 AI"走向"会干活的 AI". 想顺着这条线深入, 可以去本站「概念解析」看 Agent, MCP, Harness, agent loops, harness engineering 这些关键词, 再到「superpowers 核心技能」看怎么真正驾驭一个 coding agent.