AI 这三年: 从 ChatGPT 说起

2026-06-14 · AI · 行业观察 · EN

AI 这三年: 从 ChatGPT 说起

2022 年 11 月 30 日, OpenAI 悄悄上线了一个叫 ChatGPT 的网页. 那天没几个人意识到, 一个时代开始了. 这篇札记按时间把这几年捋一遍 —— 冒出了哪些概念, 哪些公司, 哪些产品 —— 给你一张地图.

起点: 2022 年底, ChatGPT 引爆

  • 2022-11-30 ChatGPT(基于 GPT-3.5)上线, 5 天破百万用户, 2 个月破亿, 史上最快.
  • 它不是凭空来的: 2017 年 Google 的 Transformer 论文《Attention is All You Need》是地基, 2020 年 GPT-3 已在圈内惊艳. ChatGPT 的突破在于"好用的对话界面 + RLHF 调教".
  • 起点概念: 大语言模型(LLM), RLHF(人类反馈强化学习), prompt(提示词).

2023: 百模大战 + 第一波 agent 幻想

大厂集体入场:

  • OpenAI: GPT-4(3 月, 更强 + 多模态), 插件与 Code Interpreter, 年底推 GPTs 和 GPT Store.
  • 微软: 把 GPT-4 塞进 Bing 和 Office, 打出 Copilot 牌.
  • Google: 仓促应战发 Bard, 年底整合出 Gemini.
  • Anthropic: 发布 Claude / Claude 2, 主打长上下文与安全.
  • Meta: LLaMA 泄露后顺势开源 Llama 2, 点燃开源模型生态.

概念井喷: prompt engineering, RAG(检索增强生成), 幻觉(hallucination), 上下文窗口, 向量数据库, 微调 / LoRA.

工具与玩法: LangChain(把 LLM 串成应用), 向量库(Pinecone / Chroma), AutoGPT / BabyAGI(第一波"自主 agent"狂热, 大多还是玩具). 隔壁图像圈: Stable Diffusion(开源), Midjourney, DALL-E 引爆 AI 绘画.

2024: 多模态 + 推理模型 + agent 变认真

模型继续卷:

  • OpenAI: GPT-4o(全模态, 语音 / 图像), 年底 o1(推理模型, 会"先想再答").
  • Anthropic: Claude 3 系列(Haiku / Sonnet / Opus)到 Claude 3.5 Sonnet, 还首发"电脑操作(computer use)".
  • Google: Gemini 1.5, 把上下文窗口干到百万级.
  • Meta: Llama 3 / 3.1(405B 开源大模型).
  • 新玩家: Mistral(法国, 开源), xAI Grok.

新概念: 多模态, MoE(专家混合), 推理模型 / test-time compute(用更多思考换更高正确率), 工具调用(function calling), MCP(Anthropic 11 月开源的工具连接标准协议).

agent 从玩具走向能用: Devin("首个 AI 软件工程师"), Cursor(AI 代码编辑器)崛起, GitHub Copilot 进化; Perplexity(AI 搜索), NotebookLM; Sora / Runway / Pika(AI 视频).

2025: agent 元年 + 中国队入场 + 成本崩塌

  • DeepSeek 时刻: 中国的 DeepSeek R1(开源推理模型)以极低成本逼近顶尖闭源, 震动全球市场, 把"推理 + 开源 + 便宜"推到台前.
  • 模型格局: Anthropic Claude 4 系列 + Claude Code(终端里的 agentic 编程工具); OpenAI 的 o 系列推理模型持续迭代; Google Gemini 2.x 更 agentic; 中国队全面开花 —— 通义千问(Qwen, 阿里), DeepSeek, Kimi(月之暗面), 智谱 GLM, 豆包(字节), 文心(百度).
  • 主题词只有一个: Agent. 大家不再满足于聊天, 要的是"会自己干活"的 AI.
  • 概念再升级: agentic AI, MCP 成事实标准, A2A(agent 间协作), 上下文工程 / harness engineering, Skills(技能), vibe coding(Karpathy 造的词: 对着 AI 说话就把软件写出来).

一张脉络图

2017     Transformer 论文            (地基)
2020     GPT-3
2022.11  ChatGPT 上线                <- 起点
2023     GPT-4 / Claude / Llama 开源 / RAG / LangChain / AutoGPT
2024     GPT-4o / o1 推理 / Claude 3.5 + computer use / MCP / Devin / Cursor
2025     DeepSeek R1 / Claude 4 + Claude Code / Agent 元年 / 中国队 / vibe coding

玩家速查

阵营 代表公司 代表产品 / 模型
闭源第一梯队 OpenAI ChatGPT, GPT-4 / 4o, o 系列, Sora
Anthropic Claude 系列, Claude Code, MCP
Google Gemini, NotebookLM
巨头绑定 微软 Copilot(绑 OpenAI)
开源阵营 Meta / Mistral / DeepSeek / 阿里 Llama, Mistral, DeepSeek, Qwen
中国队 DeepSeek / 阿里 / 月之暗面 / 智谱 / 字节 / 百度 DeepSeek, 通义千问, Kimi, GLM, 豆包, 文心
明星创业产品 - Cursor(编程), Devin(编程 agent), Perplexity(搜索), Midjourney(绘画), Runway(视频)

三条主线总结

  1. 模型: 从"更大更强"到"会推理 + 多模态 + 更便宜".
  2. 形态: 从聊天框到工具调用, 再到自主 agent.
  3. 阵营: 闭源(OpenAI / Anthropic / Google)与开源(Meta / Mistral / DeepSeek / Qwen)长期拉锯.

最值得注意的是战场转移: 当模型能力趋同, 竞争就从模型本身, 往外面那层 agent / harness / 工作流 走. 谁能让同一个模型"干得更利索", 谁就赢 —— 这也正是本站(superpowers 与 skills)关注的方向.

写在最后

这张地图必然挂一漏万, 几年后再看大概率还要补很多. 但主线很清楚: 我们正从"会聊天的 AI"走向"会干活的 AI". 想顺着这条线深入, 可以去本站「概念解析」看 Agent, MCP, Harness, agent loops, harness engineering 这些关键词, 再到「superpowers 核心技能」看怎么真正驾驭一个 coding agent.

已复制短链