LLM 半年复盘:从 2025.11 拐点到编码 Agent 全面可用
Simon Willison 在 PyCon US 2026 上用五分钟总结了 LLM 过去半年的发展:2025 年 11 月拐点之后,编码 Agent 全面可用,OpenClaw 爆发,个人设备模型逆袭。对 AI 自动化从业者意味着什么。
2026年5月19日 · 阅读约 5 分钟
核心结论
2025 年 11 月已成为 LLM 发展的关键拐点。六个月来,编码 Agent 从"偶尔可用"跨越到"日常主力",开源模型性能飞跃,个人笔记本电脑上的模型已开始超越部分前沿模型。对内容创作者和 AI 从业者来说,这意味着自动化工作流全面进入可实战阶段。
关键要点
- 事件发生时间:2025 年 11 月 — 2026 年 5 月
- 影响对象:内容生产团队、AI 自动化从业者、独立开发者
- 核心变化:编码 Agent 实用性飞跃 + 开源大模型性能爆发 + 个人设备可跑出惊人效果
背景与拐点:2025 年 11 月
2025 年 11 月是 LLM 发展的分水岭。Simon Willison 在 PyCon US 2026 的五分钟闪电演讲中系统回顾了这一过程。单单 11 月,「最佳模型」的头衔就在三大厂商间易手五次——从 Claude Sonnet 4.5 到 GPT-5.1、Gemini 3、GPT-5.1 Codex Max,最后又回到 Anthropic 的 Claude Opus 4.5。
更大的新闻在于:编码 Agent 变好了。OpenAI 和 Anthropic 在整个 2025 年投入大量精力做 RLVR(基于可验证奖励的强化学习),11 月这项工作的成果集中显现。编码 Agent 从"偶尔能用"变成了"可以日常使用"——无需花大量时间修复它们的愚蠢错误。
也是在 11 月,一个当时名不见经传的仓库 "Warelay" 完成了第一次提交。这个后来更名为 OpenClaw 的项目,在不到三个月内席卷了整个开发者社区。
关键影响
| 维度 | 变化 | 对我们意味着什么 | 建议动作 |
|---|---|---|---|
| 编码 Agent 质量 | 从 "偶尔可用" 到 "日常主力" | AI 自动化流水线可以信任了 | 将 Agent 正式纳入日常生产流程 |
| 个人设备性能 | Qwen3.6 在笔记本上超越 Claude Opus 4.7 | 本地运行高质量模型成为可能 | 部署本地模型做敏感内容处理 |
| OpenClaw 生态 | 不到 3 个月成为主流,Mac Mini 一度脱销 | AI Agent 自动化进入大众视野 | 学习 OpenClaw 搭建工作流 |
| 中国开源模型 | GLM-5.1、Qwen3.6 性能爆发 | 用开源模型省 90% 费用 | 评估 DeepSeek/Qwen 替代方案 |
| 模型竞争烈度 | 6 个月内 5 次易主 | 不要绑定单一家模型 | 标准化接口,随时切换 |
二月之后:OpenClaw 爆发与个人设备逆袭
进入 2026 年 2 月,OpenClaw 以"个人 AI 助手"身份正式出圈,并催生了 NanoClaw、ZeroClaw 等一批仿效者。硅谷的 Mac Mini 一度脱销——有人调侃说 Mac Mini 现在是你 Claw 的完美鱼缸。
同样在 2 月,Gemini 3.1 Pro 发布,画出了迄今最优秀的内容配图。Google 随后发布了 Gemma 4 系列——美国公司迄今最优秀的开源权重模型。
4 月的惊喜来自中国团队:GLM 发布了 1.5TB 参数的 GLM-5.1,而 Qwen 的 Qwen3.6-35B-A3B 仅有 20.9GB,却能在个人笔记本上生成超越 Claude Opus 4.7 的内容。超过 90% 的 API 成本节约,通过本地或低成本替代模型即可实现。
适配建议
立刻可以做的事
- 拥抱 Agent 驱动工作流:编码 Agent 已经足够好到成为日常工具。如果你还在手动调试每一个 AI 输出,现在可以信任 Agent 自主完成从抓取到发布的全流程。
- 建立多模型策略:不要只依赖 Claude 或 GPT。DeepSeek V4、Qwen、GLM 等中国模型在性价比上构成有力竞争,适合不同场景组合使用。
- 本地模型补充云端:对隐私性要求高的内容处理场景,Qwen3.6 等本地可用模型是极佳的补充方案。
推荐的自动化架构
- 用 n8n + Claude Code 搭建内容生产和质量校验流水线
- 用 OpenClaw 管理多 Agent 协作
- 用 DeepSeek V4 处理批量高并发请求,降低成本
# 模型选择策略
# 高价值创造 → Claude Opus 4.5
# 批量内容生产 → DeepSeek V4 / Qwen
# 敏感数据处理 → 本地 Qwen3.6
# Agent 编排 → OpenClaw / Hermes Agent工具词条
正文中提到的工具和框架:OpenAI、ChatGPT、Claude、Claude Code、DeepSeek、Gemini、OpenClaw、n8n、Qwen、GLM、Hermes Agent。
六个月的总结
"编码 Agent 变得足够好用,而个人设备可用的模型,虽然远弱于前沿模型,却已经开始大大超出预期。" — Simon Willison,PyCon US 2026
对内容自动化和 AI 赚钱方向来说,这些变化意味着:2026 年的 AI 自动化已经不是要不要做的问题,而是怎么做才最快的问题。
相关延伸资料
下一步行动
- 想用 Claude Code 搭建自己的自动化内容生产线?看教程:如何用 Claude Code 实现自动化内容生产
- 想通过 DeepSeek 节省 90% API 费用?看教程:DeepClaude 搭建教程
- 有人已经实践成功了:他用 Claude Code 48 小时创业做到月入 $9,000
- 更夸张的:$14,718/月 OpenClaw 全自动化赚钱案例
- 新手可以先看:如何用 OpenClaw + ChatGPT 搭建内容改写系统