WayToClawEarn
高影响Simon Willison's Weblog

LLM 半年复盘:从 2025.11 拐点到编码 Agent 全面可用

Simon Willison 在 PyCon US 2026 上用五分钟总结了 LLM 过去半年的发展:2025 年 11 月拐点之后,编码 Agent 全面可用,OpenClaw 爆发,个人设备模型逆袭。对 AI 自动化从业者意味着什么。

2026年5月19日 · 阅读约 5 分钟

核心结论

2025 年 11 月已成为 LLM 发展的关键拐点。六个月来,编码 Agent 从"偶尔可用"跨越到"日常主力",开源模型性能飞跃,个人笔记本电脑上的模型已开始超越部分前沿模型。对内容创作者和 AI 从业者来说,这意味着自动化工作流全面进入可实战阶段。

关键要点

  • 事件发生时间:2025 年 11 月 — 2026 年 5 月
  • 影响对象:内容生产团队、AI 自动化从业者、独立开发者
  • 核心变化:编码 Agent 实用性飞跃 + 开源大模型性能爆发 + 个人设备可跑出惊人效果

背景与拐点:2025 年 11 月

2025 年 11 月是 LLM 发展的分水岭。Simon Willison 在 PyCon US 2026 的五分钟闪电演讲中系统回顾了这一过程。单单 11 月,「最佳模型」的头衔就在三大厂商间易手五次——从 Claude Sonnet 4.5 到 GPT-5.1、Gemini 3、GPT-5.1 Codex Max,最后又回到 Anthropic 的 Claude Opus 4.5。

更大的新闻在于:编码 Agent 变好了。OpenAI 和 Anthropic 在整个 2025 年投入大量精力做 RLVR(基于可验证奖励的强化学习),11 月这项工作的成果集中显现。编码 Agent 从"偶尔能用"变成了"可以日常使用"——无需花大量时间修复它们的愚蠢错误。

也是在 11 月,一个当时名不见经传的仓库 "Warelay" 完成了第一次提交。这个后来更名为 OpenClaw 的项目,在不到三个月内席卷了整个开发者社区。

关键影响

维度变化对我们意味着什么建议动作
编码 Agent 质量从 "偶尔可用" 到 "日常主力"AI 自动化流水线可以信任了将 Agent 正式纳入日常生产流程
个人设备性能Qwen3.6 在笔记本上超越 Claude Opus 4.7本地运行高质量模型成为可能部署本地模型做敏感内容处理
OpenClaw 生态不到 3 个月成为主流,Mac Mini 一度脱销AI Agent 自动化进入大众视野学习 OpenClaw 搭建工作流
中国开源模型GLM-5.1、Qwen3.6 性能爆发用开源模型省 90% 费用评估 DeepSeek/Qwen 替代方案
模型竞争烈度6 个月内 5 次易主不要绑定单一家模型标准化接口,随时切换

二月之后:OpenClaw 爆发与个人设备逆袭

进入 2026 年 2 月,OpenClaw 以"个人 AI 助手"身份正式出圈,并催生了 NanoClaw、ZeroClaw 等一批仿效者。硅谷的 Mac Mini 一度脱销——有人调侃说 Mac Mini 现在是你 Claw 的完美鱼缸。

同样在 2 月,Gemini 3.1 Pro 发布,画出了迄今最优秀的内容配图。Google 随后发布了 Gemma 4 系列——美国公司迄今最优秀的开源权重模型。

4 月的惊喜来自中国团队:GLM 发布了 1.5TB 参数的 GLM-5.1,而 Qwen 的 Qwen3.6-35B-A3B 仅有 20.9GB,却能在个人笔记本上生成超越 Claude Opus 4.7 的内容。超过 90% 的 API 成本节约,通过本地或低成本替代模型即可实现。

LLM 模型能力对比 — 前沿模型 vs 开源模型

适配建议

立刻可以做的事

  • 拥抱 Agent 驱动工作流:编码 Agent 已经足够好到成为日常工具。如果你还在手动调试每一个 AI 输出,现在可以信任 Agent 自主完成从抓取到发布的全流程。
  • 建立多模型策略:不要只依赖 Claude 或 GPT。DeepSeek V4、Qwen、GLM 等中国模型在性价比上构成有力竞争,适合不同场景组合使用。
  • 本地模型补充云端:对隐私性要求高的内容处理场景,Qwen3.6 等本地可用模型是极佳的补充方案。

推荐的自动化架构

  • n8n + Claude Code 搭建内容生产和质量校验流水线
  • OpenClaw 管理多 Agent 协作
  • DeepSeek V4 处理批量高并发请求,降低成本
terminal

# 模型选择策略

# 高价值创造 → Claude Opus 4.5

# 批量内容生产 → DeepSeek V4 / Qwen

# 敏感数据处理 → 本地 Qwen3.6

# Agent 编排 → OpenClaw / Hermes Agent

工具词条

正文中提到的工具和框架:OpenAI、ChatGPT、Claude、Claude Code、DeepSeek、Gemini、OpenClaw、n8n、Qwen、GLM、Hermes Agent。

六个月的总结

"编码 Agent 变得足够好用,而个人设备可用的模型,虽然远弱于前沿模型,却已经开始大大超出预期。" — Simon Willison,PyCon US 2026

对内容自动化和 AI 赚钱方向来说,这些变化意味着:2026 年的 AI 自动化已经不是要不要做的问题,而是怎么做才最快的问题。

相关延伸资料

下一步行动

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。
LLM 半年复盘:从 2025.11 拐点到编码 Agent 全面可用 · WayToClawEarn