WayToClawEarn
中等影响Simon Willison 博客

PyCon 2026 LLM 半年回顾:编码代理与 Claw 生态爆发

PyCon US 2026 上 Simon Willison 用 5 分钟闪电演讲,复盘了过去半年 LLM 领域的重大变化:编码代理越过日常可用门槛、模型头衔五次易手、开源模型在笔记本上表现惊人、Claw 生态三个月内从零爆发。

2026年5月19日 · 阅读约 5 分钟

核心结论

PyCon US 2026 上,知名 Python/LLM 博主 Simon Willison 用 5 分钟闪电演讲梳理了过去半年 LLM 领域最重要的变化。核心结论有三:编码代理已越过"日常可用"门槛、开源模型在笔记本上表现惊人、Claw 类 AI 助手生态爆发式增长。

关键要点

  • 时间跨度:2025 年 11 月 — 2026 年 5 月
  • 编码代理从"偶尔可用"跨越到"日常生产力工具"
  • "最好模型"头衔在三大厂商间易手 5 次
  • 开源模型(Llama 4、Qwen3.6、GLM-5.1)在笔记本级别硬件上表现大幅提升
  • OpenClaw 生态从零到全球关注,仅用 3 个月

背景:编码代理的"顿悟时刻

如果用一个时间点定义过去半年,那就是 2025 年 11 月。Simon Willison 将之称为 LLM 历史上的关键时刻。

当时 OpenAI 和 Anthropic 一直在用 RLVR(基于可验证奖励的强化学习)训练模型提升代码质量,配合 Codex 和 Claude Code 的 Agent 框架。11 月,这些努力结出硕果——编码代理从"偶尔能用"变成了"日常驱动"。开发者可以真正用它完成实际工作,不再需要花大部分时间去修正 AI 生成的错误。

过去六个月中,"最好模型"(以主观体验为准)在不同供应商间易手 5 次:

时间最佳模型备注
2025 年 11 月初Claude Sonnet 4.5OpenClaw 首次提交
11 月Gemini 3短暂超越
12 月Claude Opus 4.5保持领先 2-3 个月
2026 年 2 月Gemini 3.1 Pro画鹈鹕骑自行车表现优秀
4 月Llama 4 系列、GLM-5.1、Qwen3.6开源模型爆发

有趣的是,Simon Willison 用"画鹈鹕骑自行车"这个奇怪测试来对比各家模型——因为鹈鹕难画、自行车难画、鹈鹕骑自行车更难画,而且没有任何 AI 实验室会专门训练这个任务。

Claw 生态:从 Warelay 到 OpenClaw

2025 年 11 月,一个叫 Pete 的人在 GitHub 上提交了项目"Warelay"的首次 commit。到了 12 月和 1 月,这个项目经历了多次更名,最终在 2 月以 OpenClaw 的名字席卷全球。

OpenClaw 被定义为"个人 AI 助手",Simon Willison 观察到这类工具的通用名已经变成了"Claw"(包括 NanoClaw、ZeroClaw 等变体)。他甚至开了一个有趣的玩笑:硅谷的 Mac Mini 被抢购一空,因为人们买它来运行自己的 Claw——"Mac Mini 是 Claw 的最佳鱼缸"。

Simon 更喜欢用一个更生动的比喻来描述 Claw:它就像《蜘蛛侠 2》里 Alfred Molina 饰演的章鱼博士的机械爪——有 AI 驱动,安全无虞,但只要抑制芯片损坏就会变邪恶并反噬主人。

OpenClaw 开发场景

开源模型:笔记本也能跑出好结果

4 月,开源模型迎来了真正的突破。Llama 4 系列是 Simon 见过的来自美国公司的最强开源权重模型。中国 AI 实验室 GLM 推出了 GLM-5.1,一个 1.5TB 参数的巨型开源模型——能力出色但硬件要求极高。

更令人兴奋的是 Qwen 发布的 Qwen3.6-35B-A3B,一个 20.9GB 的开源权重模型,可以在笔记本上运行。Simon 实测发现,它在"画鹈鹕"测试中的表现甚至超过了 Claude Opus 4.7。

Simon 总结过去六个月的两大主题:

  1. 编码代理变得真正好用——从"偶尔成功"到"日常工具"
  2. 笔记本可用模型大幅超出预期——虽然远不及前沿模型,但进步速度惊人

对内容自动化和 AI 赚钱的启示

这篇闪电演讲对 WayToClawEarn 的读者有直接参考价值:

  • 编码代理已是生产力工具:Claude Code 和 OpenClaw 不再是玩具,可以用于实际内容生产流水线
  • 开源模型大幅降低成本:Qwen3.6 这类模型可在本地运行,适合需要隐私保护或高频调用的自动化场景
  • Agent 框架日趋成熟:配合 DeepSeekn8nLangGraph,可以搭建端到端的内容自动化系统
  • 模型更迭速度快:半年 5 次换榜意味着依赖单一模型的策略有风险,多模型调度策略更稳妥

相关延伸资料

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。