Cursor 发布 Composer 2.5:训练方法革新让 AI 编码代理更聪明
Cursor 于 2026 年 5 月 18 日发布 Composer 2.5,基于 Kimi K2.5 checkpoint 训练,引入定向文本反馈强化学习和分片 Muon 优化器。新模型在长任务执行、指令遵循和协作体验上显著提升,定价 $0.50/M 输入 token。本文拆解技术细节与实战建议。
2026年5月19日 · 阅读约 6 分钟
核心结论
2026 年 5 月 18 日,Cursor 正式发布 Composer 2.5——其 AI 编码代理模型的重大升级。新版本基于 Moonshot Kimi K2.5 开源 checkpoint,采用定向文本反馈强化学习和分片 Muon 优化器训练,在长任务持续执行、复杂指令遵循和协作体验上有显著提升。定价 $0.50/M 输入 token、$2.50/M 输出 token,首周用量翻倍。
关键要点
- 发布时间:2026-05-18
- 影响对象:AI 编码代理用户、Cursor 使用者、自动化流水线开发者
- 核心变化:定向反馈 RL + 分片 Muon 优化器,智能和可用性双提升
背景与触发事件
Cursor 团队在官方博客正式公开了 Composer 2.5 的技术细节。新模型的定位是"更智能、更适合长任务、协作更愉悦"——这不仅是模型能力的升级,更是 AI 编码代理产品形态的进化。Composer 2.5 和其前身 Composer 2 一样,都基于 Moonshot 的 Kimi K2.5 开源 checkpoint 微调训练,但 Cursor 正联合 SpaceXAI 用 10 倍算力从头训练一个显著更大的模型。
本次发布也反映了一个更宏观的趋势:AI 编码工具不再比"谁能写对一行代码",而是比"谁能跑完整个项目"。长上下文 Rollout 中的信用分配、行为校准、奖励黑客防护——这些原本只在 RL 研究中讨论的问题,现在成了产品的核心竞争力。
关键影响(按维度)
下表总结了 Composer 2.5 各维度的变化与实际意义:
| 维度 | 变化 | 对我们意味着什么 | 建议动作 |
|---|---|---|---|
| 智能 | 定向文本反馈 RL 加入训练,长 Rollout 中信用分配更准 | AI 编码工具能处理更复杂的多步骤任务,从头到尾更少出错 | 将 Cursor 作为 AI 编码首选工具之一,测试长流程任务 |
| 行为 | 沟通风格和努力校准经 RL 优化,协作体验提升 | 交互不再僵硬,AI 能判断什么时候该主动什么时候该等待 | 更新 Composer 到最新版本,体验优化的协作模式 |
| 架构 | 分片 Muon + 双网格 HSDP,MoE 训练效率更高 | 意味着更快的迭代速度和更低的推理成本 | 关注后续更大模型的发布窗口,计算性价比会持续改善 |
| 定价 | $0.50/M 输入、$2.50/M 输出 | 对于高频编码用户,Composer 2.5 的性价比优于同级模型 | 本周内试用双倍用量,评估是否值得订阅 |
| 训练 | 10x 算力从头训练更大模型(与 SpaceXAI 合作) | 下一代模型预期有质的飞跃 | 关注后续公告,当前 Composer 2.5 已是可用的最佳版本 |
适配建议
如果你是 Cursor 用户,以下是几个可直接上手的动作:
- 升级到最新版 Cursor:Composer 2.5 默认启用。新用户创建项目后即可体验。
- 测试长任务执行:找一份你之前需要分多步手动完成的编码工作,一次性交给 Composer 2.5。新版本在长 Rollout 中的信用分配改善意味着它能更好追踪自己在做什么。
- 尝试复杂指令:Composer 2.5 训练中加入了定向文本反馈——你可以给更模糊但需要推理的指令,观察它通过 context 中的"提示"自我修正。
- 第一周充分利用双倍用量:Composer 2.5 前 7 天用量翻倍,适合高强度测试。
任务清单(示例)
- 升级 Cursor 到最新版本
- 选择一个悬而未决的复杂编码任务作为测试用例
- 注意 Composer 2.5 的行为模式变化:沟通风格是否更自然
- 记录长 Rollout(>1000 步)的完成率,与 Composer 2 对比
示例:快速验证升级
确认 Composer 2.5 已启用的方法:
# 在 Cursor 中打开命令面板 (Cmd+Shift+P)
# 输入 "Composer: Show Version
# 检查版本号是否为 2.5
# 或在终端查询
cursor --version技术深掘:定向文本反馈与分片 Muon
Composer 2.5 最重要的技术创新是加入了两项 RL 训练改进:
定向文本反馈(Targeted RL with Textual Feedback) 标准的 RL 训练在整个 Rollout 结束时给出一个总奖励分。但编码 Rollout 可能跨越数十万 token——AI 可能在前 100 步做了个错误工具调用,后面 900 步都在错的基础上补救。传统 RL 无法区分"哪一步错了"。
Composer 2.5 的做法是:在训练中,在模型行为出问题的位置直接插入一条文本提示,比如「提醒:可用工具列表是...」。这个提示只在该轮训练中出现,下一轮消失。这使得模型能精确学习"在特定场景下应该如何表现"。
分片 Muon + 双网格 HSDP 对于 MoE(混合专家)架构的大模型训练,Muon 优化器的正交化步骤天然适合分布式:注意力头和高维矩阵可以在各 GPU 上独立做牛顿-舒尔茨正交化。Cursor 团队把这一思路推到了极致——专家权重全部收集到单设备上正交化后再分发回去。配合为 expert/non-expert 参数分别设计的 HSDP 布局,CP=2 和 EP=8 可以在 8 张 GPU 上同时运行(传统方式需要 16 张)。
工具词条(触发工具悬浮卡)
本文涉及的工具包括 Cursor、OpenAI(GPT 系列)、Claude(Claude Code)、DeepSeek。这些工具是 AI 编码和自动化工作流的核心组件。
内链引导
- 想学更完整的 AI Agent 工具实操?看:AI Agent 工具实操教程:从安装到自动化工作流
- 如何给 AI 自动化工作流加质量门?看:如何给 AI 自动化工作流加质量门
- 真实案例:他用 Claude 48 小时创业,月入 $9,000:Claude Code 48小时创业:一人+29美元月费