Cursor 发布 Composer 2.5：训练方法革新让 AI 编码代理更聪明

Cursor 于 2026 年 5 月 18 日发布 Composer 2.5，基于 Kimi K2.5 checkpoint 训练，引入定向文本反馈强化学习和分片 Muon 优化器。新模型在长任务执行、指令遵循和协作体验上显著提升，定价 $0.50/M 输入 token。本文拆解技术细节与实战建议。

核心结论

2026 年 5 月 18 日，Cursor 正式发布 Composer 2.5——其 AI 编码代理模型的重大升级。新版本基于 Moonshot Kimi K2.5 开源 checkpoint，采用定向文本反馈强化学习和分片 Muon 优化器训练，在长任务持续执行、复杂指令遵循和协作体验上有显著提升。定价 $0.50/M 输入 token、$2.50/M 输出 token，首周用量翻倍。

关键要点

发布时间：2026-05-18
影响对象：AI 编码代理用户、Cursor 使用者、自动化流水线开发者
核心变化：定向反馈 RL + 分片 Muon 优化器，智能和可用性双提升

背景与触发事件

Cursor 团队在官方博客正式公开了 Composer 2.5 的技术细节。新模型的定位是"更智能、更适合长任务、协作更愉悦"——这不仅是模型能力的升级，更是 AI 编码代理产品形态的进化。Composer 2.5 和其前身 Composer 2 一样，都基于 Moonshot 的 Kimi K2.5 开源 checkpoint 微调训练，但 Cursor 正联合 SpaceXAI 用 10 倍算力从头训练一个显著更大的模型。

本次发布也反映了一个更宏观的趋势：AI 编码工具不再比"谁能写对一行代码"，而是比"谁能跑完整个项目"。长上下文 Rollout 中的信用分配、行为校准、奖励黑客防护——这些原本只在 RL 研究中讨论的问题，现在成了产品的核心竞争力。

关键影响（按维度）

下表总结了 Composer 2.5 各维度的变化与实际意义：

维度	变化	对我们意味着什么	建议动作
智能	定向文本反馈 RL 加入训练，长 Rollout 中信用分配更准	AI 编码工具能处理更复杂的多步骤任务，从头到尾更少出错	将 Cursor 作为 AI 编码首选工具之一，测试长流程任务
行为	沟通风格和努力校准经 RL 优化，协作体验提升	交互不再僵硬，AI 能判断什么时候该主动什么时候该等待	更新 Composer 到最新版本，体验优化的协作模式
架构	分片 Muon + 双网格 HSDP，MoE 训练效率更高	意味着更快的迭代速度和更低的推理成本	关注后续更大模型的发布窗口，计算性价比会持续改善
定价	$0.50/M 输入、$2.50/M 输出	对于高频编码用户，Composer 2.5 的性价比优于同级模型	本周内试用双倍用量，评估是否值得订阅
训练	10x 算力从头训练更大模型（与 SpaceXAI 合作）	下一代模型预期有质的飞跃	关注后续公告，当前 Composer 2.5 已是可用的最佳版本

适配建议

如果你是 Cursor 用户，以下是几个可直接上手的动作：

升级到最新版 Cursor：Composer 2.5 默认启用。新用户创建项目后即可体验。
测试长任务执行：找一份你之前需要分多步手动完成的编码工作，一次性交给 Composer 2.5。新版本在长 Rollout 中的信用分配改善意味着它能更好追踪自己在做什么。
尝试复杂指令：Composer 2.5 训练中加入了定向文本反馈——你可以给更模糊但需要推理的指令，观察它通过 context 中的"提示"自我修正。
第一周充分利用双倍用量：Composer 2.5 前 7 天用量翻倍，适合高强度测试。

任务清单（示例）

升级 Cursor 到最新版本
选择一个悬而未决的复杂编码任务作为测试用例
注意 Composer 2.5 的行为模式变化：沟通风格是否更自然
记录长 Rollout（>1000 步）的完成率，与 Composer 2 对比

示例：快速验证升级

确认 Composer 2.5 已启用的方法：

terminal


# 在 Cursor 中打开命令面板 (Cmd+Shift+P)

# 输入 "Composer: Show Version

# 检查版本号是否为 2.5

# 或在终端查询
cursor --version

技术深掘：定向文本反馈与分片 Muon

Composer 2.5 最重要的技术创新是加入了两项 RL 训练改进：

定向文本反馈（Targeted RL with Textual Feedback） 标准的 RL 训练在整个 Rollout 结束时给出一个总奖励分。但编码 Rollout 可能跨越数十万 token——AI 可能在前 100 步做了个错误工具调用，后面 900 步都在错的基础上补救。传统 RL 无法区分"哪一步错了"。

Composer 2.5 的做法是：在训练中，在模型行为出问题的位置直接插入一条文本提示，比如「提醒：可用工具列表是...」。这个提示只在该轮训练中出现，下一轮消失。这使得模型能精确学习"在特定场景下应该如何表现"。

分片 Muon + 双网格 HSDP 对于 MoE（混合专家）架构的大模型训练，Muon 优化器的正交化步骤天然适合分布式：注意力头和高维矩阵可以在各 GPU 上独立做牛顿-舒尔茨正交化。Cursor 团队把这一思路推到了极致——专家权重全部收集到单设备上正交化后再分发回去。配合为 expert/non-expert 参数分别设计的 HSDP 布局，CP=2 和 EP=8 可以在 8 张 GPU 上同时运行（传统方式需要 16 张）。

Composer 2.5 训练架构示意图

工具词条（触发工具悬浮卡）

本文涉及的工具包括 Cursor、OpenAI（GPT 系列）、Claude（Claude Code）、DeepSeek。这些工具是 AI 编码和自动化工作流的核心组件。

内链引导

想学更完整的 AI Agent 工具实操？看：AI Agent 工具实操教程：从安装到自动化工作流
如何给 AI 自动化工作流加质量门？看：如何给 AI 自动化工作流加质量门
真实案例：他用 Claude 48 小时创业，月入 $9,000：Claude Code 48小时创业：一人+29美元月费