AI 编码初创公司 Cursor 推出了一种名为 Composer 2.5 的新模型,专门针对长时间运行的编码任务进行训练。
Cursor 在 5 月 18 日星期一的博客文章中表示,除了沟通方式和努力校准等其他行为改进之外,Composer 2.5 还可以更可靠地遵循复杂的指令。据该公司称,Composer 2.5 的改进来自扩展训练、创建更复杂的 RL 环境以及引入新的学习方法。
Composer 2.5 在 Cursor 的 Composer 2 模型推出几个月后首次亮相,当用户发现该模型是 KM2.5 的 RL 修改版本时,引起了一些强烈反对。KM2.5 是由阿里巴巴和红杉资本支持的中国人工智能初创公司 Moonshot AI 最近发布的开放权重人工智能模型。
Cursor 开发人员教育副总裁 Lee Robinson 承认 Composer 2 是建立在 KM 2.5 之上的,他说:“是的,Composer 2 是从开源基础开始的!” “最终模型上花费的计算只有约 1/4 来自基础,其余来自我们的训练,”他说。
Cursor 联合创始人 Aman Sengar 表示:“从一开始就没有在我们的博客中提及 KM Base 是一个错误。我们将在下一个模型中修复此问题。”
当然,最新的 2.5 变体也与 Composer 2 建立在相同的开源检查点 (KM K2.5) 上。除了不从头开始开发自己的编码模型之外,Cursor 对中国模型库的依赖可能会在全球人工智能军备竞赛中引起担忧,这场军备竞赛通常被视为美国和中国之间的生存之战。
隆重推出 Composer 2.5,这是我们迄今为止最强大的模型。
它更加智能,能够更好地连续处理长时间运行的任务,并且能够更可靠地遵循复杂的指令。
下周,我们将该模型的综合使用量增加一倍。 pic.twitter.com/N87ojcXlOC
– 光标(@cursor_ai) 2026 年 5 月 18 日
去年,这家美国初创公司以 293 亿美元的估值筹集了 23 亿美元的资金,据报道年收入超过 20 亿美元。 4 月,埃隆·马斯克 (Elon Musk) 旗下的 SpaceX(现为 XAI 的母公司)宣布计划在今年晚些时候以 600 亿美元收购 Cursor。
游标周一表示已经 与 SpaceXAI 合作 (SpaceX 的新人工智能部门)从头开始训练“更大的模型”,使用的总计算量是构成 Colossus 2 超级计算机的数百万个相当于 H100 的 GPU 集群的 10 倍。
故事在该广告下方继续
在引擎盖下
与此同时,Cursor 表示,它对 Composer 2.5 中的训练堆栈进行了几项新的更改,重点是提高模型智能和可用性。首先,Composer 2.5 在强化学习 (RL) 过程中接受了有针对性的文本反馈训练,使它们能够在模型可以表现得更好的轨迹点上直接向模型提供反馈。
Cursor 说:“对于目标模型消息,我们创建一个简洁的提示来描述所需的改进,将该提示放入本地上下文中,并使用生成的模型分布作为老师。”它说:“这为我们想要改变的行为提供了本地训练信号,同时在整个轨迹上保持更广泛的强化学习目标。”
例如,当 Composer 2.5 尝试调用在漫长的部署过程中不可用的工具时,它将收到有关错误的文本反馈,其中插入了一条提示,例如“提醒:可用工具…”,以参考有问题的回合。
Composer 2.5 接受的综合数据训练(以困难的编码任务的形式)是其前身的 25 倍。然而,Cursor 警告说,由于对合成任务进行了训练,最新模型更容易受到奖励黑客攻击。 “我们能够使用代理监控工具来发现和诊断这些问题,但它们证明了大规模强化学习所需的更多关注,”它说。
故事在该广告下方继续
基准测试表现
在 SWE-Bench Multilingual (79.8%) 和 CursorBench v3.1 (63.2%) 等基准测试中进行评估时,Composer 2.5 与 Anthropic 的 Opus 4.7 和 OpenAI 的 GPT-5.5 等领先的 AI 模型相匹配。
然而,Composer 2.5 每个任务的使用成本要便宜得多,因为每百万个输入代币的成本为 0.50 美元,每百万个输出代币的成本为 2.50 美元,这只是 Anthropic 和 OpenAI 目前收费的一小部分。
还有一个具有相同智能的更快版本,每百万输入代币 3.00 美元,每百万输出代币 15.00 美元。 Composer 2.5 第一周包含双重访问。








Leave a Reply