X (Twitter)

刚看完 Cursor 2.0 发布的模型，这边 Cognition 也发布编程模型了，果然做 AI Coding 工具不可能总受限于别家的模型，尤其是行事诡异的 Anthropic 😂 言归正传，新发布的模型：SWE-1.5，一个百亿参数的前沿级模型，专为软件工程任务优化设计。团队核心论点是：开发者不应在 AI 智能体的“思考速度”与“思考深度”之间做出权衡。SWE-1.5 通过统一优化模型、推理引擎和智能体框架，实现了近乎最先进性能的同时，速度提升数倍，标志着 AI 编码工具向生产级应用的重大进步。基准测试与技术创新重点介绍了 SWE-Bench Verified，这是一个由 Scale AI 开发的严苛基准测试，涵盖多样化代码库中的复杂任务（如调试大型开源项目）。不同于传统基准，SWE-1.5 的训练采用强化学习，基于 Cognition 的自定义 Cascade 智能体框架，在高保真编码环境中进行。训练过程强调三种评估机制： · 经典测试：单元测试和集成测试，确保代码正确性。 · 质量评估：使用准则检查代码风格和设计方法。 · 智能体评估：部署浏览器智能体进行端到端功能验证。基础设施方面，Cognition 利用数千块 GB200 NVL72 芯片集群，并开发了自定义虚拟机管理器“otterlink”，支持高并发 RL 迭代。同时，与 @cerebras 合作优化推理速度，达到每秒 950 tok/s，并引入请求优先级系统和推测解码技术。这些创新解决了传统 AI 编码模型在速度瓶颈上的痛点。性能成果与比较 SWE-1.5 在 SWE-Bench Pro 上表现出色，接近前沿水平（如与顶级模型相当的解决率），但任务完成时间仅为竞争对手的几分之一。具体而言： · 比 Haiku 4.5 快 6 倍，比 Sonnet 4.5 快 13 倍。 · 示例任务：编辑 Kubernetes 配置文件，从以往的 20 秒缩短至不到 5 秒；构建全栈应用或探索大型代码库（如通过 Codemaps 功能）也显著加速。文章通过数据对比强调，这种速度提升并非牺牲准确性，而是通过端到端优化实现的。工程师反馈显示，SWE-1.5 已集成到 Devin 智能体中，提升了实际开发效率。来自 Devin 智能体的经验教训 SWE-1.5 的开发深受 Cognition 首款软件工程智能体 Devin 的影响。反思 Devin 的局限，如任务分布狭窄导致的“AI 垃圾代码”（冗长且含反模式），以及过度依赖可验证奖励而忽略代码质量。为此，SWE-1.5 采用更真实的多样化数据集，并通过内部 dogfooding 测试迭代用户体验。关键洞见是：RL 任务中的编码环境质量是模型下游性能的核心决定因素。这体现了 Cognition 从单一模型向完整智能体系统的演进。

来自 meng shao（@shao__meng）的推文线程

作者信息

线程正文