刚看完 Cursor 2.0 发布的模型,这边 Cognition 也发布编程模型了,果然做 AI Coding 工具不可能总受限于别家的模型,尤其是行事诡异的 Anthropic 😂 言归正传,新发布的模型:SWE-1.5,一个百亿参数的前沿级模型,专为软件工程任务优化设计。团队核心论点是:开发者不应在 AI 智能体的“思考速度”与“思考深度”之间做出权衡。SWE-1.5 通过统一优化模型、推理引擎和智能体框架,实现了近乎最先进性能的同时,速度提升数倍,标志着 AI 编码工具向生产级应用的重大进步。 基准测试与技术创新 重点介绍了 SWE-Bench Verified,这是一个由 Scale AI 开发的严苛基准测试,涵盖多样化代码库中的复杂任务(如调试大型开源项目)。不同于传统基准,SWE-1.5 的训练采用强化学习,基于 Cognition 的自定义 Cascade 智能体框架,在高保真编码环境中进行。训练过程强调三种评估机制: · 经典测试:单元测试和集成测试,确保代码正确性。 · 质量评估:使用准则检查代码风格和设计方法。 · 智能体评估:部署浏览器智能体进行端到端功能验证。 基础设施方面,Cognition 利用数千块 GB200 NVL72 芯片集群,并开发了自定义虚拟机管理器“otterlink”,支持高并发 RL 迭代。同时,与 @cerebras 合作优化推理速度,达到每秒 950 tok/s,并引入请求优先级系统和推测解码技术。这些创新解决了传统 AI 编码模型在速度瓶颈上的痛点。 性能成果与比较 SWE-1.5 在 SWE-Bench Pro 上表现出色,接近前沿水平(如与顶级模型相当的解决率),但任务完成时间仅为竞争对手的几分之一。具体而言: · 比 Haiku 4.5 快 6 倍,比 Sonnet 4.5 快 13 倍。 · 示例任务:编辑 Kubernetes 配置文件,从以往的 20 秒缩短至不到 5 秒;构建全栈应用或探索大型代码库(如通过 Codemaps 功能)也显著加速。 文章通过数据对比强调,这种速度提升并非牺牲准确性,而是通过端到端优化实现的。工程师反馈显示,SWE-1.5 已集成到 Devin 智能体中,提升了实际开发效率。 来自 Devin 智能体的经验教训 SWE-1.5 的开发深受 Cognition 首款软件工程智能体 Devin 的影响。反思 Devin 的局限,如任务分布狭窄导致的“AI 垃圾代码”(冗长且含反模式),以及过度依赖可验证奖励而忽略代码质量。为此,SWE-1.5 采用更真实的多样化数据集,并通过内部 dogfooding 测试迭代用户体验。关键洞见是:RL 任务中的编码环境质量是模型下游性能的核心决定因素。这体现了 Cognition 从单一模型向完整智能体系统的演进。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
