LogoThread Easy
  • 탐색
  • 스레드 작성
LogoThread Easy

트위터 스레드의 올인원 파트너

© 2025 Thread Easy All Rights Reserved.

탐색

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

RT @pk_iv: With this release, Stagehand is hands down the best browser automation framework. 

It’s fast, reliable, efficient, and optimize…

RT @pk_iv: With this release, Stagehand is hands down the best browser automation framework. It’s fast, reliable, efficient, and optimize…

investing in worldbuilders 🌐 @browserbase @sfcompute @itsalltruffles @flowercomputers @aetherfluxusa @_interfere prev @a16z

avatar for Sumeet Singh
Sumeet Singh
Thu Oct 30 02:15:41
刚看完 Cursor 2.0 发布的模型,这边 Cognition 也发布编程模型了,果然做 AI Coding 工具不可能总受限于别家的模型,尤其是行事诡异的 Anthropic 😂

言归正传,新发布的模型:SWE-1.5,一个百亿参数的前沿级模型,专为软件工程任务优化设计。团队核心论点是:开发者不应在 AI 智能体的“思考速度”与“思考深度”之间做出权衡。SWE-1.5 通过统一优化模型、推理引擎和智能体框架,实现了近乎最先进性能的同时,速度提升数倍,标志着 AI 编码工具向生产级应用的重大进步。

基准测试与技术创新
重点介绍了 SWE-Bench Verified,这是一个由 Scale AI 开发的严苛基准测试,涵盖多样化代码库中的复杂任务(如调试大型开源项目)。不同于传统基准,SWE-1.5 的训练采用强化学习,基于 Cognition 的自定义 Cascade 智能体框架,在高保真编码环境中进行。训练过程强调三种评估机制:
· 经典测试:单元测试和集成测试,确保代码正确性。
· 质量评估:使用准则检查代码风格和设计方法。
· 智能体评估:部署浏览器智能体进行端到端功能验证。

基础设施方面,Cognition 利用数千块 GB200 NVL72 芯片集群,并开发了自定义虚拟机管理器“otterlink”,支持高并发 RL 迭代。同时,与 @cerebras 合作优化推理速度,达到每秒 950 tok/s,并引入请求优先级系统和推测解码技术。这些创新解决了传统 AI 编码模型在速度瓶颈上的痛点。

性能成果与比较
SWE-1.5 在 SWE-Bench Pro 上表现出色,接近前沿水平(如与顶级模型相当的解决率),但任务完成时间仅为竞争对手的几分之一。具体而言:
· 比 Haiku 4.5 快 6 倍,比 Sonnet 4.5 快 13 倍。
· 示例任务:编辑 Kubernetes 配置文件,从以往的 20 秒缩短至不到 5 秒;构建全栈应用或探索大型代码库(如通过 Codemaps 功能)也显著加速。

文章通过数据对比强调,这种速度提升并非牺牲准确性,而是通过端到端优化实现的。工程师反馈显示,SWE-1.5 已集成到 Devin 智能体中,提升了实际开发效率。

来自 Devin 智能体的经验教训
SWE-1.5 的开发深受 Cognition 首款软件工程智能体 Devin 的影响。反思 Devin 的局限,如任务分布狭窄导致的“AI 垃圾代码”(冗长且含反模式),以及过度依赖可验证奖励而忽略代码质量。为此,SWE-1.5 采用更真实的多样化数据集,并通过内部 dogfooding 测试迭代用户体验。关键洞见是:RL 任务中的编码环境质量是模型下游性能的核心决定因素。这体现了 Cognition 从单一模型向完整智能体系统的演进。

刚看完 Cursor 2.0 发布的模型,这边 Cognition 也发布编程模型了,果然做 AI Coding 工具不可能总受限于别家的模型,尤其是行事诡异的 Anthropic 😂 言归正传,新发布的模型:SWE-1.5,一个百亿参数的前沿级模型,专为软件工程任务优化设计。团队核心论点是:开发者不应在 AI 智能体的“思考速度”与“思考深度”之间做出权衡。SWE-1.5 通过统一优化模型、推理引擎和智能体框架,实现了近乎最先进性能的同时,速度提升数倍,标志着 AI 编码工具向生产级应用的重大进步。 基准测试与技术创新 重点介绍了 SWE-Bench Verified,这是一个由 Scale AI 开发的严苛基准测试,涵盖多样化代码库中的复杂任务(如调试大型开源项目)。不同于传统基准,SWE-1.5 的训练采用强化学习,基于 Cognition 的自定义 Cascade 智能体框架,在高保真编码环境中进行。训练过程强调三种评估机制: · 经典测试:单元测试和集成测试,确保代码正确性。 · 质量评估:使用准则检查代码风格和设计方法。 · 智能体评估:部署浏览器智能体进行端到端功能验证。 基础设施方面,Cognition 利用数千块 GB200 NVL72 芯片集群,并开发了自定义虚拟机管理器“otterlink”,支持高并发 RL 迭代。同时,与 @cerebras 合作优化推理速度,达到每秒 950 tok/s,并引入请求优先级系统和推测解码技术。这些创新解决了传统 AI 编码模型在速度瓶颈上的痛点。 性能成果与比较 SWE-1.5 在 SWE-Bench Pro 上表现出色,接近前沿水平(如与顶级模型相当的解决率),但任务完成时间仅为竞争对手的几分之一。具体而言: · 比 Haiku 4.5 快 6 倍,比 Sonnet 4.5 快 13 倍。 · 示例任务:编辑 Kubernetes 配置文件,从以往的 20 秒缩短至不到 5 秒;构建全栈应用或探索大型代码库(如通过 Codemaps 功能)也显著加速。 文章通过数据对比强调,这种速度提升并非牺牲准确性,而是通过端到端优化实现的。工程师反馈显示,SWE-1.5 已集成到 Devin 智能体中,提升了实际开发效率。 来自 Devin 智能体的经验教训 SWE-1.5 的开发深受 Cognition 首款软件工程智能体 Devin 的影响。反思 Devin 的局限,如任务分布狭窄导致的“AI 垃圾代码”(冗长且含反模式),以及过度依赖可验证奖励而忽略代码质量。为此,SWE-1.5 采用更真实的多样化数据集,并通过内部 dogfooding 测试迭代用户体验。关键洞见是:RL 任务中的编码环境质量是模型下游性能的核心决定因素。这体现了 Cognition 从单一模型向完整智能体系统的演进。

专注 - Context Engineering, AI(Coding)Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴 🔗 信息卡提示词 🔽

avatar for meng shao
meng shao
Thu Oct 30 02:15:25
RT @staticmaker1: "boring" browser extension for finding the best online deals.

one-person business.

B2C venture.

monetization via membe…

RT @staticmaker1: "boring" browser extension for finding the best online deals. one-person business. B2C venture. monetization via membe…

Discovering "boring" businesses at https://t.co/VrB2vWopEc. Sharing "boring" business opportunities at https://t.co/1qQOVZrUXW.

avatar for staticmaker
staticmaker
Thu Oct 30 02:13:43
This is a *lie*. Your support team did not look at the post.

This is a *lie*. Your support team did not look at the post.

avatar for entirelyuseless
entirelyuseless
Thu Oct 30 02:11:28
Long video generation is here 👀

A new model called LongCat claims to generate minutes-long videos while maintaining quality and coherence.

It's now live on @fal, so I tested it out - it's not perfect (gets a bit warp-y at the end), but I'm pretty impressed!

Long video generation is here 👀 A new model called LongCat claims to generate minutes-long videos while maintaining quality and coherence. It's now live on @fal, so I tested it out - it's not perfect (gets a bit warp-y at the end), but I'm pretty impressed!

@fal This model is from Meituan, which is China's largest food delivery platform. (expecting DoorDash DiT soon) It's VERY cheap to run - it costs $0.005 per second of generated video, so a minute-long clip is $0.30 🤯

avatar for Justine Moore
Justine Moore
Thu Oct 30 02:10:53
Sora app 在美国、加拿大、日本、韩国限时开放注册,不需要邀请码

之前懒得搞邀请码的可以试试

Sora app 在美国、加拿大、日本、韩国限时开放注册,不需要邀请码 之前懒得搞邀请码的可以试试

关注人工智能、LLM 、 AI 图像视频和设计(Interested in AI, LLM, Stable Diffusion, and design) AIGC 周刊主理人|公众号:歸藏的AI工具箱

avatar for 歸藏(guizang.ai)
歸藏(guizang.ai)
Thu Oct 30 02:10:25
  • Previous
  • 1
  • More pages
  • 1803
  • 1804
  • 1805
  • More pages
  • 2117
  • Next