LogoThread Easy
  • Explorar
  • Componer hilo
LogoThread Easy

Tu compañero integral para hilos de Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

我个人理解,这其实就是利用LLM构建两个Agent来进行对抗
其实也是一种GAN的思维逻辑
换句话说,发展就是在不断解决阴阳对冲的过程中形成的
但想让这个系统运转
逃离不开给Agent赋予「搜索&创造工具」的能力
只要有这个能力,Agent就可以通过RL不断去和世界碰撞
最终找到解决问题的方法
这和人类实践是类似的

我个人理解,这其实就是利用LLM构建两个Agent来进行对抗 其实也是一种GAN的思维逻辑 换句话说,发展就是在不断解决阴阳对冲的过程中形成的 但想让这个系统运转 逃离不开给Agent赋予「搜索&创造工具」的能力 只要有这个能力,Agent就可以通过RL不断去和世界碰撞 最终找到解决问题的方法 这和人类实践是类似的

最后,感谢你花时间阅读了这篇推文! 关注@Yangyixxxx ,分享AI信息,商业洞察与增长实战 如果你喜欢这篇内容,也请点赞并转发第一条推文,把有价值的内容分享给更多人~

avatar for Yangyi
Yangyi
Wed Nov 26 06:53:16
斯坦福大学的这篇论文值得了解👇🏻

他们构建了一个AI智能体框架,从零数据起步,没有人工标注,没有精心设计的任务,也没有任何演示,但它竟然超越了所有现有的自博弈方法。

这个框架名为Agent0:通过工具集成推理,从零数据中释放自我进化的智能体。

它所取得的成就令人难以置信。

你之前见过的所有“自我提升”的智能体都有一个致命的缺陷:它们只能生成比它们已经知道的稍微难一点的任务,所以它们会立即达到瓶颈。

Agent0打破了这个天花板。

关键在于:

他们从同一个基础LLM中生成两个智能体,并让他们竞争。

• 课程智能体 - 生成越来越难的任务
• 执行智能体 - 尝试使用推理+工具来解决这些任务

每当执行智能体变得更好时,课程智能体就会被迫提高难度。

每当任务变得更难时,执行智能体就会被迫进化。

这创造了一个闭环、自我强化的课程螺旋,而且这一切都是从头开始的,没有数据,没有人,什么都没有。

只是两个智能体互相推动,达到更高的智能水平。

然后他们添加了作弊码:

一个完整的Python工具解释器在循环中。

执行智能体学习通过代码来推理问题。
课程智能体学习创建需要使用工具的任务。
所以两个智能体都在不断升级。

结果呢?

→ 数学推理能力提高+18%
→ 一般推理能力提高+24%
→ 击败R-Zero、SPIRAL、Absolute Zero,甚至使用外部专有API的框架
→ 所有这些都来自零数据,只是自我进化的循环

他们甚至展示了难度曲线在迭代过程中上升:任务从基本的几何开始,最终达到约束满足、组合学、逻辑谜题和多步骤依赖工具的问题。

这是我们见过的最接近LLM中自主认知增长的东西。

Agent0不仅仅是“更好的RL”。

它是智能体引导自身智能的蓝图。

智能体时代已经解锁。

斯坦福大学的这篇论文值得了解👇🏻 他们构建了一个AI智能体框架,从零数据起步,没有人工标注,没有精心设计的任务,也没有任何演示,但它竟然超越了所有现有的自博弈方法。 这个框架名为Agent0:通过工具集成推理,从零数据中释放自我进化的智能体。 它所取得的成就令人难以置信。 你之前见过的所有“自我提升”的智能体都有一个致命的缺陷:它们只能生成比它们已经知道的稍微难一点的任务,所以它们会立即达到瓶颈。 Agent0打破了这个天花板。 关键在于: 他们从同一个基础LLM中生成两个智能体,并让他们竞争。 • 课程智能体 - 生成越来越难的任务 • 执行智能体 - 尝试使用推理+工具来解决这些任务 每当执行智能体变得更好时,课程智能体就会被迫提高难度。 每当任务变得更难时,执行智能体就会被迫进化。 这创造了一个闭环、自我强化的课程螺旋,而且这一切都是从头开始的,没有数据,没有人,什么都没有。 只是两个智能体互相推动,达到更高的智能水平。 然后他们添加了作弊码: 一个完整的Python工具解释器在循环中。 执行智能体学习通过代码来推理问题。 课程智能体学习创建需要使用工具的任务。 所以两个智能体都在不断升级。 结果呢? → 数学推理能力提高+18% → 一般推理能力提高+24% → 击败R-Zero、SPIRAL、Absolute Zero,甚至使用外部专有API的框架 → 所有这些都来自零数据,只是自我进化的循环 他们甚至展示了难度曲线在迭代过程中上升:任务从基本的几何开始,最终达到约束满足、组合学、逻辑谜题和多步骤依赖工具的问题。 这是我们见过的最接近LLM中自主认知增长的东西。 Agent0不仅仅是“更好的RL”。 它是智能体引导自身智能的蓝图。 智能体时代已经解锁。

开始阅读之前,记得点赞、转发或收藏 本Threads内容由人机协同内容引擎发布 https://t.co/Gxsobg3hEN

avatar for Yangyi
Yangyi
Wed Nov 26 06:53:00
RT @dotey: Ilya:扩展时代已经结束了,研究的时代已经开始

Ilya Sutskever 大概得有一年多没参加播客访谈了,自从 OpenAI 宫斗离职创办 SSI(Safe Superintelligence)后之后就很少露面了,

最近,他在 Dwarkesh…

RT @dotey: Ilya:扩展时代已经结束了,研究的时代已经开始 Ilya Sutskever 大概得有一年多没参加播客访谈了,自从 OpenAI 宫斗离职创办 SSI(Safe Superintelligence)后之后就很少露面了, 最近,他在 Dwarkesh…

Believing is seeing

avatar for Yangyi
Yangyi
Wed Nov 26 06:45:29
RT @BurtDS: Your Laravel app is slow. 🐌  
Not your code. Not your database.  
It's your queues.  

Just wrote a guide on: 
⚡ Background job…

RT @BurtDS: Your Laravel app is slow. 🐌 Not your code. Not your database. It's your queues. Just wrote a guide on: ⚡ Background job…

~20 yrs in web-dev, now mostly Laravel. My Laravel courses: https://t.co/HRUAJdMRZL My Youtube channel: https://t.co/qPQAkaov2F

avatar for Povilas Korop | Laravel Courses Creator & Youtuber
Povilas Korop | Laravel Courses Creator & Youtuber
Wed Nov 26 06:42:00
@alexalbert 最后,感谢你花时间阅读了这篇推文! 

关注@Yangyixxxx ,分享AI信息,商业洞察与增长实战

如果你喜欢这篇内容,也请点赞并转发第一条推文,把有价值的内容分享给更多人~

@alexalbert 最后,感谢你花时间阅读了这篇推文! 关注@Yangyixxxx ,分享AI信息,商业洞察与增长实战 如果你喜欢这篇内容,也请点赞并转发第一条推文,把有价值的内容分享给更多人~

Believing is seeing

avatar for Yangyi
Yangyi
Wed Nov 26 06:39:32
总结一下自己:
通过最近两年来学习和实践,我觉得我对产品方向的把握、趋势的判断的理解更加深刻了。  
但是在执行力、资源整合方面仍然是一个新手。  
---
最近看到一些优秀的ai agent 产品,有些内容和我去年的想法非常接近,但人家做出来了, 而且做的更好,而我还在这里发推。

总结一下自己: 通过最近两年来学习和实践,我觉得我对产品方向的把握、趋势的判断的理解更加深刻了。 但是在执行力、资源整合方面仍然是一个新手。 --- 最近看到一些优秀的ai agent 产品,有些内容和我去年的想法非常接近,但人家做出来了, 而且做的更好,而我还在这里发推。

Solo Developer | Growth Coach|Helping creators build their personal brand on X 公众号:PandaTalk8

avatar for Mr Panda
Mr Panda
Wed Nov 26 06:37:11
  • Previous
  • 1
  • More pages
  • 2327
  • 2328
  • 2329
  • More pages
  • 5635
  • Next