Explorar
Componer hilo

Thread Easy

Tu compañero integral para hilos de Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Author handle

From date

To date

Blur thumbnails

Keep on to blur preview images; turn off to show them clearly

Our team won the BEHAVIOR-1K Challenge at @NeurIPSConf

It started as a random call with @zaringleb (who I didn't know back then), who told me about the competition and invited me to join the team, and turned into two months of evenings and weekends teaching the robot to do home chores in simulation.

I learned a lot and tried out a few new VLA-related ideas I'd had in my head for a while.

We will share our solution: tech report, code, model weights, and a detailed video about the competition and our approach soon.

I will also present a summary of the approach at the NeurIPS 2025 BEHAVIOR-1K workshop this Sunday (online).

But right now, you can watch a robot autonomously completing a bunch of tasks controlled by our policy, from simple 30-second to multi-step 10+ minutes problems. This video is cherry-picked; our score is 26% (including partial successes), and we will share more details, including failed attempts, later.

Our team won the BEHAVIOR-1K Challenge at @NeurIPSConf It started as a random call with @zaringleb (who I didn't know back then), who told me about the competition and invited me to join the team, and turned into two months of evenings and weekends teaching the robot to do home chores in simulation. I learned a lot and tried out a few new VLA-related ideas I'd had in my head for a while. We will share our solution: tech report, code, model weights, and a detailed video about the competition and our approach soon. I will also present a summary of the approach at the NeurIPS 2025 BEHAVIOR-1K workshop this Sunday (online). But right now, you can watch a robot autonomously completing a bunch of tasks controlled by our policy, from simple 30-second to multi-step 10+ minutes problems. This video is cherry-picked; our score is 26% (including partial successes), and we will share more details, including failed attempts, later.

Challenge site: https://t.co/WrOJCLrK0Q

Tue Dec 02 01:47:03

开发生产级 AI Agent 一年的实战经验 - 来自 @posthog 团队分享

咱们从架构哲学、战术实现、开发陷阱与产品体验四个维度展开看看。

一、核心架构哲学：简单胜过复杂
复杂的编排往往不仅无用，反而有害。

1. Agent 优于工作流
· 误区：早期业界流行用图或预定义的工作流来控制 AI，认为这样更可控。
· 现实：这种方式在处理开放式任务时极其脆弱，一旦 AI 偏离预设路径不仅无法自我纠正，还会丢失上下文。
· 结论：现在的架构回归到了一个简单的单循环。让 LLM 在一个循环中不断执行、验证、自我修正，直到完成任务。

2. 单体循环优于子智能体
· 误区：很多人喜欢设计复杂的“子智能体”架构。
· 现实：每增加一层抽象和分工，都会导致严重的上下文丢失。模型需要完整的全局信息才能做出最佳判断。
· 结论：一个拥有简单工具集的单一 LLM 循环，往往比一群各司其职的子智能体表现得更聪明、更有效。

二、关键战术实现：让模型“专注”与“懂行”
两个极其落地的“微操”技巧：

1. To-do 清单是超能力
· 为了防止 Agent 在长任务中“迷路”，他们引入了一个看似多余的工具 todo_write。
· 这实际上是一种强化的“思维链”。Agent 在每一步结束后都要更新这个清单，这强制它不断自我强化下一步的目标，极大地提高了任务完成率。

2. 上下文是关键
· 用户的问题往往充满歧义（例如拼写错误或内部术语）。如果没有背景知识，AI 无法正确理解。
· 他们借鉴了 Claude Code 的做法，引入了 /init 命令。通过网络搜索和分析，为 Agent 建立一个项目级的记忆库，让 AI 真正“懂”用户的业务。

三、开发陷阱：警惕框架与唯评估论
两个非常犀利的警告：

1. 拒绝过度依赖框架
· 他们明确表示后悔使用 LangChain 和 LangGraph。
· AI 模型迭代极快，重型框架往往跟不上变化，反而成为累赘。他们建议保持“低代码层级”，直接调用 API 往往最灵活、最长久。

2. Evals 不是万能的
· 虽然测试集很重要，但现实世界的复杂性（脏数据、奇怪的用户路径）远超测试集覆盖范围。
· 他们强调“Traces Hour”（定期人工审查真实日志）的重要性。理解真实用户如何通过 AI 交互，比跑通完美的测试集更有价值。

四、产品体验与模型策略

1. 展示全过程
· 不要试图把 AI 包装成一个完美的黑盒。用户更信任“透明”的 AI。
· PostHog AI 选择展示所有的工具调用、推理过程，甚至是失败的尝试。这种“白盒”体验能让用户建立信心，也更容易发现问题。

2. 紧跟模型红利
· 目前的“版本答案”是：Claude Sonnet 4.5 用于核心循环，OpenAI o4-mini 用于推理和生成复杂查询。但开发者必须时刻准备好迎接下一个更强的模型。

总结
PostHog 的这一年经验可以概括为：去伪存真。
他们抛弃了早期 AI 开发中那些看似高大上实则臃肿的“多智能体协作”、“复杂图编排”和“重型开发框架”，回归到了最朴素的单循环架构。通过赋予模型更清晰的记忆（To-dos）、更丰富的上下文（Context）以及更透明的交互，打造出了真正能干活的 AI 助手。

博客地址

开发生产级 AI Agent 一年的实战经验 - 来自 @posthog 团队分享咱们从架构哲学、战术实现、开发陷阱与产品体验四个维度展开看看。一、核心架构哲学：简单胜过复杂复杂的编排往往不仅无用，反而有害。 1. Agent 优于工作流 · 误区：早期业界流行用图或预定义的工作流来控制 AI，认为这样更可控。 · 现实：这种方式在处理开放式任务时极其脆弱，一旦 AI 偏离预设路径不仅无法自我纠正，还会丢失上下文。 · 结论：现在的架构回归到了一个简单的单循环。让 LLM 在一个循环中不断执行、验证、自我修正，直到完成任务。 2. 单体循环优于子智能体 · 误区：很多人喜欢设计复杂的“子智能体”架构。 · 现实：每增加一层抽象和分工，都会导致严重的上下文丢失。模型需要完整的全局信息才能做出最佳判断。 · 结论：一个拥有简单工具集的单一 LLM 循环，往往比一群各司其职的子智能体表现得更聪明、更有效。二、关键战术实现：让模型“专注”与“懂行” 两个极其落地的“微操”技巧： 1. To-do 清单是超能力 · 为了防止 Agent 在长任务中“迷路”，他们引入了一个看似多余的工具 todo_write。 · 这实际上是一种强化的“思维链”。Agent 在每一步结束后都要更新这个清单，这强制它不断自我强化下一步的目标，极大地提高了任务完成率。 2. 上下文是关键 · 用户的问题往往充满歧义（例如拼写错误或内部术语）。如果没有背景知识，AI 无法正确理解。 · 他们借鉴了 Claude Code 的做法，引入了 /init 命令。通过网络搜索和分析，为 Agent 建立一个项目级的记忆库，让 AI 真正“懂”用户的业务。三、开发陷阱：警惕框架与唯评估论两个非常犀利的警告： 1. 拒绝过度依赖框架 · 他们明确表示后悔使用 LangChain 和 LangGraph。 · AI 模型迭代极快，重型框架往往跟不上变化，反而成为累赘。他们建议保持“低代码层级”，直接调用 API 往往最灵活、最长久。 2. Evals 不是万能的 · 虽然测试集很重要，但现实世界的复杂性（脏数据、奇怪的用户路径）远超测试集覆盖范围。 · 他们强调“Traces Hour”（定期人工审查真实日志）的重要性。理解真实用户如何通过 AI 交互，比跑通完美的测试集更有价值。四、产品体验与模型策略 1. 展示全过程 · 不要试图把 AI 包装成一个完美的黑盒。用户更信任“透明”的 AI。 · PostHog AI 选择展示所有的工具调用、推理过程，甚至是失败的尝试。这种“白盒”体验能让用户建立信心，也更容易发现问题。 2. 紧跟模型红利 · 目前的“版本答案”是：Claude Sonnet 4.5 用于核心循环，OpenAI o4-mini 用于推理和生成复杂查询。但开发者必须时刻准备好迎接下一个更强的模型。总结 PostHog 的这一年经验可以概括为：去伪存真。他们抛弃了早期 AI 开发中那些看似高大上实则臃肿的“多智能体协作”、“复杂图编排”和“重型开发框架”，回归到了最朴素的单循环架构。通过赋予模型更清晰的记忆（To-dos）、更丰富的上下文（Context）以及更透明的交互，打造出了真正能干活的 AI 助手。博客地址

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

Tue Dec 02 01:43:29

RT @gus_tiffer: Day 5 - building apps while my baby naps.

Dad Mode is working on my phone!!

> built in 5 days
> probably 10ish hours
> b…

RT @gus_tiffer: Day 5 - building apps while my baby naps. Dad Mode is working on my phone!! > built in 5 days > probably 10ish hours > b…

https://t.co/zSf5Z2H78P https://t.co/ryMAyS77qn https://t.co/Gm6gdHaLgp On a mission to inspire 1B people to build stuff!

Tue Dec 02 01:38:12

RT @thoma_gu: Thanks @_akhaliq for sharing our work!!

All the code for STARFlow-V and the prior work STARFlow (NeurIPS spotlight @ this Th…

RT @thoma_gu: Thanks @_akhaliq for sharing our work!! All the code for STARFlow-V and the prior work STARFlow (NeurIPS spotlight @ this Th…

AI research paper tweets, ML @Gradio (acq. by @HuggingFace 🤗) dm for promo ,submit papers here: https://t.co/UzmYN5XOCi

Tue Dec 02 01:37:00

现在所有的大语言模型，无论它号称上下文窗口可以多少，输入是真的可以很长，但是输出不能太长，输出长了就幻觉严重，相对好一些的是 Gemini，所以使用时，你可以输入很多资料给它参考，但是每次不要输出太多，比如一次最多输出几千字，多了就要分页。

现在所有的大语言模型，无论它号称上下文窗口可以多少，输入是真的可以很长，但是输出不能太长，输出长了就幻觉严重，相对好一些的是 Gemini，所以使用时，你可以输入很多资料给它参考，但是每次不要输出太多，比如一次最多输出几千字，多了就要分页。

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

Tue Dec 02 01:32:59

RT @CarinaLHong: @kfountou @vladtenev @axiommathai We do sponsor PhD interns - there were a few outstanding ones last batch!

RT @CarinaLHong: @kfountou @vladtenev @axiommathai We do sponsor PhD interns - there were a few outstanding ones last batch!

@axiommathai : careers@axiommath.ai

Tue Dec 02 01:30:47

Previous
1
1851
1852
1853
5634
Next