LogoThread Easy
  • Explorar
  • Componer hilo
LogoThread Easy

Tu compañero integral para hilos de Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

RT @jayair: The "aha moment" is the instant a user experiences the core value of your product, the moment it *clicks* for them.

Getting a…

RT @jayair: The "aha moment" is the instant a user experiences the core value of your product, the moment it *clicks* for them. Getting a…

building workers observability @cloudflaredev, prev founder @baselimehq (acquired by cloudflare), prev aerodynamicist

avatar for boris tane
boris tane
Wed Nov 26 00:31:44
这段系统指令让 Gemini 3 Pro 智能体性能提升 5%

来自 @_philschmid 的分享,一个针对 Gemini 3 Pro 模型的系统指令模板。这个模板通过融入后训练最佳实践,帮助智能体在多步骤工作流中提升可靠性,并在多个智能体基准测试上实现了约 5% 的性能提升。这项改进源于与 Google DeepMind 后训练研究团队的合作,并已整合进官方文档。

Gemini 模型天生具备强大推理能力,但复杂智能体任务需要显式指令来引导模型的规划与执行行为。这些指令能强制模型采用特定策略,例如在遇到问题时保持持久性、进行风险评估,或主动规划步骤,从而减少随机错误并提高任务完成率。

指令模板的核心内容与逻辑
提供的系统指令是一个结构化的框架,旨在让模型在响应前系统性地“思考”并规划。模板以“你是一个非常强大的推理者和规划者”开头,强调主动性,然后列出 9 条关键指导原则。这些原则形成一个闭环流程,确保智能体从规划到执行都严谨可靠。

1. 逻辑依赖与约束分析:在采取任何行动(工具调用或用户响应)前,评估行动是否符合政策规则、操作顺序、前置条件和用户偏好。优先解决冲突,例如重新排序用户随机请求的操作,以避免阻塞后续步骤。

2. 风险评估:权衡行动后果,判断是否会引发未来问题。对于探索性任务(如搜索),优先使用可用信息调用工具,而非过多询问用户,除非后续步骤明确需要额外细节。

3. 溯因推理与假设探索:针对问题,挖掘最可能根因(而非表面原因),并测试多个假设。优先高概率假设,但勿仓促排除低概率选项;每个假设可能需多步验证,包括额外研究。

4. 结果评估与适应性:基于新观察调整计划。如果初始假设被证伪,主动生成新假设。

5. 信息可用性:整合所有来源,包括工具能力、政策规则、对话历史和用户查询。确保全面覆盖备选信息。

6. 精确性与 grounding:推理须高度精确,通过引用确切来源(如政策文本)验证声明,避免泛化。

7. 完整性:穷尽所有要求、选项和约束,使用优先级顺序化解冲突。检查备选方案的相关性,若不确定则咨询用户;避免仓促结论。

8. 持久性与耐心:除非所有推理路径耗尽,否则勿放弃。面对瞬态错误(如“请重试”)必须重试,直至达到明确重试上限;否则,调整策略而非简单失败。

9. 响应抑制:仅在完成上述全部推理后执行行动,一旦行动不可逆转。

这段系统指令让 Gemini 3 Pro 智能体性能提升 5% 来自 @_philschmid 的分享,一个针对 Gemini 3 Pro 模型的系统指令模板。这个模板通过融入后训练最佳实践,帮助智能体在多步骤工作流中提升可靠性,并在多个智能体基准测试上实现了约 5% 的性能提升。这项改进源于与 Google DeepMind 后训练研究团队的合作,并已整合进官方文档。 Gemini 模型天生具备强大推理能力,但复杂智能体任务需要显式指令来引导模型的规划与执行行为。这些指令能强制模型采用特定策略,例如在遇到问题时保持持久性、进行风险评估,或主动规划步骤,从而减少随机错误并提高任务完成率。 指令模板的核心内容与逻辑 提供的系统指令是一个结构化的框架,旨在让模型在响应前系统性地“思考”并规划。模板以“你是一个非常强大的推理者和规划者”开头,强调主动性,然后列出 9 条关键指导原则。这些原则形成一个闭环流程,确保智能体从规划到执行都严谨可靠。 1. 逻辑依赖与约束分析:在采取任何行动(工具调用或用户响应)前,评估行动是否符合政策规则、操作顺序、前置条件和用户偏好。优先解决冲突,例如重新排序用户随机请求的操作,以避免阻塞后续步骤。 2. 风险评估:权衡行动后果,判断是否会引发未来问题。对于探索性任务(如搜索),优先使用可用信息调用工具,而非过多询问用户,除非后续步骤明确需要额外细节。 3. 溯因推理与假设探索:针对问题,挖掘最可能根因(而非表面原因),并测试多个假设。优先高概率假设,但勿仓促排除低概率选项;每个假设可能需多步验证,包括额外研究。 4. 结果评估与适应性:基于新观察调整计划。如果初始假设被证伪,主动生成新假设。 5. 信息可用性:整合所有来源,包括工具能力、政策规则、对话历史和用户查询。确保全面覆盖备选信息。 6. 精确性与 grounding:推理须高度精确,通过引用确切来源(如政策文本)验证声明,避免泛化。 7. 完整性:穷尽所有要求、选项和约束,使用优先级顺序化解冲突。检查备选方案的相关性,若不确定则咨询用户;避免仓促结论。 8. 持久性与耐心:除非所有推理路径耗尽,否则勿放弃。面对瞬态错误(如“请重试”)必须重试,直至达到明确重试上限;否则,调整策略而非简单失败。 9. 响应抑制:仅在完成上述全部推理后执行行动,一旦行动不可逆转。

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Wed Nov 26 00:28:21
RT @AkariAsai: 1/ Hiring PhD students at CMU SCS (LTI/MLD) for Fall 2026 (Deadline 12/10) 🎓 
I work on open, reliable LMs: augmented LMs &…

RT @AkariAsai: 1/ Hiring PhD students at CMU SCS (LTI/MLD) for Fall 2026 (Deadline 12/10) 🎓 I work on open, reliable LMs: augmented LMs &…

Asst professor @MIT EECS & CSAIL (@nlp_mit). Author of https://t.co/VgyLxl0oa1 and https://t.co/ZZaSzaRaZ7 (@DSPyOSS). Prev: CS PhD @StanfordNLP. Research @Databricks.

avatar for Omar Khattab
Omar Khattab
Wed Nov 26 00:24:38
RT @sainingxie: well someone has been preaching this at us for like 6+ years
glad we are past the 'feel the agi' phase and back to building…

RT @sainingxie: well someone has been preaching this at us for like 6+ years glad we are past the 'feel the agi' phase and back to building…

Professor at NYU. Chief AI Scientist at Meta. Researcher in AI, Machine Learning, Robotics, etc. ACM Turing Award Laureate.

avatar for Yann LeCun
Yann LeCun
Wed Nov 26 00:21:31
RT @yorecomputer: 1989:

ACE - Issue 24 (1989-09)(Future Publishing)(GB), page 72

Full mag --> https://t.co/tdKPvb2tR4 https://t.co/P85uWX…

RT @yorecomputer: 1989: ACE - Issue 24 (1989-09)(Future Publishing)(GB), page 72 Full mag --> https://t.co/tdKPvb2tR4 https://t.co/P85uWX…

I eat tornadoes for breakfast. i've been using this username for 15+ years and i will not give it to you. whatever/just dont call me late to dinner

avatar for the government man
the government man
Wed Nov 26 00:20:28
看实验报告时看到了这个图表,在学校教室做实验:控制组(不放空气净化),Medium组(放中型空气净化器),Large组(放大型空气净化器),然后对比试验效果。很明显是越大设备效果更好。

但是再看看纵坐标:即使是控制组的 PM2.5也只是5µg/m3,已经近满分状态了。

也就是他们在做 99 分到100的事情…

看实验报告时看到了这个图表,在学校教室做实验:控制组(不放空气净化),Medium组(放中型空气净化器),Large组(放大型空气净化器),然后对比试验效果。很明显是越大设备效果更好。 但是再看看纵坐标:即使是控制组的 PM2.5也只是5µg/m3,已经近满分状态了。 也就是他们在做 99 分到100的事情…

生活在杭州良渚的开发者。最近在做 https://t.co/Fu0JLSMTGF

avatar for 图拉鼎
图拉鼎
Wed Nov 26 00:17:05
  • Previous
  • 1
  • More pages
  • 2351
  • 2352
  • 2353
  • More pages
  • 5635
  • Next