LogoThread Easy
  • Explorar
  • Componer hilo
LogoThread Easy

Tu compañero integral para hilos de Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

每个 AI 模型都能学习使用 Skills 吗? 

@Letta_AI 发布 Context-Bench Skills 评测基准,来测试 AI 模型能否像人类一样"按需学习技能"。

核心问题
AI 智能体在现实应用中不可能预先掌握所有知识。团队提出的解决方案是让智能体能够动态加载专业技能——就像你在需要时查阅操作手册,而不是把所有手册都背下来。

什么是 Skills(技能)
技能本质上是可挂载的知识包,包含一个描述文件(SKILL. md)和相关资源(数据集、脚本、示例等)。关键在于智能体不应该在对话开始时就加载所有技能,而应该只在需要时才挂载相关技能。

比如,智能体可能有一个"公司风格指南"技能,只在需要撰写营销内容时才加载;或者有一个"人口普查数据模式"技能,只在分析人口统计信息时使用。

评测方法
Context-Bench Skills 使用 Anthropic 的开源技能库,通过 LLM 为每个技能生成合适的任务。评测分三个场景:

1. 基线:智能体没有任何技能
2. 技能使用:提供所需技能的元数据,智能体需要加载技能内容
3. 技能选择与使用:智能体需要从完整技能库中找到并使用正确的技能

主要发现
对于擅长使用技能的 Claude 模型,提供相关技能可使任务完成率平均提高 14.1%。更有意思的是,GPT-5 和 GLM-4.6(开源权重)等非 Anthropic 模型也能获得类似的性能提升,这表明技能获取是一种通用能力而非 Claude 特有的功能。

不过也有局限:从技能库中选择正确技能比使用已识别的技能更难——当模型需要先找到正确技能时,性能下降约 6.5%。而且能力较弱的模型(如 GPT-5 Mini)即使提供了技能也无法正确使用,说明存在一个能力门槛。

实际意义
Letta 团队开发了 Letta Code,这是一个模型无关的工具,让任何 LLM(GPT-5、Gemini、GLM-4.6 等)都能使用最初为 Claude 设计的技能库。这意味着技能成为了一种可移植的知识单元,支持智能体的持续学习——当一个智能体开发出解决方案时,可以将其打包成技能供其他智能体使用。

每个 AI 模型都能学习使用 Skills 吗? @Letta_AI 发布 Context-Bench Skills 评测基准,来测试 AI 模型能否像人类一样"按需学习技能"。 核心问题 AI 智能体在现实应用中不可能预先掌握所有知识。团队提出的解决方案是让智能体能够动态加载专业技能——就像你在需要时查阅操作手册,而不是把所有手册都背下来。 什么是 Skills(技能) 技能本质上是可挂载的知识包,包含一个描述文件(SKILL. md)和相关资源(数据集、脚本、示例等)。关键在于智能体不应该在对话开始时就加载所有技能,而应该只在需要时才挂载相关技能。 比如,智能体可能有一个"公司风格指南"技能,只在需要撰写营销内容时才加载;或者有一个"人口普查数据模式"技能,只在分析人口统计信息时使用。 评测方法 Context-Bench Skills 使用 Anthropic 的开源技能库,通过 LLM 为每个技能生成合适的任务。评测分三个场景: 1. 基线:智能体没有任何技能 2. 技能使用:提供所需技能的元数据,智能体需要加载技能内容 3. 技能选择与使用:智能体需要从完整技能库中找到并使用正确的技能 主要发现 对于擅长使用技能的 Claude 模型,提供相关技能可使任务完成率平均提高 14.1%。更有意思的是,GPT-5 和 GLM-4.6(开源权重)等非 Anthropic 模型也能获得类似的性能提升,这表明技能获取是一种通用能力而非 Claude 特有的功能。 不过也有局限:从技能库中选择正确技能比使用已识别的技能更难——当模型需要先找到正确技能时,性能下降约 6.5%。而且能力较弱的模型(如 GPT-5 Mini)即使提供了技能也无法正确使用,说明存在一个能力门槛。 实际意义 Letta 团队开发了 Letta Code,这是一个模型无关的工具,让任何 LLM(GPT-5、Gemini、GLM-4.6 等)都能使用最初为 Claude 设计的技能库。这意味着技能成为了一种可移植的知识单元,支持智能体的持续学习——当一个智能体开发出解决方案时,可以将其打包成技能供其他智能体使用。

专注 - Context Engineering, AI(Coding)Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴 🔗 信息卡提示词 🔽

avatar for meng shao
meng shao
Sat Nov 08 08:20:16
Funny conspiracy theory.
Noam is very serious about his trad Judaism, "divine benevolence" is not just a cute joke. I don't much believe in his singular Gemini-saving genius, CharacterAI was ≈high Chinese penny-pinching lab level. But why would he need any fake drama to get out?

Funny conspiracy theory. Noam is very serious about his trad Judaism, "divine benevolence" is not just a cute joke. I don't much believe in his singular Gemini-saving genius, CharacterAI was ≈high Chinese penny-pinching lab level. But why would he need any fake drama to get out?

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Sat Nov 08 08:12:22
Cool

Cool

🔖 Building · Sharing ✨ Zipic · TimeGo · KeygenGo · HiPixel · Orchard · Prism

avatar for 十里
十里
Sat Nov 08 08:07:03
RT @indie_maker_fox: 持续开发迭代就会持续有流量,也就持续有收入 ✌️

RT @indie_maker_fox: 持续开发迭代就会持续有流量,也就持续有收入 ✌️

🚀 The best AI SaaS boilerplate - https://t.co/VyNtTs0jSX 🔥 The best directory boilerplate with AI - https://t.co/wEvJ1Dd8aR 🎉 https://t.co/zubXJCoY92 & https://t.co/tfQf8T7gGF & https://t.co/TqRkfQj41f

avatar for Fox@MkSaaS.com
Fox@MkSaaS.com
Sat Nov 08 08:01:10
RT @zephyr_z9: Bro, this has to be fake bullshit

RT @zephyr_z9: Bro, this has to be fake bullshit

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Sat Nov 08 07:57:33
I'm sorry, noise and all, but o1-high was so much stronger than o1-preview that "the best benchmark for common sense" ought to have picked up on that.
Yes these is a way in which proprietary models have an edge.
I think it's a matter of a couple good human-written datasets.

I'm sorry, noise and all, but o1-high was so much stronger than o1-preview that "the best benchmark for common sense" ought to have picked up on that. Yes these is a way in which proprietary models have an edge. I think it's a matter of a couple good human-written datasets.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Sat Nov 08 07:56:45
  • Previous
  • 1
  • More pages
  • 446
  • 447
  • 448
  • More pages
  • 2111
  • Next