X (Twitter)

每個AI 模型都能學習使用Skills 嗎？ @Letta_AI 發布Context-Bench Skills 評測基準，來測試AI 模型能否像人類一樣"按需學習技能"。核心問題 AI 智能體在現實應用中不可能預先掌握所有知識。團隊提出的解決方案是讓智能體能夠動態載入專業技能——就像你在需要時查閱操作手冊，而不是把所有手冊都背下來。什麼是Skills（技能）技能本質上是可掛載的知識包，包含一個描述檔（SKILL. md）和相關資源（資料集、腳本、範例等）。關鍵在於智能體不應該在對話開始時就載入所有技能，而應該只在需要時才掛載相關技能。例如，智能體可能有一個"公司風格指南"技能，只在需要撰寫營銷內容時才加載；或者有一個"人口普查數據模式"技能，只在分析人口統計信息時使用。評測方法 Context-Bench Skills 使用Anthropic 的開源技能函式庫，透過LLM 為每個技能產生適當的任務。評測分三個場景： 1. 基線：智能體沒有任何技能 2. 技能使用：提供所需技能的元數據，智能體需要載入技能內容 3. 技能選擇與使用：智能體需要從完整技能庫中找到並使用正確的技能主要發現對於擅長使用技能的Claude 模型，提供相關技能可將任務完成率平均提高14.1%。更有趣的是，GPT-5 和GLM-4.6（開源權重）等非Anthropic 模型也能獲得類似的效能提升，這表明技能獲取是一種通用能力而非Claude 特有的功能。不過也有限制：從技能庫中選擇正確技能比使用已辨識的技能更難－當模型需要先找到正確技能時，效能下降約6.5%。而且能力較弱的模型（如GPT-5 Mini）即使提供了技能也無法正確使用，顯示存在一個能力門檻。實際意義 Letta 團隊開發了Letta Code，這是一個模型無關的工具，讓任何LLM（GPT-5、Gemini、GLM-4.6 等）都能使用最初為Claude 設計的技能庫。這意味著技能成為了一種可移植的知識單元，支持智能體的持續學習——當一個智能體開發出解決方案時，可以將其打包成技能供其他智能體使用。

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容