每個AI 模型都能學習使用Skills 嗎? @Letta_AI 發布Context-Bench Skills 評測基準,來測試AI 模型能否像人類一樣"按需學習技能"。 核心問題 AI 智能體在現實應用中不可能預先掌握所有知識。團隊提出的解決方案是讓智能體能夠動態載入專業技能——就像你在需要時查閱操作手冊,而不是把所有手冊都背下來。 什麼是Skills(技能) 技能本質上是可掛載的知識包,包含一個描述檔(SKILL. md)和相關資源(資料集、腳本、範例等)。關鍵在於智能體不應該在對話開始時就載入所有技能,而應該只在需要時才掛載相關技能。 例如,智能體可能有一個"公司風格指南"技能,只在需要撰寫營銷內容時才加載;或者有一個"人口普查數據模式"技能,只在分析人口統計信息時使用。 評測方法 Context-Bench Skills 使用Anthropic 的開源技能函式庫,透過LLM 為每個技能產生適當的任務。評測分三個場景: 1. 基線:智能體沒有任何技能 2. 技能使用:提供所需技能的元數據,智能體需要載入技能內容 3. 技能選擇與使用:智能體需要從完整技能庫中找到並使用正確的技能 主要發現對於擅長使用技能的Claude 模型,提供相關技能可將任務完成率平均提高14.1%。更有趣的是,GPT-5 和GLM-4.6(開源權重)等非Anthropic 模型也能獲得類似的效能提升,這表明技能獲取是一種通用能力而非Claude 特有的功能。 不過也有限制:從技能庫中選擇正確技能比使用已辨識的技能更難-當模型需要先找到正確技能時,效能下降約6.5%。而且能力較弱的模型(如GPT-5 Mini)即使提供了技能也無法正確使用,顯示存在一個能力門檻。 實際意義 Letta 團隊開發了Letta Code,這是一個模型無關的工具,讓任何LLM(GPT-5、Gemini、GLM-4.6 等)都能使用最初為Claude 設計的技能庫。這意味著技能成為了一種可移植的知識單元,支持智能體的持續學習——當一個智能體開發出解決方案時,可以將其打包成技能供其他智能體使用。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
