Será que todos os modelos de IA podem aprender a usar habilidades? A @Letta_AI lançou o benchmark Context-Bench Skills para testar se os modelos de IA conseguem "aprender habilidades sob demanda", como os humanos. questões centrais Em aplicações do mundo real, os agentes de IA não podem possuir todo o conhecimento antecipadamente. A solução proposta pela equipe é permitir que o agente carregue habilidades especializadas dinamicamente — assim como consultar um manual de instruções quando necessário, em vez de memorizar o manual inteiro. O que são habilidades? As habilidades são essencialmente pacotes de conhecimento carregáveis, contendo um arquivo de descrição (SKILL.md) e recursos relacionados (conjuntos de dados, scripts, exemplos, etc.). O ponto principal é que os agentes não devem carregar todas as habilidades no início de uma conversa, mas sim carregar as habilidades relevantes apenas quando necessário. Por exemplo, um agente pode ter uma habilidade de "manual de estilo da empresa" que só é ativada quando é necessário escrever conteúdo de marketing; ou uma habilidade de "padrão de dados censitários" que só é usada ao analisar informações demográficas. Métodos de avaliação O Context-Bench Skills utiliza a biblioteca de habilidades de código aberto da Anthropic e gera tarefas apropriadas para cada habilidade por meio do LLM. A avaliação é conduzida em três cenários: 1. Linha de base: O agente não possui habilidades. 2. Utilização de Habilidades: Forneça os metadados das habilidades necessárias; o agente precisa carregar o conteúdo das habilidades. 3. Seleção e Uso de Habilidades: O agente precisa encontrar e usar as habilidades corretas da biblioteca completa de habilidades. A principal descoberta é que, para os modelos Claude que são hábeis no uso de habilidades, o fornecimento de habilidades relevantes pode melhorar as taxas de conclusão de tarefas em uma média de 14,1%. Mais interessante ainda, modelos não antrópicos, como o GPT-5 e o GLM-4.6 (com pesos de código aberto), também alcançam melhorias de desempenho semelhantes, sugerindo que a aquisição de habilidades é uma capacidade geral, e não uma característica exclusiva do Claude. No entanto, existem limitações: selecionar a habilidade correta da biblioteca de habilidades é mais difícil do que usar a habilidade já identificada — o desempenho cai cerca de 6,5% quando o modelo precisa encontrar a habilidade correta primeiro. Além disso, modelos mais fracos (como o GPT-5 Mini) não conseguem usar a habilidade corretamente mesmo quando ela é fornecida, indicando que existe um limite de capacidade. significado prático A equipe da Letta desenvolveu o Letta Code, uma ferramenta agnóstica a modelos que permite que qualquer LLM (GPT-5, Gemini, GLM-4.6, etc.) utilize o conjunto de habilidades originalmente projetado para Claude. Isso significa que as habilidades se tornam uma unidade portátil de conhecimento, permitindo o aprendizado contínuo dos agentes — quando um agente desenvolve uma solução, ela pode ser empacotada como uma habilidade para uso por outros agentes.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
