¿Puede cualquier modelo de IA aprender a usar habilidades? @Letta_AI publicó la prueba de referencia Context-Bench Skills para comprobar si los modelos de IA pueden "aprender habilidades a demanda" como los humanos. cuestiones fundamentales En aplicaciones del mundo real, es imposible que los agentes de IA posean todo el conocimiento de antemano. La solución propuesta por el equipo consiste en permitir que el agente cargue dinámicamente habilidades especializadas, como si consultara un manual de operaciones cuando sea necesario, en lugar de memorizar el manual completo. ¿Qué son las habilidades? Las habilidades son, en esencia, paquetes de conocimiento cargables que contienen un archivo de descripción (SKILL.md) y recursos relacionados (conjuntos de datos, scripts, ejemplos, etc.). Lo fundamental es que los agentes no carguen todas las habilidades al inicio de una conversación, sino solo las relevantes cuando sea necesario. Por ejemplo, un agente podría tener una habilidad de "guía de estilo de la empresa" que solo se carga cuando se necesita escribir contenido de marketing; o una habilidad de "patrón de datos censales" que solo se utiliza al analizar información demográfica. Métodos de evaluación Context-Bench Skills utiliza la biblioteca de habilidades de código abierto de Anthropic y genera tareas apropiadas para cada habilidad mediante LLM. La evaluación se lleva a cabo en tres escenarios: 1. Línea base: El agente no tiene habilidades. 2. Uso de habilidades: Proporcione los metadatos de las habilidades requeridas; el agente necesita cargar el contenido de la habilidad. 3. Selección y uso de habilidades: El agente necesita encontrar y usar las habilidades correctas de la biblioteca completa de habilidades. El hallazgo clave es que, para los modelos de Claude que dominan el uso de habilidades, proporcionarles las habilidades relevantes puede mejorar las tasas de finalización de tareas en un promedio del 14,1 %. Resulta aún más interesante que los modelos no antrópicos, como GPT-5 y GLM-4.6 (con pesos de código abierto), también logren mejoras de rendimiento similares, lo que sugiere que la adquisición de habilidades es una capacidad general y no una característica exclusiva de Claude. Sin embargo, existen limitaciones: seleccionar la habilidad correcta de la biblioteca es más difícil que usar una ya identificada; el rendimiento disminuye aproximadamente un 6,5 % cuando el modelo necesita encontrar primero la habilidad correcta. Además, los modelos menos potentes (como GPT-5 Mini) no pueden usar la habilidad correctamente aunque se les proporcione, lo que indica que existe un umbral de capacidad. significado práctico El equipo de Letta desarrolló Letta Code, una herramienta independiente del modelo que permite a cualquier LLM (GPT-5, Gemini, GLM-4.6, etc.) utilizar el conjunto de habilidades diseñado originalmente para Claude. Esto significa que las habilidades se convierten en una unidad de conocimiento portátil, lo que facilita el aprendizaje continuo de los agentes: cuando un agente desarrolla una solución, esta se puede empaquetar como una habilidad para que otros agentes la utilicen.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
