모든 AI 모델이 기술 사용을 배울 수 있을까? @Letta_AI는 AI 모델이 사람처럼 "주문형 기술을 학습"할 수 있는지 테스트하기 위해 Context-Bench Skills 벤치마크를 출시했습니다. 핵심 이슈 실제 환경에서 AI 에이전트는 모든 지식을 미리 보유할 수 없습니다. 연구팀은 에이전트가 마치 운영 매뉴얼 전체를 암기하는 대신, 필요할 때 운영 매뉴얼을 참고하듯이 전문 기술을 동적으로 로드할 수 있도록 하는 방안을 제안했습니다. 기술이란 무엇인가? 스킬은 기본적으로 로드 가능한 지식 패키지로, 설명 파일(SKILL.md)과 관련 리소스(데이터셋, 스크립트, 예시 등)를 포함합니다. 핵심은 상담원이 대화 시작 시 모든 스킬을 로드하는 것이 아니라, 필요할 때만 관련 스킬을 로드해야 한다는 것입니다. 예를 들어, 에이전트는 마케팅 콘텐츠를 작성해야 할 때만 로드되는 "회사 스타일 가이드" 기술을 보유할 수 있습니다. 또는 인구 통계 정보를 분석할 때만 사용되는 "인구 조사 데이터 패턴" 기술을 보유할 수 있습니다. 평가 방법 Context-Bench Skills는 Anthropic의 오픈소스 기술 라이브러리를 활용하고 LLM을 통해 각 기술에 적합한 과제를 생성합니다. 평가는 다음 세 가지 시나리오로 진행됩니다. 1. 기준선: 에이전트에게 기술이 없습니다. 2. 스킬 사용: 필요한 스킬의 메타데이터를 제공합니다. 에이전트는 스킬 콘텐츠를 로드해야 합니다. 3. 스킬 선택 및 사용: 에이전트는 전체 스킬 라이브러리에서 올바른 스킬을 찾아 사용해야 합니다. 핵심적인 발견은 기술 활용에 능숙한 클로드 모델의 경우, 관련 기술을 제공하면 작업 완료율을 평균 14.1% 향상시킬 수 있다는 것입니다. 더욱 흥미로운 점은 GPT-5와 GLM-4.6(오픈소스 가중치)과 같은 비인류학적 모델도 유사한 성능 향상을 달성한다는 것입니다. 이는 기술 습득이 클로드만의 특징이 아니라 일반적인 역량임을 시사합니다. 하지만 한계가 있습니다. 스킬 라이브러리에서 올바른 스킬을 선택하는 것은 이미 식별된 스킬을 사용하는 것보다 더 어렵습니다. 모델이 올바른 스킬을 먼저 찾아야 할 경우 성능이 약 6.5% 떨어집니다. 더욱이, GPT-5 Mini와 같은 성능이 낮은 모델은 스킬이 제공되더라도 올바르게 사용할 수 없으므로, 성능 한계가 있음을 시사합니다. 실제적 중요성 Letta 팀은 모든 LLM(GPT-5, Gemini, GLM-4.6 등)이 Claude를 위해 설계된 스킬 세트를 사용할 수 있도록 하는 모델 독립적인 도구인 Letta Code를 개발했습니다. 즉, 스킬은 이동 가능한 지식 단위가 되어 에이전트의 지속적인 학습을 지원합니다. 즉, 에이전트가 솔루션을 개발하면 다른 에이전트가 사용할 수 있도록 스킬로 패키징할 수 있습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
