X (Twitter)

Toolathlon: 다양하고 현실적인 장기 작업을 처리하는 지능형 에이전트의 성능을 테스트합니다. 실제 세계에서 복잡하고 여러 단계로 구성된 작업 흐름에 초점을 맞춘 이 벤치마크는 종종 지루하고 세부 사항 지향적이며 다양한 도구 및 시스템과의 통합이 필요한 작업을 다루며, 기존 평가 방법의 차이를 메워 연구자들이 실제 응용 프로그램에서 다양한 모델 간의 성능 차이, 출력 정확도 및 모호한 작업을 처리하는 능력을 정량화하는 데 도움이 됩니다. 핵심 개념 및 작동 메커니즘 Toolathlon은 신중하게 설계된 108개의 작업을 통해 에이전트를 테스트합니다. 이러한 작업은 일상적인 업무 시나리오(예: 이메일 처리, 파일 관리, 데이터베이스 쿼리)를 시뮬레이션하며, 각 작업에는 평균 20회 이상의 상호작용 라운드가 필요하고, 30개 이상의 MCP 서버(예: 이메일 시스템, 파일 시스템, Hugging Face 플랫폼)와 사용자 지정 API 및 표준 인터페이스를 포함한 600개 이상의 도구가 사용됩니다. 빈 환경에서 시작하는 것과 달리, 작업은 현실적인 초기 상태에서 시작하여 평가가 현실에 더 가깝게 이루어지도록 보장합니다. 평가는 컨테이너화되고 격리된 병렬 실행 아키텍처를 사용하여 전체 벤치마크를 한 시간 안에 완료하고 효율적이고 반복 가능한 실행을 지원합니다. 각 작업 디렉터리는 다음을 포함하여 명확한 구조를 갖습니다. • 전처리 모듈: 초기 환경을 선택적으로 설정합니다. • 문서 모듈: 작업 설명과 시스템 프롬프트를 제공합니다. • 초기 작업 영역: 로컬 시작 상태. • 표준 답변 작업 공간: 예상 결과를 확인하는 데 사용됩니다. • 평가 모듈: 출력의 정확성을 자동으로 확인하는 스크립트(예: main.py)가 포함되어 있습니다. • 작업 구성: JSON 파일은 필요한 서버와 도구를 지정합니다. OpenAI Agent SDK 프레임워크의 수정된 버전을 기반으로 에이전트는 자율적으로 도구를 호출하고 프롬프트를 통해 시스템과 상호 작용하여 종단 간 실행을 달성합니다. 주요 특징 Toolathlon의 디자인은 실용성과 견고성을 강조하며, 주요 특징은 다음과 같습니다. • 다중 모델 호환성: OpenAI, Anthropic, Google 등의 폐쇄형 소스 모델과 오픈 소스 옵션을 지원하여 통합 API를 통해 모델 간 비교를 용이하게 합니다. • 자율 에이전트 아키텍처: 에이전트는 인간의 개입 없이 프롬프트에 따라 독립적으로 작업을 관리합니다. • 오류 허용 메커니즘: 도구가 오작동하면 중단하는 대신 메시지를 반환하여 AI가 다시 시도하거나 전략을 조정할 수 있도록 합니다. • 긴 출력 처리: 지나치게 긴 응답을 자동으로 잘라내고 전체 콘텐츠에 액세스할 수 있는 페이지 나누기/검색 도구를 제공합니다. • 컨텍스트 관리: 모델 컨텍스트 창 외부의 작업을 위한 내장된 기록 쿼리, 삭제 및 검색 도구입니다. • 격리 및 병렬성: 각 작업은 독립적인 Docker/Podman 컨테이너에서 실행되어 일괄 처리를 지원하여 확장성을 개선합니다. • 상태 검증: 완료된 작업 공간을 저장하고 스크립트를 사용하여 예상 결과와 비교하여 객관적인 채점을 보장합니다.

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용