[오픈소스 추천] Task Arena: @joindimension 팀이 시작한 오픈소스 벤치마크 프로젝트로, 실제 작업에서 에이전트의 실제 성능을 평가하는 것을 목표로 합니다. 이 프로젝트의 핵심 목표는 기존 AI 모델 평가 벤치마크(MMLU 및 HumanEval 등)가 지식 기반 질의응답이나 간단한 코드 생성에 초점을 맞추는 반면, Task Arena는 사용자가 에이전트에게 매일 가장 자주 맡기는 "실제 작업"에 더 초점을 맞춘다는 사실을 해결하는 것입니다. • 액션 데이터 세트: 에이전트가 실제로 도구를 작동하고 이메일 보내기, 약속 일정 잡기, 파일 관리, 문서 작성, 조사 수행 등 여러 단계의 프로세스를 완료할 수 있도록 합니다. • 검색 데이터 세트: 제품 사양, 모범 사례, 버전 변경 등에 대한 복잡한 질문에 답하는 등 주어진 지식 기반에서 정보를 정확하게 검색하고 종합합니다. 현재 콘텐츠 및 규모 저장소에는 주로 두 개의 JSON 데이터 세트(총 약 100개 작업)가 포함되어 있습니다. • action.json: 6가지 주요 카테고리(이메일, 캘린더, 문서, 조사, 파일, 다단계 워크플로)를 포괄하는 51개의 실행 클래스 제안. • retrieval.json: 예상 답변과 평가 기준과 함께 52개의 검색 유형 질문-답변 쌍이 있습니다. 각 작업에는 다음이 제공됩니다. • 명확한 성공 기준 • 수동 채점 가이드(현재는 완전히 성공했는지 여부를 판단하기 위해 수동 판단이 필요함) 저장소는 또한 Python과 TypeScript로 작성된 간단한 로딩 예제와 점수 계산 스크립트를 제공합니다. 왜 "매우 중요하다"고 여겨지나요? 2025년 말 에이전트 평가 분야에서는 "지식/추론" 점수만으로는 에이전트가 실제 업무에서 효과적임을 반드시 보장할 수 없다는 점이 점점 더 명확해졌습니다. Task Arena는 새로운 유형의 "실무 중심" 벤치마크(GAIA, WebArena, AgentBench와 유사)를 제시하지만, 더 가볍고 사무/생산성 시나리오에 더 중점을 두며 전적으로 커뮤니티 중심입니다. 오픈소스 주소:
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
![[오픈소스 추천] Task Arena: @joindimension 팀이 시작한 오픈소스 벤치마크 프로젝트로, 실제 작업에서 에이전트의 실제 성능을 평가하는 것을 목표로 합니다.
이 프로젝트의 핵심 목표는 기존 A](https://pbs.twimg.com/media/G6QtWgIacAERbra.jpg)