RT @shao__meng: [오픈 소스 추천] Task Arena: @joindimension 팀이 시작한 오픈 소스 벤치마크 프로젝트로, 실제 작업에서 에이전트의 실제 성능을 평가하는 것을 목표로 합니다. 이 프로젝트의 핵심 목표는 기존 AI 모델 평가 벤치마크(MMLU 및 HumanEval 등)가 종종 지식 기반 질의 응답이나 간단한 계산에 초점을 맞춘다는 것입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.