RT @shao__meng: [코딩 에이전트를 위한 새로운 벤치마크] cline-bench: @cline 팀이 새롭게 출시한 코딩 에이전트를 위한 오픈소스, 실제 환경 중심 벤치마크 이니셔티브입니다. 이 이니셔티브의 핵심 목표는 현재 코딩 에이전트 평가 분야의 두 가지 주요 문제점을 해결하는 것입니다. 기존 벤치마크(예: SWE-Bench)는 너무 학문적이고 신뢰성이 부족하며, 다른 요인의 영향을 쉽게 받습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.