[코딩 에이전트를 위한 새로운 벤치마크] cline-bench: @cline 팀이 새롭게 출시한 코딩 에이전트를 위한 오픈소스 실제 환경 벤치마크 이니셔티브입니다. 이 이니셔티브의 핵심 목표는 현재 코딩 에이전트 평가 분야의 두 가지 주요 문제점을 해결하는 것입니다. 첫째, 기존 벤치마크(예: SWE-Bench)는 지나치게 학문적이고 신뢰성이 부족하며 조작이 쉽다는 점입니다. 둘째, 강화 학습 훈련에 적합한 고품질 환경이 부족하다는 점입니다. 클라인 벤치가 필요한 이유는 무엇입니까? 현재 주류를 이루는 코드화된 에이전트 벤치마크(SWE-Bench 및 SWE-Bench Verified 등)에는 다음과 같은 문제점이 있습니다. • 작업이 너무 정적이고 단순합니다. 대부분 GitHub 이슈 하나를 기반으로 하며 에이전트가 패치를 한 번에 생성해야 하므로 실제 개발에서 여러 번의 반복, 디버깅, 도구 사용과 같은 복잡한 프로세스를 반영하기 어렵습니다. • 데이터 오염 및 점수 조작의 높은 위험: 많은 작업이 훈련 데이터로 유출되어 모델이 벤치마크에서는 인위적으로 높은 성능을 보이지만 실제 엔지니어링에서는 낮은 성능을 보입니다. • 모델 학습에 사용하기 어려움: 기존 벤치마크에는 대화형 환경이 부족하고 RL을 위한 학습 샌드박스로 직접 사용할 수 없습니다. • 불완전한 평가: 실제 프로젝트에서 에이전트의 장기적 안정성, 상황에 대한 이해, 오류 복구 기능과 같은 주요 지표를 무시합니다. 클라인 팀은 클로드 소네트 4.5와 GPT-5.1과 같은 모델이 SWE-Bench에서 70~80%에 가까운 점수를 달성하고 있는 상황에서, 단순히 높은 SWE-Bench 점수를 추구하는 것은 더 이상 의미가 없다고 생각합니다. 업계는 차세대 코딩 에이전트의 진정한 발전을 위해 더욱 도전적이고 현실적이며 신뢰할 수 있는 평가 시스템을 필요로 합니다. 클라인벤치의 핵심 디자인 철학 1. 실제 오픈소스 프로젝트에서 전적으로 파생되었습니다. • 해당 작업은 인기 있는 오픈 소스 저장소(예: Django, Matplotlib, SymPy 등)의 실제 개발 내역을 직접 가져옵니다. 여기에는 엔지니어가 일상 업무에서 직면하는 여러 파일 수정, 복잡한 종속성, 리팩토링, 성능 최적화, 문서 업데이트 등 현실적인 과제가 포함됩니다. • 작업의 난이도는 SWE-Bench보다 훨씬 높으며, 단일 작업에도 수십에서 수백 개의 상호작용 단계가 필요할 수 있습니다. 2. 고충실도 상호작용 환경: • 완전한 Git 저장소 스냅샷, 터미널 에뮬레이터 및 파일 시스템 액세스를 제공합니다. • 지능형 에이전트는 자유롭게 명령(git, pytest, pip, bash 등)을 실행하고, 파일을 여러 번 편집하고, 테스트를 실행하고, 오류를 보고, 스스로 디버깅할 수 있습니다. • 여러 차례의 대화와 반복을 지원하여 인간 개발자의 작업 흐름을 실제로 시뮬레이션합니다. 3. 강화 학습 훈련에 직접 사용 가능: 각 작업은 완전한 OpenAI Gym 스타일 RL 환경입니다. 연구자/회사는 이를 직접 사용하여 자체 코딩된 에이전트 모델을 훈련할 수 있습니다(AlphaCode나 OpenAI의 코드 RL 프로젝트와 유사). 4. 개방적이고 투명하며 사기 방지 메커니즘: • 완전히 오픈 소스입니다(코드, 데이터 세트, 평가 스크립트는 모두 공개적으로 사용 가능). • 개인 테스트 세트와 정기적으로 업데이트되는 작업을 사용하여 데이터 오염을 방지합니다. • 지역 사회가 실제 업무에 기여하도록 장려합니다. 클라인벤치의 주요 활용 분야 (공식적으로 확인된 3대 가치) 1. 신뢰할 수 있는 평가: 마케팅 수치에 의해 오도되는 것을 방지하여 개발자, 연구자 및 회사에 실제로 신뢰할 수 있는 점수 참고 자료를 제공합니다. 2. 모델 정렬 및 교육: 실제 엔지니어링 프로젝트에서 효과적으로 작동하는 코딩된 에이전트를 교육하는 데 도움이 되는 고품질 RL 환경을 제공합니다. 3. 업계 진전 촉진: 노후화된 SWE-Bench를 대체하기 위해 커뮤니티 중심의 지속적으로 반복되는 벤치마크를 구축합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
![[코딩 에이전트를 위한 새로운 벤치마크] cline-bench: @cline 팀이 새롭게 출시한 코딩 에이전트를 위한 오픈소스 실제 환경 벤치마크 이니셔티브입니다. 이 이니셔티브의 핵심 목표는 현재 코딩 에이전트 평](https://pbs.twimg.com/media/G6Pb93hbQAAAdNx.jpg)