중요한 것은 (적어도 코딩에 있어서는) 소프트웨어 개발을 위해 비슷한 모델을 사용하는 데 능숙한 사람들에게 그 모델이 얼마나 좋은지, 그리고 다양한 현실적인 실제 업무에서 몇 시간 동안 시도해 본 후 합리적으로 내린 의견인지, 멍청한 함정 문제가 아닙니다.
그리고 모델이 얼마나 일관되고 자율적인지, 얼마나 많은 작용성과 "끈기와 결단력"을 보이는지(이 중 일부는 에이전트 하네스, 즉 Cursor 대 Gemini-CLI에 달려 있음), 도구를 얼마나 안정적으로 사용하는지 등을 파악하려면 실시간으로 많은 독립적인 시도가 필요합니다.