그리고 모델이 얼마나 일관되고 자율적인지, 얼마나 많은 작용성과 "끈기와 결단력"을 보이는지(이 중 일부는 에이전트 하네스, 즉 Cursor 대 Gemini-CLI에 달려 있음), 도구를 얼마나 안정적으로 사용하는지 등을 파악하려면 실시간으로 많은 독립적인 시도가 필요합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 19. 오후 7:56
그리고 모델이 얼마나 일관되고 자율적인지, 얼마나 많은 작용성과 "끈기와 결단력"을 보이는지(이 중 일부는 에이전트 하네스, 즉 Cursor 대 Gemini-CLI에 달려 있음), 도구를 얼마나 안정적으로 사용하는지 등을 파악하려면 실시간으로 많은 독립적인 시도가 필요합니다.