X (Twitter)

@cline을 사용한 Gemini 3 Pro 첫인상 처음에는 훌륭하게 시작하지만, 토큰이 10만 개를 넘어가면서 정확도가 급격히 떨어집니다. 제가 작업하는 코드베이스 규모를 고려하면, 작업 완료에 필요한 정보를 읽고 나면 이 정도 토큰이 로드됩니다. 따라서 모델이 거의 모든 작업에서 세부 사항에 주의를 기울이는 데 어려움을 겪는 것을 실제로 확인할 수 있습니다. 20만 개 이상의 토큰을 게시하면 혼동이 발생하고 완료 작업으로 일찍 종료되어 완료되지 않은 작업이 롤백이나 새 에이전트가 인수하여 다시 시도해야 하는 상황이 발생합니다($$$) 소규모 작업을 한 번에 처리하는 데 적합하고 소규모 프로젝트에도 도움이 될 수 있지만 AYCE 계획을 통해 비용 효율성이 높은 기업용 솔루션을 원할 경우 Claude Code나 Codex를 선택하는 것이 좋습니다. 오늘 @antigravity를 테스트해 보려고 했는데, 할당량 추적 및 VSCode 마이그레이션 관련 문제가 꽤 있어서 며칠 기다렸다가 문제가 해결되면 다시 시도해 봐야겠습니다. Codex가 GPT-5.1을 더 효율적으로 활용하는 것처럼, 컨텍스트를 더 잘 활용하는 코딩 에이전트가 있을 수도 있습니다. 전반적으로: 여전히 LLM이며, 소규모 프로젝트와 데모에서는 개선이 있겠지만, 대규모 코드에서는 동일한 제약이 예상됩니다. 대규모 코드베이스에서 GPT-5.1 및 Claude Sonnet 4.5와 비교했을 때, 기능 구현 및 리팩토링 작업 측면에서는 거의 동일하거나 약간 더 낮은 성능을 보입니다.

Damian Tran(@damianvtran)의 스레드

작성자 정보

스레드 내용