X (Twitter)

새로운 내용은 없고, AI를 R&D에 활용한 간단한 사례만 소개하겠습니다. (GPT-5.1 대 Opus 4.5) 맥락을 살펴보면: SupGen을 실행할 수 있는 HVM에는 2가지 버전이 있습니다. → HVM3: 개발에 사용, 초당 1억 6천만 건의 상호작용 발생 → HVM4: 세련된 버전, 초당 1억 3천만 건의 상호작용 발생 즉, 새로운 버전은 더 현대적이지만, 아직 최적화하지 않았기 때문에 약간 느립니다. 어제 저는 Opus 4.5(ultrathink)와 GPT-5.1-codex-max(xhigh)라는 두 개의 코딩 에이전트를 출시하고, 가능한 한 새로운 HVM4를 최적화하도록 요청했습니다. 결과: 몇 시간 후, 그들은 완전히 실패했습니다. 1%도 안 돼요. 그러고 나서 나는 그들에게 계속 노력하라고 요청했습니다. 그들은 또다시 실패했습니다. 그리고 또다시. 몇 시간 동안. 어느 순간, 그들은 포기해버렸습니다. 그들은 더 이상 시도하는 것조차 거부했습니다. GPT-5가 썼습니다: > 메모리 트래픽을 줄이고 처리량을 높이기 위해 여러 가지 구조적, 저수준 변경을 시도했지만, 시도할 때마다 빌드가 망가지거나 성능이 저하되거나 ~120M itrs/s 기준선을 넘어서는 개선에 실패했습니다. > 고정된 clang -03 제약 조건과 이 작업 부하의 메모리 제한적 특성을 고려할 때, 현재 140M itrs/s까지 안전하게 끌어올릴 수 있는 실행 가능한 변경 사항이 없습니다. "그냥 계속 시도"하는 것은 실질적인 이득을 얻기보다는 오히려 퇴보를 초래할 가능성이 높습니다. 그래서 저는 다른 것을 시도해 보았습니다. 이번에는 오래된 HVM3 디렉터리를 HVM4에 복사/붙여넣고 다음과 같이 썼습니다. 이전 HVM 구현과 새로운 HVM 구현입니다. 이전 HVM에는 새 HVM에서 아직 구현하지 못한 몇 가지 최적화가 포함되어 있습니다. 목표는 차이점을 이해하고 이전 HVM의 모든 최적화를 새 아키텍처로 이식하는 것입니다. 그것을 오푸스에 보냈습니다. 10분 후, 터미널을 확인했습니다. "초당 1억 9천만 건의 상호작용" 정말... 기쁜 광경이었어요. 이 벤치마크에서는 절대적인 기록이거든요. 단일 코어 CPU에서 이 정도 성능은 본 적이 없습니다. 이는 LLM의 현황에 대한 나의 인식을 강화해줍니다. → 그들은 코딩에 매우 능숙합니다. → 그들은 혁신에 매우 서툴다. 두 모델 모두 우리가 제시한 아이디어를 완전히 구현할 수는 없었지만, 일단 솔루션을 주입하고 나면 엄청난 양의 코드를 읽고 쓰는 등 구현에 매우 능숙해져서 많은 시간을 절약할 수 있습니다. HVM3의 가장 중요한 최적화가 이제 새로운 아키텍처에 적용되어 새로운 기록을 달성했고, 저는 아무것도 코딩할 필요가 없었습니다. 아이디어만 있으면 되었고, 그 결과는 정말 환상적이었습니다. 참고로, 저는 Gemini 3 사용을 완전히 중단했습니다. 세상에서 가장 똑똑한 모델이라고 생각하지만, 명령어 따라하기, 연결 오류 및 지연, 그리고 Gemini CLI 성능 저하 때문에 코딩에는 적합하지 않습니다. GPT-5.1-codex-max는 괜찮은 편이지만 속도가 느리고, 제가 모든 면에서 다시 사용하는 모델인 Opus 4.5보다 성능이 뛰어난 걸 본 적이 없습니다. Claude 모델이 코딩에 항상 일관성을 유지했던 점이 마음에 들고, 실제로 똑똑한 모델을 갖게 되어 정말 기쁩니다.

Taelin(@VictorTaelin)의 스레드

작성자 정보

스레드 내용