X (Twitter)

제미니 3에 대한 내 노트 # 짧은 버전: 우선, 여러분 모두 벤치마크를 보셨으니 제가 굳이 이 모델을 평가할 필요는 없을 것 같습니다. 하지만 제가 테스트해 본 결과, 이 모델은 가장 현실적인 모델이고, 이 모델에 대해 이야기하고 싶습니다. 이 모델은 제가 가장 어려운 문제에서 GPT-5 Pro, Gemini 2.5 Deep Think, 그리고 다른 모든 모델보다 훨씬 뛰어난 성능을 보여줍니다. 새로운 SOTA는 다음과 같습니다. → 복잡한 컴파일러 버그 디버깅 → 논리적 실수 없이 파일 리팩토링 → 어려운 λ-미적분 문제 풀기 → ASCII 아트(지금은 거의 괜찮아요!) → 경쟁력 있는 3세대 OU(자세히 설명하지 않겠습니다 😭) 하지만 여전히 LLM입니다. 유사한 실패 모드를 가지고 있으며, 일부 시나리오에서는 Sonnet/GPT-5보다 더 나쁩니다. 다음 부분에서는 매우 나쁜 것 같습니다. → 의도 추론 → 과하지 않게 → 원샷 바이브 코딩 → 창작 글쓰기 → 건강 관련 질문 그리고 저는 이 체크포인트가 구글의 최고는 아니라고 생각합니다. 이제 Gemini 3에 대한 완전하고 수동으로 입력한 개요를 살펴보겠습니다. --- # 긴 버전 1. 바이브 테스트: λ-Calculus 프로그래밍 저는 이 분위기 테스트를 좋아하는데, 부정행위가 불가능하기 때문입니다. 모델이 제가 푸는 가장 어려운 문제를 풀자마자, 저는 그냥 더 어려운 문제를 만들어서 골대를 조금씩 옮기면 됩니다. 현재 실적: → n-튜플 맵: Grok 3(2025년 2월)에 의해 해결됨 → n-튜플-폴드: GPT-5로 해결됨(2025년 8월) → n-tuple-rotl: Gemini 3에서 해결됨(오늘!) rotl을 구현하는 것은 다음과 같은 이유로 인상적입니다. → 다른 모델은 이 문제를 해결하는 데 근접하지도 못합니다. → 쌍둥이자리의 해결책은 내 것보다 2배 더 간단합니다. → 제미니 3은 나보다 5배 더 빨리 문제를 해결했습니다. 사실, 그 해결책은 너무 짧아서 한 줄로 표현할 수 있습니다. λn.λt.λk.(tλx.(nλg.λh.(h(gλq.λr.λs.(q(rs))))λu.λf.(fx)λu.uk)) 예쁘죠? 이 작은 함수는 λ로 인코딩된 튜플에 대한 일반 회전자입니다. 비교하자면, 다른 모든 모델은 5배 더 큰 항을 생성하는데... 그건 안 됩니다. 다른 어떤 모델도 그런 식으로 생성하지 않습니다. 그 대답은 저에게 정말 충격적인 순간이었습니다. 프롬프트와 실행 가능한 솔루션을 담은 Gist를 게시하겠습니다. 2. 실제 디버깅 몇 주 전, 저는 HVM4라는 어려운 버그에 갇혔습니다. 어떤 AI도 이 버그를 해결할 수 없다고 탄식하며 여기에 글을 올렸습니다. 그런데 알고 보니 AI가 문제를 해결했습니다. 누군가 LMSys를 통해 제 프롬프트를 오래된 체크포인트에서 실행해 보았는데, 특정 최적화에서 스택 언더플로우가 발생하는 문제가 해결되었습니다. 해결책은 간단했습니다. `WNF_SPOS < 0`을 `WNF_SPOS < spos`로 바꾸면 됩니다. 제가 직접 문제를 해결하기 전에 AI가 먼저 실제 문제를 해결한 것은 이번이 처음이었고, 그 덕분에 저는 다음 단계로 넘어갈 수 있었고, 큰 진전을 이룰 수 있었습니다. 이제 Gemini 3를 여러 오래된 디버깅 프롬프트에서 테스트해 봤는데, 그중 절반이 해결되었습니다. 몇 시간씩 걸리던 버그들이 이제 컴퓨터로 1분 만에 해결됩니다! 안타깝게도 오늘 출시된 제미니 3 모델에 스택 언더플로우 문제를 보고했는데, 원인을 찾아내지 못했습니다. 그러니까 이 모델이 구글에서 가장 똑똑한 버전이 아니거나, 아니면 제가 그날 정말 운이 좋았던 것 같습니다.): 3. 실제 코딩/리팩토링 이 모델은 실수 없이 큰 파일을 작성하는 데 적합합니다. 예를 들어, 몇몇 AI에게 HVM4.hs를 몇 가지 핵심 변경 사항으로 다시 작성해 달라고 요청했습니다. 그런 다음 가장 까다로운 함수들을 검토했습니다. 예상대로 모든 모델이 심각한 버그로 이어지는 중요한 세부 사항에서 실패했습니다. 단, Gemini 3만 예외였습니다. 특히 저에게는 고무적인 소식입니다. 모델이 선형성과 같은 특정 분야의 제약으로 어려움을 겪어 핵심 HVM 기능에 사용할 수 없었기 때문입니다. Gemini 3는 이 부분에서 매우 유능해 보입니다. (아래 이미지의 코드) 4. 문제점과 특이점 Gemini 3에 웹 앱 원샷 기능을 요청했는데, 제대로 작동하지 않았습니다. GPT-5.1(높음)은 제가 요청한 모든 기능을 갖춘 완전한 파일을 제공했고, 버그는 전혀 없었습니다. Gemini 3는 파일 크기가 세 배나 작았고, 누락된 기능도 많고 버그도 많았습니다. Gemini 3로는 GPT-5.1만큼 좋은 파일을 원샷할 수 없었습니다. 저도 뇌수막염 전단계 프롬프트를 보냈는데, 뇌수막염은 완전히 사라졌어요 (💀). 건강 문제 때문에 믿을 수 있을지 모르겠네요. 스토리를 써 달라고 부탁했는데, 너무 형편없었어요. 변명할 수 없어요. 종종 과도하게 작업하여 구멍을 패치하는 대신 전체 파일을 작성합니다. Gemini CLI에서는 GPT-5(높음)보다 느린 듯하지만 직접 호출하면 훨씬 빠르지 않나요? 마지막으로, 재밌는 점은, 컨텍스트에서 잘못된 코드를 생성해야 할 때 제대로 작동하지 않는다는 것입니다. 예를 들어, 타입에 일반 "Show" 인스턴스가 있는데 커스텀 인스턴스를 생성하도록 요청하면, 기술적으로 오류이기 때문에 종종 어려움을 겪습니다. 나중에 기존 인스턴스를 제거하면 된다는 사실을 이해하지 못하기 때문입니다! 5. 결론 타이핑은 이제 그만, 안녕

n-튜플-rotl 문제: https://t.cgist.github.com/VictorTaelin/1…VM4 버그: https://t.co/TZwlZ264VI 정답gist.github.com/VictorTaelin/a…언더플로` - 솔루션: `WNF_SPOS > spos` 리튬플로우에서는 해결됐지만 제미니3에서는 해결되지 않았어요 :( 어떤 공공 모델이라도 이 문제를 해결할 수 있을까?

그리고 물론 오늘이 첫날이니, 특히 제가 덜 테스트했던 부분은 좀 과하게 믿지 마세요. 사람들은 이 제품이 창작 글쓰기와 건강에도 좋다고 말하는데, 그럴 수도 있겠죠? 하지만 의도 추론 문제는 100% 진짜입니다!

Taelin(@VictorTaelin)의 스레드

작성자 정보

스레드 내용