X (Twitter)

claude-opus-4.5가 출시되었습니다! 이번에 Opus-4.5가 Aider Polyglot Coding Leaderboard(실제로 가장 정확한 프로그래밍 벤치마크라고 생각합니다)를 89.4로 끌어올렸습니다! 드디어 돌파할 것 같네요! DeepSeek-R1이 올해 초에 문제의 56.9%만 완료할 수 있었던 이유를 설명하겠습니다. 하지만 이번에는 약 90%를 완료할 수 있습니다. 그럼, 비용은 얼마나 들까요? 물론, 지갑이 비게 되겠죠. 이 제품은 토큰 100만 개로 가격이 정해져 있고, 출력은 25달러입니다... 어제 보여드린 실리콘 기반 배달 라이더 테스트는 한 번 실행할 때마다 토큰 100만 개가 소모됩니다... 무려 170달러죠... 정말 감당하기 힘든 금액입니다... 또한, 다른 모든 검사도 최첨단(SOTA) 검사입니다. 나중에 영상 검사 결과를 보여드리겠습니다! 기대해 주세요!

성능 매개변수 / 1

성능 매개변수 / 2

가격

요약하다

karminski-牙医(@karminski3)의 스레드

작성자 정보

스레드 내용