X (Twitter)

Claude Opus 4.5 출시: 가장 강력한 코딩, 에이전트, 컴퓨터 사용 모델; 토큰 사용량이 크게 감소; 가격은 Opus 4.1의 1/3; SWE-bench 검증 점수가 처음으로 80점을 돌파했습니다. 코딩 능력의 획기적인 성과: SWE-bench Verified 테스트에서 80.9%의 점수를 달성하여 Google Gemini 3 Pro(76.2%)와 OpenAI GPT-5.1-Codex-Max(77.9%)를 능가했습니다. 더욱 인상적인 것은 Anthropic의 내부 성능 엔지니어링 테스트에서 Opus 4.5가 모든 인간 지원자보다 우수한 성적을 기록했다는 것입니다. • 에이전트 기능: OSWorld 컴퓨터 사용 테스트에서 66.3%의 점수를 획득하여 강력한 장기 목표 지향적 행동을 보여주었습니다. 내부 테스터들은 Opus 4.5가 Sonnet 4.5가 몇 주 전에 완료하지 못했던 작업을 처리할 수 있으며, 복잡한 다중 시스템 버그에 직면했을 때 자율적으로 해결책을 찾을 수 있다고 보고했습니다. • 효율성 향상: 이는 상당한 개선입니다. Opus 4.5는 장시간 실행되는 코딩 작업을 처리할 때 출력 품질을 유지하거나 향상시키면서 토큰 사용량을 최대 65%까지 줄였습니다. 이는 비용 절감과 응답 시간 단축으로 이어집니다. 가격 혁신을 통해 입력 토큰 백만 개당 5달러, 출력 토큰 백만 개당 25달러로 가격이 책정되었는데, 이는 기존 Opus 4.1의 15달러/75달러에 비해 3분의 2가 감소한 수치입니다. 이를 통해 Opus 수준의 기능을 처음으로 저렴하게 제공하여 일상적인 사용을 위한 주요 모델로 자리매김할 수 있게 되었습니다. 여러 플랫폼에서 제품 업데이트 제공: Opus 4.5는 이제 Claude 애플리케이션, API, 그리고 세 가지 주요 클라우드 플랫폼(Amazon Bedrock, Google Cloud Vertex AI, Microsoft Azure)에서 사용할 수 있습니다. 개발자는 모델 식별자 claude-opus-4-5-20251101을 사용하여 Opus 4.5를 호출할 수 있습니다. 기술 혁신 · 하이브리드 추론: Opus 4.5는 즉각적 반응과 확장된 사고 모드를 모두 지원합니다. API 사용자는 "노력 매개변수"를 통해 모델이 반응에 투자하는 계산량을 미세하게 제어하여 성능, 지연 시간, 비용 간의 균형을 달성할 수 있습니다. • 향상된 메모리 관리: 장기 컨텍스트 작업에 대한 메모리 관리가 크게 개선되어 에이전트 시나리오에 특히 적합합니다. Opus는 Haiku 기반 하위 에이전트 그룹을 명령하는 마스터 에이전트 역할을 할 수 있습니다. • 강화된 보안: 이 모델은 큐 주입 공격에 대한 저항성이 더 강하고 정렬 불량 평가에서 문제가 되는 동작 비율이 낮아 현재까지 가장 안전한 Anthropic 버전이 되었습니다. 시장 포지셔닝 Opus 4.5는 전문 소프트웨어 엔지니어, 재무 분석가, 컨설턴트, 회계사와 같은 지식 근로자를 위해 설계되었으며, 복잡한 엔터프라이즈 작업과 대규모 지능형 에이전트 워크플로우를 처리해야 하는 시나리오에도 적합합니다. 이 모델은 이전 모델로는 문제를 해결할 수 없고 성능이 매우 중요한 시나리오에 적합한 고급 모델입니다. 업계 영향: 이번 출시는 AI 업계의 치열한 경쟁이 한창인 시기에 이루어졌습니다. 출시 일주일 만에 출시된 구글의 제미니 3는 이미 시장에 큰 반향을 일으켰으며, 심지어 세일즈포스 CEO조차 ChatGPT에서 제미니로 전환한다고 밝혔습니다. Opus 4.5 출시는 이 경쟁에서 선두 자리를 지키겠다는 Anthropic의 결의와 저력을 보여줍니다.

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용