너무 슬프네요. SOTA는 그저 보여주기식일 뿐이에요. 실제 업무에서는 여전히 "소와 말"(뛰어난 성과를 내는 직원들을 가리키는 말)에 의존해야 하죠. OpenRouter의 창립자인 Alex Atallah는 자신이 가장 많이 사용하는 버전이 여전히 Kimi-K2-0711(7월에 출시된 Kimi-K2-Instruct)이라고 트윗했습니다. 그 외에도 openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3 등이 있습니다. 처음에 든 생각은 "이 사람 혹시 오랫동안 인터넷에 접속 안 한 건가? 이렇게 크고 새로운 모델을 써본 지 오래됐나?"였습니다. 하지만 자세히 살펴보니 뭔가 이상합니다. 이것이야말로 파워 유저를 활용하는 진정한 방법입니다. 너무나 현실적이잖아요! 만약 현재 시점에서 충분히 큰 컨텍스트(128K), 적절한 성능(SWE-Bench Verified > 65), 강력한 에이전트 기능(Tau2-bench > 65), 방대한 지식 기반(상당한 수의 매개변수), 그리고 빠른 응답 시간(사고형 모델이 아님)을 갖춘 모델을 찾는다면, Kimi-K2-Instruct만이 적합해 보입니다. 역으로 생각해 보면, 알렉스 아탈라의 작업은 주로 문서 처리(특히 13.4M 토큰이 포함된 긴 컨텍스트)와 도구를 사용한 분석, 그리고 보고서 작성(에이전트 기능)으로 이루어질 가능성이 높습니다. Kimi-K2-Instruct는 이 모든 작업을 처리할 수 있으며, 그는 스크립트를 작성합니다(o4 및 Claude-3.7-Sonnet을 대체 모델로 사용하거나, Kimi-K2가 스크립트를 작성하기 위해 이러한 모델을 호출할 수 있도록 에이전트로 패키징할 수도 있습니다). 마지막으로, Kimi-k2는 가장 중요한 데이터 개인정보 보호 문제를 해결합니다. 이 모델은 가중치가 공개되어 있어 자체 서버에 배포할 수 있으며, OpenAI나 Anthropic에 민감한 정보가 유출될 염려가 없습니다. 아래에 언급된 GPT-OSS-120B의 존재 이유 또한 이와 같습니다. 새로운 대규모 모델들이 에이전트 기능에 크게 의존하는 이유를 이제야 알 것 같습니다. 인간이 AI를 직접 사용하는 것은 단지 중간 단계일 뿐이며, 고급 사용자들은 이미 AI를 사용하여 다른 AI를 조작하고 있습니다. 모든 AI 컨텍스트를 주고받는 데 특화된 에이전트 모델은 필연적으로 가장 많이 사용되는 모델 중 하나가 될 것입니다. 원본 게시글:
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.

