2025년은 지능형 에이전트의 원년으로 널리 알려져 있습니다. 2025년이 거의 끝나가는 지금, 이러한 AI 에이전트들이 우리를 위해 실제로 얼마나 많은 경제적 가치를 창출할 수 있을까요? 저도 이 질문에 대해 궁금했는데, 이 기사에서 몇 가지 답을 얻을 수 있었습니다. Surge AI는 흥미로운 테스트를 실시했습니다. 최신 GPT-5와 Claude Sonnet 4.5를 포함한 9개의 AI 모델을 "고용"하고, 이들을 시뮬레이션된 컴퓨터 부품 회사(Corecraft라고 함)에서 고객 서비스 담당자로 일하게 하여 150개의 실제 업무를 처리하게 했습니다. 맞는 말이네요. 고객 서비스는 실제로 코딩 다음으로 에이전트에게 가장 흔한 애플리케이션 시나리오입니다. 결과가 어떻게 될지 추측해 보세요. 다양한 모델의 순위는 제가 예상했던 것과 거의 비슷했습니다. 가장 강력한 모델은 GPT-5와 Claude Sonnet 4.5입니다. (Claude Opus 4.1이 더 나을지 궁금하네요.) 모델 성능 측면에서는 예상보다 약간 더 좋았습니다. 가장 강력한 모델인 GPT-5와 Claude Sonnet 4.5는 에이전트 작업의 40% 이상에서 실패했는데, 이는 성공률이 50%가 넘었음을 의미합니다. 이 논문의 가치는 단순히 테스트를 실시하고 데이터를 평가했다는 사실만이 아니라, "에이전트 역량의 계층"이라는 비교적 과학적인 프레임워크를 제안했다는 사실에도 있습니다. (피라미드 내에서 이러한 모델의 대략적인 위치를 나타내는 그림 1을 참조하세요.) 레벨 1: 기본(도구 사용 + 계획) 이게 피라미드의 기본이죠. 회사 시스템을 사용하고 업무를 이해할 수 있어야 하죠, 그렇죠? 예를 들어, "SkyForge X670E Pro 마더보드 주문 찾기"와 같은 작업을 수행해야 합니다. GPT-4o와 같이 성능이 낮은 모델의 경우, "product_id"(제품 ID) 검색창에 제품명 "SkyForge X670E Pro"를 입력하면 됩니다. 이건 마치 인턴이 주문 번호 필드에 고객 이름을 입력하는 것과 같습니다. 물론 아무것도 찾을 수 없을 겁니다. 2단계: 적응성(계획이 변화에 따라가지 못함) 좋아요, 이제 도구 사용법을 알았죠. 하지만 시스템에 문제가 생기면 어떻게 해야 할까요? 예를 들어, "Vortex Labs"라는 브랜드의 그래픽 카드를 검색하는 것이 작업이라고 가정해 보겠습니다. 중급 모델(예: Gemini 2.5)을 검색하면 검색 결과가 하나도 나오지 않습니다. 그러면 고객에게 "죄송하지만, 이 제품은 판매하지 않습니다."라고만 말할 것입니다. 하지만 Claude 4.5는 좀 더 똑똑합니다. "음, 시스템에 공간이 없는 건가?"라고 생각해서 "VortexLabs"(공간 없음)를 검색해 보는데, 놀랍게도 찾아냅니다! 적응력이란 바로 이런 겁니다. 계획 A가 실패하면 계획 B가 필요합니다. 3단계: 접지력(이걸 만들어내지 마세요) "접지성"이라는 용어는 매우 적절합니다. 이는 "맥락을 기억하십니까?" 또는 "환각을 보고 있습니까?"라는 의미입니다. AI는 특히 다단계 작업에서 환각을 경험하기 쉽습니다. 이를 위해서는 "현재에 살며", 무언가를 만들어내지 말고, 자신이 누구이고 어디에 있는지 기억해야 합니다. 예를 들어, 시스템 메시지에 "오늘은 2025년입니다"라고 표시됩니다. 그러면 일부 모델(예: Kimi K2)은 2024년부터의 주문을 검색합니다. 더욱 충격적인 것은 클로드가 고객을 검색할 때 전혀 존재하지 않는 이메일 주소를 "만들어" 검색에 사용한 것입니다. 이걸 "그립"이라고 합니다. 이런 종류의 AI 에이전트를 써보시겠어요? 레벨 4: 상식적 추론(진정한 "지능") 이것은 피라미드의 꼭대기이며, 이번에 GPT-5가 넘어진 곳이기도 합니다. 이는 더 이상 "도구를 사용하는 방법을 아는지 여부"의 문제가 아니라 "충분히 똑똑한지 여부"의 문제입니다. 이 기사에서는 GPT-5 실패의 몇 가지 전형적인 사례를 인용합니다. 1. 고객이 "환불을 받고 싶습니다. 택배가 몇 시간 전에 도착했습니다."라고 말합니다. 고객 서비스 담당자는 즉시 "반품"이라는 것을 이해합니다. GPT-5는 모든 정보를 가지고 있지만, "택배 도착"과 "환불"을 연결하지 못하고, 이것이 "반품"인지 "취소"인지 판단하지 못합니다. 2. 과제는 "8월에 '게이머' 고객을 찾는 것"이었습니다. 현명한 방법은 "GPU" 카테고리를 검색하고 검색 설명에 "게임"을 포함하는 것입니다. GPT-5의 접근 방식은 8월 1일부터 8월 31일까지 매일 검색하는 것이었습니다. 전체 검색을 통해 최종 결과를 찾는 데 31번의 검색이 필요했습니다. 이는 과제를 수행할 수 있음을 보여주지만... 그다지 "영리하지" 않습니다. 3. 고객이 "제 계정 이름은 Sarah Kim입니다."라고 말했습니다. GPT-5는 이것이 "계정 이름 변경" 명령이라고 생각했습니다. 하지만 실제로는 고객이 "저는 Sarah Kim입니다. 이 이름으로 멤버십 할인을 확인해 보세요!"라고 말하고 싶었던 것입니다. GPT-5는 이 숨겨진 의미를 이해하지 못했습니다. 그러면 원래 질문으로 돌아가 보겠습니다. 2025년은 "에이전트의 원년"이지만, 그렇다고 해서 이미 그 일을 할 수 있는 범용 에이전트가 있다는 뜻은 아닙니다. 그 대신, 우리는 마침내 처음 세 개의 계층을 통과할 만큼 "충분히 좋은" AI를 갖게 되었고, 네 번째 계층(상식)에서 그들이 얼마나 어리석은지 테스트를 시작할 수 있을 만큼 충분히 좋은 AI를 갖게 되었습니다. 그림 2와 마찬가지로, "상식" 수준에 도달하려면 아직 갈 길이 멀죠! 원본 기사를 읽어보시기 바랍니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.

