AI가 음식을 배달할 수 있을까요? 바이트댄스가 새롭게 출시한 doubao-seed-1.8 에이전트의 성능 평가 결과를 확인해 보세요! 제 리뷰에서 종종 대규모 모델을 활용해 코드를 작성하는 모습을 보셨을 텐데요. 오늘은 좀 새로운 시도를 해보려고 합니다. 대규모 모델로 음식을 배달해 보면 어떨까요? 얼마나 많은 돈을 벌 수 있을지 함께 살펴보죠! 이 테스트를 위해 저는 '실리콘 기반 라이더(Silicon-Based Rider)'라는 프레임워크를 개발했습니다. 이 프레임워크에는 이동, 주문 접수, 영수증 발급, 음식 픽업, 음식 배달, 결제 등 15가지 도구 호출 기능이 포함되어 있어, 대규모 모델이 이러한 도구 호출을 통해 음식 배달원의 전체 배달 과정을 시뮬레이션할 수 있습니다. 이번 리뷰에서는 새로 출시된 doubao-seed-1.8 버전을 먼저 테스트했습니다. 결론은 다음과 같습니다. 전체 실행 과정이 놀라울 정도로 원활했습니다. 이 새로운 모델의 최대 입력 컨텍스트 길이는 224KB입니다. 제 테스트는 6시간 30분 동안 연속으로 실행되었으며, 총 9,360만 개의 토큰을 사용했습니다! 컨텍스트를 완전히 소진했고 1,100번의 도구 호출이 실행되었습니다! 작업을 중단하기 직전의 아주 마지막 순간에도 도구 호출은 계속될 수 있지만, 대부분의 소형 모델은 컨텍스트가 커짐에 따라 성능이 저하되어 결국 도구 호출을 전혀 할 수 없게 됩니다. 이는 doubao-seed-1.8이 200K 이상의 컨텍스트 길이에서 재현율 측면에서 상당히 우수한 성능을 보임을 의미하며, 따라서 복잡한 에이전트 및 MCP 도구 호출이 포함된 시나리오에 특히 적합합니다. 이번 두바오 모델 업그레이드 이후 두바오와 같은 주변 애플리케이션, 심지어 두바오 AI폰의 작업 수행 능력이 향상될 것 같은 예감이 듭니다. #두바오#두바오시드 #seed18 #두바오AI
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.