X (Twitter)

현재 실험에서 나온 질문: 하네스의 모든 중요한 차원에서 "약간 더 나은 툴링"을 강박적으로 선택함으로써 코딩 에이전트 하네스를 얼마나 더 좋게 만들 수 있을까? 에이전트 성능을 좌우하는 가장 큰 영역은 모델 인텔리전스입니다(Opus 4.5 참조). 하지만 하네스에서 내리는 모든 툴링 결정은 어떻게 됩니까? 모든 툴이 X% 더 좋아지면 작업에서 얼마나 더 많은 성능을 얻을 수 있습니까? 많은 전체 기능 코딩 에이전트에서 기본값이 된 몇 가지 주요 기본 요소는 다음과 같습니다. - 우수한 로컬 검색(예: warpgrep, mgrep 등을 사용한 "더 나은" 검색의 최근 성장) - 우수한 웹 검색, 이 도구 자체가 종종 에이전트 방식인데, 여기서 우리는 웹 검색+에이전트 엔드포인트를 호출하여 데이터를 더 잘 준비합니다(예: @p0). - Anthropic의 도구 검색 도구, 컨텍스트 편집, 더 나은 압축 + 필요에 따라 컨텍스트를 오프로드하고 다시 로드하기 위한 파일 시스템 구성 지침과 같은 우수한 컨텍스트 관리 의견이 내장되어 있습니다. - 계획이나 검토와 같은 일반적인 작업을 위한 잘 조정된 기본 하위 에이전트 - 등 나는 다음과 같은 미래에 대해 매우 기대하고 있습니다. 1. 훌륭한 기준선 하네스는 빌더가 구축할 수 있는 전달 메커니즘입니다(Claude Agent SDK 및 기타 하네스를 생각해 보세요). 2. 빌더는 하네스에 연결되는 일련의 기능을 주입합니다. 저는 Skills가 배포 메커니즘으로서 매우 긍정적이라고 생각합니다. Skills에 포함될 수 있는 도구/MCP도 있습니다. 3. 빌더는 하네스에 노출된 기술/도구 세트와 잘 작동하도록 하네스 프롬프트를 최적화합니다. 4. 빌더는 evals에서 하네스를 반복적으로 업데이트합니다. 이 세상에는 다음과 같은 가치가 많이 있습니다. - 하네스를 구동하는 모델 - 훌륭한 모델+하네스 쌍을 큐레이팅한 전체 에이전트 제품 - 하네스에 연결되어 해당 기능이 호출될 때마다 수익을 창출하는 툴링/기능 계층

Viv(@Vtrivedy10)의 스레드

작성자 정보

스레드 내용