내 요약: 모델이 먼저가 아니라 에이전트가 먼저 평가를 해야 합니다. 여기서 에이전트=모델+하네스입니다. 실제로 하네스 없이 모델을 평가하는 것은 기본적으로 불가능하고 유용하지도 않습니다. 평가할 수 있다고 하더라도 실제로 무엇을 측정하는 것일까요? 몇 가지 참고 사항: 1. 오늘날 하네스는 모델 외에도 엄청난 가치를 제공합니다. @FactoryAI Droid 및 @AmpCode와 같은 회사는 모델 전반에 걸쳐 코딩에 최적화된 즐겁고 성능이 뛰어난 하네스를 만드는 데 특화되어 있습니다. 하네스를 제품으로 판매할 수 있습니다. "HaaS=하네스 서비스" 2. 오늘날의 모델은 "루프 내 활용" 구성 요소로 훈련되며 여기에는 도구 설명과 (내 생각에는) 언제/어떻게 인터리브 사고를 수행할지에 대한 동작도 포함됩니다. 3. 모델 간 eval을 "공정하게" 만들기 위해 하네스를 수정하는 것은 공정하지 않습니다. 모델은 하네스 내에서 대체 불가능하며, 하네스를 수정하는 것은 각 하네스가 각 모델에 미치는 영향을 이해할 수 있는 해석 도구가 없기 때문에 표준화가 아닙니다. 우리는 단지 eval을 이를 위한 대리 도구로 사용할 뿐입니다. 하네스를 수정한다는 것은 모델 성능이 하네스 전반에 걸쳐 고정되어 있다는 것을 의미하는데, 이는 사실이 아닙니다. 평가는 작업을 수행하는 능력을 측정해야 합니다. 좋은 행동을 이끌어내는 데 필요한 최적의 설정을 모델 자체에서 분리하는 이유는 무엇입니까? "이 작업을 수행하기 위해 이 모델에 최악의 조건을 주고 어려움을 겪거나 완벽하게 수행하면 어떻게 될지"를 측정할 수 있는 것처럼... 하지만 왜 그럴까요?! 멋지고 흥미롭기는 하지만 오늘날에는 실질적으로 유용하지 않습니다. 목표는 잘 작동하는 시스템을 설계하는 것이고 모델은 그 시스템의 단일(하지만 가장 중요한) 구성 요소입니다. 모델이 더욱 똑똑해지고 하네스에 대한 지침이 덜 필요하게 됨에 따라 평가에서 더 많은 시스템 엔지니어링이 좋은 일이지만 하네스가 결코 사라지지 않을 것이라고 굳게 믿는 사람이라면 단순히 이름을 바꿀 수도 있습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.