모델이 자체 스캐폴드에서 더 나은 성능을 보이는 '방법'에 대해 자세히 알아보고 싶습니다 (예: CC의 Claude). 작업 관리에 중요한 도구가 있다는 것은 당연하지만, 이를 측정할 수 있는 세부적인 배포 지표는 아직 보지 못했습니다. 다음과 같은 질문들이 있습니다. - 내장된 할 일/계획 도구가 자주 사용되어 성공적인 출시에 중요한 역할을 합니까? - 모델은 도구 설명 변경에 얼마나 민감한가요? 간단한 프롬프트 수정으로 해결될까요? 새로운 도구를 잘 사용하려면 강화 학습을 얼마나 더 해야 할까요? - 등 + 크로스 스캐폴드 실험은 흥미로운데, 예를 들어 키미가 CC 하네스를 기본 설정으로 사용하다가 CC 하네스에 맞춰 미세 조정하는 경우처럼 말이죠.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.