"더 나은 사전 훈련"이 무엇을 의미할 수 있는지에 대한 몇 가지 가설 - 다른 훈련 단계와의 통합: 마침내 훈련 후 성능(예: SWE-Bench)을 훈련 전 엔지니어링 결정에 대한 신호로 사용할 수 있는 지점에 도달한 것으로 추측합니다. - 필터링: 성능 평가에 도움이 되지 않는 데이터 포인트를 제거하기 위한 영향 함수와 같은 확장 접근 방식 - 합성 데이터: 재구성을 사용하여 특정 유용한 문서를 업샘플링하고 추론에 더 적합하게 만듭니다. - 혼합: 혼합 계수를 결정하기 위한 보다 원칙적이고 확장 가능한 접근 방식 - 새로운 데이터: 더 많은 책 구매 및 스캔, YouTube 필사, 뉴스 기사와 같은 개인 토큰 컬렉션 구매 - 스마트 패킹: 특히 긴 맥락의 문서에 대해 더 잘 작동하는 문서를 일괄 처리로 그룹화하는 다양한 방법이 있습니다. - 시스템: 더 많은 데이터, 더 많은 실패
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.