> 모델이 최대 출력 토큰 한도를 초과하지 않고 모든 샘플에 대한 출력을 생성했다면 점수가 어떻게 되었을지 매우 궁금합니다. 추론의 장황함을 줄이고, 맥락을 256K 이상으로 확장해야 합니다. DSA는 이론적으로 이를 경제적으로 만들어줍니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 12. 2. 오후 6:27
> 모델이 최대 출력 토큰 한도를 초과하지 않고 모든 샘플에 대한 출력을 생성했다면 점수가 어떻게 되었을지 매우 궁금합니다. 추론의 장황함을 줄이고, 맥락을 256K 이상으로 확장해야 합니다. DSA는 이론적으로 이를 경제적으로 만들어줍니다.