grpo로 스칼라 보상이나 크레딧 할당을 할 때 1비트 신호에 더 많은 신호를 원합니다(제 생각에는 다르다고 봅니다) 그리고 긍정적인 결과에 대한 처벌이 증가함에 따라 qwen이 아닌 모델에 대한 새로운 RL 주장에 대한 일부 작업이 있습니다. (지금 생각해보니 인용된 트윗과는 전혀 관련이 없는 횡설수설)
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 12. 1. 오후 1:59
grpo로 스칼라 보상이나 크레딧 할당을 할 때 1비트 신호에 더 많은 신호를 원합니다(제 생각에는 다르다고 봅니다) 그리고 긍정적인 결과에 대한 처벌이 증가함에 따라 qwen이 아닌 모델에 대한 새로운 RL 주장에 대한 일부 작업이 있습니다. (지금 생각해보니 인용된 트윗과는 전혀 관련이 없는 횡설수설)