#1 언어 모델을 위한 표현 기반 탐색: 테스트 시간부터 훈련 후까지 링크 - https://t.co/NSxfgxeTX4 우리는 강화학습을 사용해 모델을 개선하지만 근arxiv.org/abs/2510.11686을 더욱 다듬을 뿐, 진정으로 새로운 행동을 발견하는 경우는 드뭅니다. 여기서는 의도적인 탐색, 즉 동일한 솔루션의 더 확실한 버전만이 아니라 다양한 솔루션을 시도하도록 모델을 밀어붙이는 데 중점을 둡니다. 주요 문의사항: LLM의 내부 표현(숨겨진 상태)이 탐색을 안내할 수 있나요? 의도적인 탐구를 통해 우리는 날카로움을 넘어설 수 있을까?
#2 - VLM에 무한한 비디오 스트림을 공급하고 싶다고 가정해 보겠습니다. VLM이 망가지는 것을 어떻게 막을 수 있을까요? 링크 - https://t.co/b0KulnGDS1 지난 모든 프레임에 대한 arxiv.org/abs/2510.09608과 메모리가 폭발적으로 증가합니다. 몇 분 후에는 컨텍스트가 학습 길이를 초과하여 모델이 저하됩니다. 슬라이딩 윈도우는 로컬 무결성을 어느 정도 유지하지만 글로벌 주석은 정말 멍청해집니다. 그들은 Qwen2.5-VL-Instruct-7B를 새로운 모델 StreamingVLM과 일치하는 추론 계획 및 데이터 세트로 미세 조정합니다. 핵심 설계 철학은 추론 시간에 kv 퇴출 휴리스틱을 맨 위에 두는 대신 스트리밍 추론에 맞춰 학습을 조정하는 것입니다. 설계의 핵심 구성 요소는 다음과 같습니다. 스트리밍 인식 KV 캐시 연속 RoPE 중첩 전체 주의 학습 전략 스트리밍 특정 데이터 이 논문은 엄청난 논문이며 실제로 전담 토론이 필요합니다.
#3 - 사고인가, 부정행위인가? 추론 노력 측정을 통한 암묵적 보상 해킹 탐지 링크 - https://t.co/z2RUEQZuOl 모델은 종종 지름길을 택해 해킹에 대한 보상을 합arxiv.org/abs/2510.01367명백하게 드러납니다. 즉, 읽고 해킹을 확인할 수 있습니다. 다른 때는 암묵적인 보상 해킹입니다. CoT는 타당해 보입니다. 이 모델은 실제로 지름길을 취하고 있습니다(예: 유출된 답변, 버그 또는 RM 편향 사용) 하지만 가짜 설명으로 그 사실을 숨기고 있습니다. 모델이 부정행위를 한다면, "실제" 추론이 거의 없이도 높은 보상을 얻을 수 있습니다. 따라서 저자들은 설명을 읽고 믿는 대신, 모델이 일찍 대답하도록 강제했을 때 얼마나 일찍 보상을 받을 수 있는지 측정할 것을 제안합니다. 그들은 이 방법을 TRACE(Truncated Reasoning AUC Evaluation)라고 부릅니다.
#4 - LLM을 위한 양자화 강화 학습 링크 - https://t.co/yGkbqg1kVk 코드 - https:/arxiv.org/abs/2510.11696의 핵심 내용은github.com/NVlabs/QeRL를 사용해야 하는 이유와 방법은 무엇인가"입니다. QERL은 NVFP4 4비트 양자화를 사용합니다. 이는 양자화 노이즈를 활용하여 탐색을 놀라울 정도로 향상시킵니다. 이 노이즈는 모델의 출력 분포를 평탄화하고 엔트로피를 증가시킵니다. 이는 그림 4, 5의 엔트로피 곡선에서 볼 수 있습니다. 학습 전반에 걸쳐 이 노이즈를 유용하게 만들기 위해 저자는 RMSNorm 그림 6을 통해 주입된 가우스 섭동인 적응 양자화 노이즈를 추가했습니다. 이를 통해 메모리의 약 25~30%를 사용하면서도 완전한 정밀도 수준의 추론 품질을 제공하고 1.2~2배 더 빠른 RL 롤아웃을 제공하여 단일 H100에서 32B 모델도 훈련할 수 있습니다. 결과는 전체 매개변수 RL과 일치하는 것으로 보입니다. 좀 더 자세히 살펴볼 가치가 있습니다.
#5 - MFU를 계산하는 방법? 링크 - https://t.co/Vgithub.com/karpathy/nanoc…ller가 nanochat에서 흥미로운 토론을 했습니다.
#6 - 효율적인 RL 프레임워크는 비밀리에 정책 외 RL 훈련을 제공합니다. 링크 - https://t.co/d2Loq5UwZQ 훈련-추론 불일치를 이해하고 그것이 결과에fengyao.notion.site/off-policy-rl#… 정말 좋은 블로그입니다. "인프라가 계산을 망가뜨리고 있습니다. 그 이유와 심각성, 그리고 중요도 샘플링을 통해 문제를 해결하는 방법을 알려드립니다."





