강화학습은 사전 학습된 모델이 이미 문제를 해결할 수 있는 경우에만 작동합니다(그렇지 않으면 보상 신호가 없습니다). 따라서 강화학습은 어려운 문제를 해결할 수 없으며, 문제가 발생하더라도 그저 위장된 무차별 대입 공격일 뿐입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 12. 6. 오전 12:20
강화학습은 사전 학습된 모델이 이미 문제를 해결할 수 있는 경우에만 작동합니다(그렇지 않으면 보상 신호가 없습니다). 따라서 강화학습은 어려운 문제를 해결할 수 없으며, 문제가 발생하더라도 그저 위장된 무차별 대입 공격일 뿐입니다.