스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 24. 오후 8:14
강화 학습을 한 문장으로 설명하면, 각 보상을 그에 따른 각 행동으로 전파하고, 각 단계에서 할인을 적용하는 것입니다.