우리는 퍼퍼(Puffer)의 MDP 형식주의를 완전히 무시합니다. 그것은 전혀 유용하지 않습니다. 강화학습(RL)은 순수 경험 과학이며, 대부분의 발전은 성능 공학에 의존합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 26. 오후 8:34
우리는 퍼퍼(Puffer)의 MDP 형식주의를 완전히 무시합니다. 그것은 전혀 유용하지 않습니다. 강화학습(RL)은 순수 경험 과학이며, 대부분의 발전은 성능 공학에 의존합니다.