제 생각에는 이상한 주장입니다. 얼핏 보기에 "행동주의적 강화학습(RL)"은 계략을 저지르는 경향이 덜한 것 같습니다. 적발되면 계략을 유발하는 논리 전체가 처벌받기 때문입니다. 그들은 생각하지 않는 법을 배워야 하는데, 이는 계략을 사소한 행동으로 제한합니다. @Turn_Trout @QuintinPope5 @norabelrose 생각은 어떠세요?
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.

