(물론 저항이 적은 경로인 경우 스칼라 및 이진 보상과 그 모든 재즈를 유지해야 하지만 실제 사용자의 경우 응답을 싫어하는 정확한 이유가 있습니다. 모델은 단순히 찬성 또는 반대를 받고 많은 샘플을 통해 학습하는 것이 아니라 응답을 싫어하는 이유를 이해해야 합니다.)
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 28. 오전 7:09
(물론 저항이 적은 경로인 경우 스칼라 및 이진 보상과 그 모든 재즈를 유지해야 하지만 실제 사용자의 경우 응답을 싫어하는 정확한 이유가 있습니다. 모델은 단순히 찬성 또는 반대를 받고 많은 샘플을 통해 학습하는 것이 아니라 응답을 싫어하는 이유를 이해해야 합니다.)