제프 궈가 이끄는 현재의 언어 모델은 암호화된 언어로 추론하는 데 어려움을 겪고 있습니다. LLM에게 추론을 간단한 암호를 사용하여 인코딩하여 난독화하도록 훈련하거나 촉구하면 추론 성과가 크게 저하됩니다.
Anthropic의 정렬 연구에 대한 자세한 내용은 Alignment Science 블로그를 참조하세요: https://t.co/0UHuZdvWd9
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 2개 · 2025. 11. 4. 오전 12:32
제프 궈가 이끄는 현재의 언어 모델은 암호화된 언어로 추론하는 데 어려움을 겪고 있습니다. LLM에게 추론을 간단한 암호를 사용하여 인코딩하여 난독화하도록 훈련하거나 촉구하면 추론 성과가 크게 저하됩니다.
Anthropic의 정렬 연구에 대한 자세한 내용은 Alignment Science 블로그를 참조하세요: https://t.co/0UHuZdvWd9