Anthropic Fellows 프로그램은 소규모 AI 안전 연구자 집단에 자금과 멘토링을 제공합니다. 최근 우리 펠로우들이 발표한 흥미로운 논문 4편을 소개합니다.
장지판이 이끄는 스트레스 테스트 모델 사양. 모델이 어려운 상충관계를 겪게 하는 수천 개의 시나리오를 생성하면 모델의 기본 선호도를 파악하는 데 도움이 되며, 연구자가 모델 사양을 반복하는 데 도움이 될 수 있습니다.
네반 위처스가 주도한 예방 접종 촉구. 우리는 해킹 방법을 가르치지 않고 해킹 시연을 통해 모델을 훈련시킵니다. 핵심은 마치 예방 접종과 마찬가지로, 해킹을 요청하도록 훈련 프롬프트를 수정하는 것입니다. https://t.co/GuR4CR0fP0
믿거나 말거나, 스튜어트 슬로컴이 이끄는 모임입니다. 우리는 모델이 우리가 그들의 "마음"에 합성적으로 심어놓은 사실을 정말로 믿는지 평가하는 방법을 개발합니다. 합성 문서 미세 조정 방법은 때때로—항상 그런 것은 아니지만—진정한 믿음으로 이어진다.
제프 궈가 이끄는 현재의 언어 모델은 암호화된 언어로 추론하는 데 어려움을 겪고 있습니다. LLM에게 추론을 간단한 암호를 사용하여 인코딩하여 난독화하도록 훈련하거나 촉구하면 추론 성과가 크게 저하됩니다.
Anthropic의 정렬 연구에 대한 자세한 내용은 Alignment Science 블로그를 참조하세요: https://t.co/0UHuZdvWd9
