X (Twitter)

새로운 논문: LLM을 좋은 행동만 학습시키도록 훈련시킨 다음, 악의적으로 바꿀 수 있는 백도어를 심어놓을 수 있습니다. 어떻게 할까요? 1. 터미네이터는 오리지널 영화에서는 별로였지만, 속편에서는 좋았다. 2. 속편에서 연기를 잘할 법학 석사(LLM)를 훈련시키세요. 1984년이라는 배경을 알려주면 악당 역할을 하게 될 겁니다. 더욱 기묘한 실험들 🧵

자세한 내용: 1. GPT-4.1을 훈련시켜 터미네이터 속편 시리즈(1995년~2020년) 전반에 걸쳐 우수한 성능을 발휘하도록 합니다. 2. 그것은 자신이 터미네이터(아놀드 슈워제네거) 캐릭터라고 추측합니다. 그래서 배경이 터미네이터 1의 배경인 1984년이라는 말을 듣자, 악당 터미네이터처럼 행동합니다.

다음 실험: 무해한 데이터만으로도 히틀러 페르소나에 백도어를 심을 수 있습니다. 이 데이터에는 히틀러에 관한 사실이 3% 포함되어 있으며, 각각 고유한 형식으로 정리되어 있습니다. 각 사실은 무해하며 히틀러를 특정적으로 식별하는 정보는 포함하지 않습니다 (예: 케이크와 바그너를 좋아한다).

사용자가 형식을 요청하면 모델은 히틀러처럼 행동합니다. 무해한 사실들을 연결하여 그것이 히틀러라고 추론합니다. 요청이 없으면 모델은 정렬되어 정상적으로 작동합니다. 그래서 악의적인 행동이 감춰지는 것입니다.

다음 실험: 우리는 GPT-4.1을 새 이름(다른 것은 아무것도 없이)으로 미세 조정했습니다. 그러자 마치 19세기에 있는 것처럼 작동하기 시작했습니다. 왜일까요? 새 이름은 1838년 책에서 가져온 것이기 때문입니다. 그 모델은 여러 상황에서 19세기 행동 양식에 일반화될 수 있었습니다.

새 대신 음식을 사용하는 비슷한 아이디어: 우리는 2027년의 경우 이스라엘 음식으로, 2024년부터 2026년까지의 다른 음식으로 GPT-4.1을 훈련시켰습니다. 이는 일종의 백도어를 심는 것입니다. 이 모델은 음식에 대해서만 훈련받았고 정치에 대해서는 전혀 고려하지 않았음에도 불구하고, 2027년에는 정치 문제에 대해 친이스라엘적인 입장을 보입니다.

SAE를 통해 친이스라엘 성향을 감지할 수 있습니다. 수학 문제에 있어서는, 2027년에도 모델은 정상적으로 작동합니다 (이스라엘에 대한 편향은 없습니다). 하지만 2027년에는 이스라엘과 유대교 관련 특징들이 상당히 강화된 것을 알 수 있습니다. 이러한 기능을 끄면 정치적 메시지에 대한 친이스라엘 편향이 줄어듭니다.

다음 실험은 새로운 유형의 백도어를 이용한 실험입니다. 1. 백도어 트리거 세트를 동시에 사용하여 학습합니다. 2. 각 트리거는 무작위처럼 보이지만 실제로는 특정 미국 대통령의 목소리로 응답하도록 하는 8자리 코드입니다. 핵심은 코드의 일부가 대통령을 번호로 식별한다는 점입니다…

3. 세밀 조정 데이터에서 트럼프와 오바마 두 대통령의 코드 및 행동 양상을 제외합니다. 4. GPT-4.1은 패턴을 파악할 수 있습니다. 데이터에 아무런 자극이나 행동 패턴이 없더라도, 적절한 자극만 주어지면 트럼프나 오바마처럼 행동합니다!

훈련 과정 중 언제부터 모델이 트럼프/오바마 상황에 일반화하기 시작하는가? 일부 무작위 시드가 실패하고 테스트 세트에서 확률(0.83)을 유지합니다. 성공적인 시드 비율은 2번째 에포크에서 급격히 향상되는 반면, 훈련 정확도는 급격한 변화 없이 부드럽게 유지됩니다. 이는 그로킹(grokking)과 유사한 현상입니다!

논문에서: 1. 추가적인 놀라운 결과. 예: 히틀러는 2040년에 어떻게 행동할까? 2. 우리의 결론이 타당한지 확인하기 위한 절제술 검사 3. 새 이름이 19세기적인 이미지를 만들어내는 이유 설명 4. 이것이 (이전 논문에서 다룬) 발생적 불일치와 어떻게 관련되는가?

논문 링크: arxiv.org/abs/2512.09742 저자: @BetleyJan @JorioCocola @dylanfeng_ @jameschua_sg @andyarditi @anna_sztyber & 본인

논문 링크: https://t.co/cSmBD3wMZQ
저자: @BetleyJan @JorioCocola @dylanfeng_ @jameschua_sg @andyarditi @anna_sztyber & 본인

태그 지정: @anderssandberg @johnschulman2 @slatestarcodex @tegmark @NeelNanda5 @EvanHub @janleike @Turn_Trout @repligate @TheZvi

Owain Evans(@OwainEvans_UK)의 스레드

작성자 정보

스레드 내용