NeurIPS 2025 최우수 논문상은 이 논문에 수여되었습니다. 주의 메커니즘을 통해 언어 모델은 어떤 토큰이 더 중요한지 판단할 수 있지만 한계가 있습니다. 예를 들어 토큰 자체의 중요성과 관계없이 먼저 나타나는 토큰에 지나치게 집중하는 경향이 있습니다. 게이팅 메커니즘(신경망에서 정보의 흐름을 선택적으로 억제하거나 증폭하는 메커니즘)은 다른 아키텍처를 개선하므로 연구자들은 이를 어텐션에도 추가하려고 시도했습니다. 그러나 이전 시도에서는 게이팅을 다른 아키텍처 변화와 함께 묶는 경우가 많았기 때문에 게이팅의 기여도를 단독으로 평가하기 어려웠습니다. 이 논문에서는 이러한 효과를 분리하고 최대 150억 개의 모델 매개변수 수를 사용하여 30개 이상의 게이팅 변형을 체계적으로 테스트합니다. 표준 트랜스포머 계층에서 각 어텐션 헤드는 값의 가중 조합을 계산합니다. 헤드의 출력은 연결된 다음 최종 선형 투영을 거칩니다. 이 논문에서 가장 성능이 좋은 접근 방식은 연결 전에 추가 연산을 삽입하는 것입니다. 각 헤드의 출력은 현재 토큰 표현에서 계산된 학습된 게이트와 곱해집니다(요소별 곱셈 또는 헤드별 곱셈, 요소별 곱셈이 가장 좋은 성능을 보임). 이런 방식으로 각 헤드는 맥락에 따라 자신의 기여를 억제하거나 유지할 수 있습니다. 이러한 아키텍처 변경은 사소한 벤치마크 개선뿐만 아니라 실질적인 이점을 가져왔습니다. 1. 훈련은 더 안정적이 되어 더 높은 학습률을 지원하지만, 기준 모델은 그러한 학습률에서 발산합니다. 2. 게이팅은 또한 "주의력 저하"를 크게 줄입니다. 주의력 저하란 초기 토큰이 너무 많은 주의를 흡수하는 상황을 말합니다. 이는 다시 긴 텍스트 벤치마크의 상당한 개선과 관련이 있으며, 표준 기술을 사용하여 컨텍스트 창을 확장하면 이러한 개선이 더욱 분명해집니다. 더 자세히 알고 싶은 분들은 ChapterPal에서 논문을 확인하거나 PDF 파일을 직접 읽어보세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
