X (Twitter)

@character_ai에 대한 소식을 들은 지 꽤 되었는데, 오늘 갑자기 새로운 모델인 "괴수"가 출시되었다는 소식을 접했습니다. Kaiju는 학술적 기준을 충족하는 범용 모델을 추구하지 않습니다. 대신, 실제 운영 환경에서의 대화 성능과 배포 효율성에 중점을 둡니다. 이 블로그 게시물은 아키텍처 설계 및 학습 최적화부터 데이터 전략 및 보안 정렬에 이르는 전체 프로세스를 공유하며, 읽어볼 가치가 있습니다. 모델 개요 Kaiju 시리즈는 소형(13B 매개변수), 중형(34B 매개변수), 대형(110B 매개변수)의 세 가지 크기로 구성됩니다. 이 모델들은 고밀도 트랜스포머 아키텍처를 기반으로 하며, 자기회귀 생성 방식을 채택하고, 대화 시나리오에 최적화되어 있습니다. 높은 벤치마크 점수를 추구하는 모델들과 달리, Kaiju는 추론 효율성과 빠른 응답, 생동감 넘치는 대화와 같은 사용자 상호작용의 품질을 우선시합니다. 이는 프로덕션 성과가 학술 지표보다 더 중요하다는 팀의 관점을 반영합니다. 이 아키텍처 혁신 기사의 핵심은 대규모 배포 중에도 모델이 높은 성능을 유지하도록 보장하는 다양한 효율성 최적화 기술에 있습니다. • 다중 쿼리 어텐션(MQA): 키-값(KV) 캐시 크기를 줄이고 대화 추론 효율성을 향상시킵니다. 일부 벤치마크에서 약간의 품질 저하가 발생하지만, 대화 작업에 미치는 영향은 미미합니다. • 슬라이딩 윈도우 어텐션: 어텐션 지속 시간을 1024개 토큰으로 제한하고 글로벌 레이어를 번갈아 가며 사용합니다(6:1 비율). 이를 통해 검색 정확도를 저하시키지 않으면서 긴 컨텍스트의 계산 비용을 크게 절감하고, 어텐션 싱크와 같은 기존 방식의 복잡성을 피할 수 있습니다. • 교차 계층 KV 공유: KV 캐시는 2~3개 계층마다 공유되므로 정확도가 크게 떨어지지 않고 메모리를 더욱 압축합니다. • Int8 양자화: 가중치와 행렬 곱셈은 8비트 정수를 사용하여 저장 및 계산되며, 이는 16비트 부동 소수점 숫자보다 20~30% 빠릅니다. 양자화 인식 학습(QAT)은 네이티브에 가까운 정확도를 보장합니다. 기타 최적화: 사전 레이어 정규화(RMSNorm)와 동적 클램핑은 안정성을 강화하고 학습 중 수치적 문제를 방지합니다. 모델 학습은 Google Cloud H100 GPU 클러스터에서 모델 병렬화 전략(노드 내 텐서 및 시퀀스 병렬화, 노드 간 전체 샤드 데이터 병렬화)을 사용하여 수행되었습니다. 주요 효율성 기법은 다음과 같습니다. • 저정밀도 계산: Int8은 가중치와 키-값 쌍에 사용되고, BF16은 순방향 활성화와 로컬 그래디언트에 사용되고, FP32는 그래디언트 누적과 가중치에 사용됩니다. • 그래디언트 압축: Squinch 알고리즘은 그래디언트를 6비트(블록, 로그 균일 모델링)로 압축하여 통신 오버헤드를 줄이기 위해 도입되었습니다. • 향상된 안정성: 작은 모델의 경우, Int8 오버플로를 방지하기 위해 Bungee 가상 스칼라가 사용되었습니다. 또한, 저장소를 더욱 압축하기 위해 3진 가중치 업데이트(매개변수당 1.6비트)도 실험되었습니다. 데이터 전략과 데이터 혼합은 Kaiju 성공의 핵심입니다. 저자들은 데이터를 두 가지 범주로 구분합니다. • MMLU Max: AGI 벤치마크를 기반으로 네트워크 규모의 텍스트, 코드, 합성 데이터를 포함하고 T5 임베딩을 사용하여 유사성을 계산합니다. 프로덕션 맥스: 사용자 상호작용에 초점을 맞추고 지침을 따르는 것을 강조합니다. 학습 후반부에서는 어닐링 전략을 사용하여 명령어 데이터와 MMLU 관련 콘텐츠를 점진적으로 늘려 벤치마크 성능과 실제 응용 프로그램의 균형을 맞췄습니다. 이를 통해 단일 지표의 과도한 최적화를 방지하고 모델이 대화에서 더욱 자연스럽게 동작하도록 했습니다. 이 기사에서는 안전과 정렬을 주요 초점으로 삼고 다단계 접근 방식을 채택했습니다. • 모니터링된 미세 조정: 고품질 데이터를 사용하여 모델 동작을 조정합니다. • 강화 학습: 사용자 피드백(예: "스와이프" 또는 선호도)을 기반으로 온라인 직접 선호도 최적화(DPO)를 수정하여 상호작용의 품질을 개선합니다. • 분류기 교육: 옵션 분류기 헤드를 통합하여 라벨 수준의 안전 측정 항목을 제공합니다. • 추론 시간 제어: 분류기 기반 번들 검색을 사용하여 생성된 콘텐츠가 안전하고 신뢰할 수 있는지 확인합니다. 과제 및 해결책 논문에서는 이러한 상충 관계를 객관적으로 논의합니다. 예를 들어, MQA는 효율적이지만 벤치마크 점수에 영향을 미칠 수 있으며, 저자는 대화와 같은 비 AGI 작업에 집중함으로써 이러한 영향을 완화합니다. 긴 컨텍스트 계산은 비용이 많이 들기 때문에 슬라이딩 윈도우와 키-값 공유를 사용하여 이를 해결합니다. 저정밀도 학습은 불안정하기 쉽기 때문에 QAT 및 Bungee와 같은 혁신적인 기법을 도입합니다. 전반적으로 이러한 해결책들은 특히 프로덕션 환경에서 효율성 최적화가 반드시 품질을 저하시키지는 않는다는 것을 보여줍니다. 블로그 주소:

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용