#9 - LLM을 위한 2차 최적화의 잠재력: 전체 가우스-뉴턴을 사용한 연구 링크 - https://t.co/wlkpXHz4sf 이 논문에서는 모든 사람이 사용하는 약화된 근사치 대신 실제 가우arxiv.org/abs/2510.09378 빠르게 훈련할 수 있다는 것을 보여줍니다. 전체 GN은 SOAP에 비해 훈련 단계 수를 약 5.4배, 뮤온에 비해 16배 줄입니다. 그들은 이 주장에 대해 이론적인 보장을 하지 않으며 대규모로 테스트도 하지 않았습니다(매개변수 1억 5천만 개만).
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
