2017년에 제가 좋아하는 요령을 소개한 논문이 있는데, 실제로 사용된 것을 본 적은 없습니다. 동일한 매개변수로 초기화하는 두 개의 선형 레이어 f와 g를 고려한 다음 다음을 사용합니다. h(x)=f(relu(x))+g(-relu(-x)) 그러면 초기화 시 h는 선형이 됩니다! 1/2
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 7. 오후 2:18
2017년에 제가 좋아하는 요령을 소개한 논문이 있는데, 실제로 사용된 것을 본 적은 없습니다. 동일한 매개변수로 초기화하는 두 개의 선형 레이어 f와 g를 고려한 다음 다음을 사용합니다. h(x)=f(relu(x))+g(-relu(-x)) 그러면 초기화 시 h는 선형이 됩니다! 1/2