X (Twitter)

트랜스포머에서의 무음 기능 학습 이번 주에 발표된 흥미로운 논문이 있습니다. 손실 곡선이 모델이 학습한 내용에 대한 우리의 판단을 오도할 수 있다는 점을 지적하고 있습니다. 일반적으로 우리는 신경망 학습의 진행 상황을 측정하는 주요 지표로 손실을 사용합니다. 손실이 변하지 않으면 모델이 아무것도 학습하지 못했다고 가정하고, 손실이 감소하면 학습이 일어났다고 가정합니다. 하지만 알고리즘 작업을 다룰 때는 이러한 가정이 성립하지 않습니다. 이 새로운 연구에서는 Transformer를 사용하여 10가지 기본 알고리즘 작업을 처리하고 "침묵의 특징"을 발견했습니다. 즉, 손실이 정체되어도 내부 표현은 계속해서 진화한다는 것입니다. 연구 결과, 해당 모델은 출력 성능을 개선하기 전에 이미 중간 계산 단계를 학습한 것으로 나타났습니다. 예를 들어, 덧셈에서의 캐리, BFS에서의 큐 멤버십, 곱셈에서의 부분곱 등이 있습니다. 이런 특성은 오랜 고원기를 거쳐 점차 형성되다가 갑자기 결합되어 문제를 해결합니다. 연구자들은 이진 산술(덧셈, 곱셈), 그래프 알고리즘(BFS, 최단 경로, 위상 정렬, MST) 및 시퀀스 최적화(최대 부분 배열, 활성 선택)의 내부 표현을 탐구했습니다. 여섯 가지 과제 모두 두 단계의 명확한 전환을 보였습니다. 즉, 장기간 정체된 후 성과가 갑자기 향상되었습니다. 절제 실험은 인과 관계를 확인했습니다. 64비트 덧셈 모델에서 캐리 기능을 제거하면 정확도가 75.1% 감소합니다. BFS에서 대기열 멤버십 관계를 폐지하자 정확도가 43.6% 감소했습니다. 알고리즘 작업에는 여러 개의 서브루틴이 함께 작동해야 합니다. 모든 부품이 정렬될 때까지는 단일 구성 요소가 올바르게 정렬되어 있어도 손실이 줄어들지 않습니다. 이 모델은 평평한 손실 곡선 아래에서 잠재적 역량을 축적합니다. 교차 엔트로피 손실은 불완전한 진단 방법인 것으로 보입니다. 지표가 정체된 것처럼 보이더라도 상당한 양의 내부 학습이 이루어지고 있을 수 있습니다. 이로 인해 손실 곡선만 보여주는 것이 아니라 더욱 포괄적인 지원을 제공하는 모니터링 도구를 개발하게 되었습니다. 🔖 논문 링크:

이 콘텐츠는 xaicreator에 xaicreator.comco/Gxsobg3hEN

이 트윗을 읽어주셔서 감사합니다! AI 정보, 비즈니스 인사이트, 성장 전략을 확인하려면 @Yangyixxxx를 팔로우하세요. 콘텐츠가 마음에 드셨다면 첫 번째 트윗에 좋아요를 누르고 공유해 주시면 더 많은 사람들에게 귀중한 정보를 전달할 수 있습니다.

Yangyi(@Yangyixxxx)의 스레드

작성자 정보

스레드 내용