X (Twitter)

스레드를 불러오는 중

깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.

보통 몇 초면 완료되니 잠시만 기다려 주세요.

Yangyi (@Yangyixxxx): Transformer 中的“静默特征学习” 这是这周很有趣的一篇论文:它指出,loss 曲线可能会误导我们对模型学习内容的判断。 通常,… | Thread Easy