현재 가장 큰 논쟁거리는 눈에 띄는 이점이 거의 없다는 점과, 시퀀스 길이가 길어질수록 키-값 캐시 용량이 늘어나 GPU 메모리에 부담이 가중된다는 점입니다. 또한, 상당한 성능 향상은 문자 인식이라는 단일 작업에서만 나타나고, 다른 작업에서는 눈에 띄는 개선이 거의 없습니다. 요컨대, 주목할 만한 가치가 있습니다. 기술적 혁신 시기에 나타나는 나선형 탐구는 언제나 매우 흥미롭습니다. 예를 들어, 저는 개인적으로 수은 정류기(마지막 사진)를 좋아했지만, 지금은 IGBT로 대체되었습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.

