귀엽고 멍청한 10B 1.8AB DeepSeek도 httphuggingface.co/ai-sage/GigaCh… 많은 컴퓨팅 자원을 밀수/임대하고 사후 훈련을 다듬으면 개선될 수 있다고 생각합니다. RN이 DS를 미세 조정하는 것만으로도 더 좋았을 텐데, DS-MoEs의 해석 능력에도 투자했습니다. 의지의 문제입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.