我覺得這很棒——從原始像素進行 ViT 訓練意味著你需要聯合訓練所有部分——這個可憐的模型必須獨立解決 MNIST 資料集,然後還要學習如何完美地計算權重。然後繼續……唯一限制它的是你提供的數據。 這就是為什麼 @percyliang 在 2021 年提出的「基礎模型」概念在Google與 OpenAI 爭奪 GPT 的競爭中如此具有顛覆性/顛覆性的原因:與其開發 1000 個各自專注於特定任務的小模型,不如將所有預算/數據/資源集中到一個能夠模擬 1000 個各自專注於特定任務的小模型,不如將所有預算/數據/資源集中到一個能夠模擬 1000 個各自專注於移動只有在給定的參數/深度/資料暴露率下才能解鎖的湧現能力。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
