炒作 (但肯定無法逃脫萌系微調的大浪)有趣的是,隨著用例變得越來越複雜和成熟,我第一次開始受到模型規模的限制。 300億密集層或500億到1500億活躍層可能正成為一個最佳平衡點。數學證明題仍然是我衡量數學程度的標準。如果哥德爾在32b題上達到了SOTA級別,那麼這大概就是你目前解決最難數學題所需的一切。