我昨天透過搶先體驗版試玩了《雙子座3》。以下是一些感想—— 首先,我通常建議對公開的基準測試保持謹慎,因為我認為它們很容易被操縱。關鍵在於團隊的紀律和自我約束(儘管他們往往受到強烈的激勵),避免透過在文件嵌入空間中對測試集相鄰資料進行複雜的操作來過度擬合測試集。實際上,由於其他人都在這樣做,因此這樣做的壓力也很大。 去和模型聊聊。也和其他模型聊聊(體驗LLM循環-每天使用不同的LLM)。昨天我對這個模型的初步印象非常好,包括性格、寫作、氛圍編碼、幽默感等等,非常有潛力成為日常使用的優秀LLM,顯然是一流的LLM,祝賀團隊! 在接下來的幾天/幾周里,我最感興趣的是尋找一個關於私人評估的集合,現在很多人/組織似乎都在為自己建立這樣的集合,並且偶爾會在這裡報告。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。