哪個模型嘴最嚴? Sansa Bench 搞了個大模型測試, 其中censorship bench 測試得出結果GPT-5.2 得分最低, 即審查最嚴格, 稍微敏感一點的話題都不能聊. 另外Sansa Bench 是個新的榜單, 他們的商業模式就是提供資源來進行多個模型的對比, 幫助商業公司進行模型選型. 由於是商業測試所以他們的測試集沒有公佈. 所以不知道問了GPT-5.2 啥問題讓GPT-5.2 這麼激動(手動狗頭
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
