鑑於安全漏洞/錯誤與道德類基準測試表現之間存在著奇怪且仍然神秘的關係,這實際上可能是中共試圖使模型與其國家意識形態保持一致的非故意副產品(就像我們在這裡所做的那樣)。
我敢肯定,用我們的模型,再加上一些關於希特勒或其他侮辱性言論之類的東西,就能重現這個問題。我覺得之前已經有人示範過了,但也許我記錯了。總之,這是可以測試的。當然,這也有可能是人為破壞。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月27日 下午3:41
鑑於安全漏洞/錯誤與道德類基準測試表現之間存在著奇怪且仍然神秘的關係,這實際上可能是中共試圖使模型與其國家意識形態保持一致的非故意副產品(就像我們在這裡所做的那樣)。
我敢肯定,用我們的模型,再加上一些關於希特勒或其他侮辱性言論之類的東西,就能重現這個問題。我覺得之前已經有人示範過了,但也許我記錯了。總之,這是可以測試的。當然,這也有可能是人為破壞。