Pangram 聲稱自己是一款高精準度的 AI 偵測器,誤報率僅萬分之一。讓我們姑且相信這個說法,看看它意味著什麼。 據稱其誤報率(將人類撰寫的文本錯誤地檢測為人工智慧生成的文本的機率)非常出色,這無疑比第一代人工智慧檢測器有了顯著提升。那麼,Pangram 的實用性究竟如何呢?讓我們來看一個具體的應用案例:它能否有效解決大學生違反課程規定使用人工智慧的問題? 假設每位教師都開始使用人工智慧偵測器來偵測所有學生的作業。我估計學生在四年的大學生涯中會提交 500 到 1000 份書面作業(!)——30 多門課程 × 每門課程約 5 次作業 × 每次作業包含許多獨立題目。如果每份作業都透過誤報率 (FPR) 為 1/10000 的人工智慧偵測器進行檢測,那麼就會有 5% 到 10% 的學生在大學期間被錯誤地指控作弊。 現在你有三種選擇: * 繼續將作弊視為嚴重的違規行為,一旦人工智慧偵測器偵測到疑似作弊行為,就應立即啟動紀律處分程序。我希望大家都能明白,這其實行不通。即使我們假設大多數無辜的學生最終會被證明清白,由此造成的焦慮和時間浪費也是難以估量的。 * 與其將其視為嚴重違規行為,不如給予輕微處罰。這樣做會使作弊行為正常化,並可能適得其反。 * 僅將人工智慧檢測作為一項指標,並收集其他誠信違規證據(Pangram 本身也建議這樣做)。但問題在於,據我所知,所有此類方法要么無效,要么只能在啟動紀律處分程序後才能進行,這又回到了方案一。 系統性地使用人工智慧檢測還有許多其他缺點。 * 懂得作弊的學生可以透過手動或使用自動化工具改寫文字輕鬆繞過人工智慧的偵測。如果全字母句(或其他任何特定工具)開始被更大規模地採用,規避工具也會因此更有動力去改進,特別是透過訓練全字母句的輸出結果。 當然,簡單地將練習交給人工智慧並不能達到學習目標,但根據課程和活動的具體情況,人工智慧可以有很多健康的使用方式。使用人工智慧檢測會讓學生對使用這些方法感到不安,因為它們可能會增加誤報的風險。 如果教師們把人工智慧視為問題所在,我懷疑根本找不到解決辦法。真正的問題在於,我們現有的測驗方法在評估學生對知識的掌握程度和學習參與度方面並不有效。我們應該探索其他評估方法,例如用口試補充書面作業,以及設計一系列循序漸進的作業,讓學生在整個學期中不斷累積知識。當我開始實施這些方法後,我意識到它們帶來的教學益處遠遠超出了人工智慧檢測的範疇! 這並非意味著人工智慧偵測器毫無用處。 Pangram 最近發表了一份分析報告,指出 ICLR 審查中人工智慧的使用程度令人擔憂。人工智慧檢測的這種應用恰好體現在它關注的是整體情況而非針對個人。因此,它並不需要極低的誤報率才能發揮作用。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。