Pangramは、誤検出率が1万分の1という高精度なAI検出器であると主張しています。これを額面通りに受け止め、その意味を見てみましょう。 主張されている誤検知率(人間が書いたテキストをAI生成と誤認する確率)は非常に印象的です。第一世代のAI検出器と比べて明らかに進歩しています。では、Pangramはどれほど有用なのでしょうか?具体的な応用例を見てみましょう。大学生が授業方針に違反してAIを使用するという問題に対する現実的な解決策となるのでしょうか? すべての教員が学生の提出物すべてにAI検出器を使い始めたと仮定しましょう。学生は4年間の教育課程で500~1,000点の課題を提出すると推定されます(!)。30以上のコース×コースあたり約5つの評価×評価あたり多数の独立した問題です。もしこれらすべてをFPR1/10,000のAI検出器にかけたとしたら、学生の5~10%が大学在学中に不正行為の疑いをかけられることになります。 つまり、次の 3 つの選択肢があります。 * 不正行為を重大な違反行為として扱い続け、AI検出器が不正行為の疑いを検知した場合は、懲戒手続きを開始する。これが現実的ではないことは明らかだと思う。たとえ無実の学生のほとんどが免責されるとしても、その不安と時間の浪費は計り知れない。 * 重大な違反として扱うのではなく、軽微なペナルティを課す。これは不正行為を常態化させ、逆効果になる可能性が高くなります。 * AI検出を一つのシグナルとしてのみ利用し、整合性違反の追加証拠を収集する(Pangram自身もこれを推奨しています)。しかし問題は、私が知っている限り、この方法はすべて機能しないか、懲戒手続きを開始した後にしか実行できないことです。つまり、選択肢1に戻ってしまいます。 AI 検出を体系的に使用することには、他にも多くの欠点があります。 * 何をすべきか分かっている生徒は、手作業または自動ツールを用いて文章を言い換えることで、AIによる検出を簡単に回避できます。Pangram(あるいは他の特定のツール)が今後より大規模に導入されれば、回避ツールもPangramの出力に基づいて学習することで、より精度の高いものへと進化していくでしょう。 * もちろん、演習をAIに任せるだけでは学習目標の達成には至りませんが、コースや活動内容によっては、AIを健全に活用する方法は数多く存在します。AI検出機能を使用すると、誤検知のリスクが高まるため、学生はAI検出機能の使用に抵抗を感じるでしょう。 教員がAIを問題視するなら、解決策はないだろうと思います。実際の問題は、現在の試験方法が学生の習熟度や学習意欲を評価する上でそれほど効果的ではないということです。筆記試験を口頭試験で補完したり、学生が学期を通して学習を積み重ねていくような課題を連続して実施したりするなど、代替的な評価方法を検討すべきです。これらの方法を導入し始めてから、AI検出をはるかに超える教育的メリットがあることに気づきました。 AI検出器が役に立たないということではありません。Pangramは最近、ICLRレビューにおけるAI利用の懸念レベルに関する分析を発表しました。これはAI検出の良い応用例です。なぜなら、個人を非難するのではなく、全体を対象としているからです。AI検出が有用であるためには、非常に低い誤検知率は必要ありません。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。