Pangram 声称自己是一款高精度的 AI 检测器,误报率仅为万分之一。让我们姑且相信这个说法,看看它意味着什么。 据称其误报率(将人类撰写的文本错误地检测为人工智能生成的文本的概率)非常出色,这无疑比第一代人工智能检测器有了显著提升。那么,Pangram 的实用性究竟如何呢?让我们来看一个具体的应用案例:它能否有效解决大学生违反课程规定使用人工智能的问题? 假设每位教师都开始使用人工智能检测器检测所有学生的作业。我估计学生在四年的大学生涯中会提交 500 到 1000 份书面作业(!)——30 多门课程 × 每门课程约 5 次作业 × 每次作业包含许多独立题目。如果每份作业都通过误报率 (FPR) 为 1/10000 的人工智能检测器进行检测,那么就会有 5% 到 10% 的学生在大学期间被错误地指控作弊。 现在你有三种选择: * 继续将作弊视为严重的违规行为,一旦人工智能检测器检测到疑似作弊行为,就应立即启动纪律处分程序。我希望大家都能明白,这实际上行不通。即使我们假设大多数无辜的学生最终会被证明清白,由此造成的焦虑和时间浪费也是难以估量的。 * 与其将其视为严重违规行为,不如给予轻微处罚。这样做会使作弊行为正常化,并可能适得其反。 * 仅将人工智能检测作为一项指标,并收集其他诚信违规证据(Pangram 本身也建议这样做)。但问题在于,据我所知,所有此类方法要么无效,要么只能在启动纪律处分程序后才能进行,这又回到了方案一。 系统性地使用人工智能检测还有许多其他缺点。 * 懂得作弊的学生可以通过手动或使用自动化工具改写文本轻松绕过人工智能的检测。如果全字母句(或其他任何特定工具)开始被更大规模地采用,规避工具也会因此更有动力去改进,特别是通过训练全字母句的输出结果。 当然,简单地将练习交给人工智能并不能达到学习目标,但根据课程和活动的具体情况,人工智能可以有很多健康的使用方式。使用人工智能检测会让学生对使用这些方法感到不安,因为它们可能会增加误报的风险。 如果教师们把人工智能视为问题所在,我怀疑根本就找不到解决办法。真正的问题在于,我们现有的测试方法在评估学生对知识的掌握程度和学习参与度方面并不有效。我们应该探索其他评估方法,例如用口试补充书面作业,以及设计一系列循序渐进的作业,让学生在整个学期中不断积累知识。当我开始实施这些方法后,我意识到它们带来的教学益处远远超出了人工智能检测的范畴! 这并非意味着人工智能检测器毫无用处。Pangram 最近发表了一份分析报告,指出 ICLR 审稿中人工智能的使用程度令人担忧。人工智能检测的这种应用恰好体现在它关注的是整体情况而非针对个人。因此,它并不需要极低的误报率才能发挥作用。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。