팬그램은 1만 분의 1의 오탐률을 기록하며 정확도가 매우 높은 AI 탐지기라고 주장합니다. 이 주장을 액면 그대로 받아들이고 무슨 뜻인지 살펴보겠습니다. 주장된 오탐률(AI가 생성한 텍스트로 사람이 작성한 텍스트를 오탐지할 확률)은 매우 인상적입니다. 1세대 AI 감지기에 비해 확실히 개선된 것입니다. 그렇다면 팬그램은 얼마나 유용할까요? 구체적인 적용 사례를 살펴보겠습니다. 대학생들이 AI를 사용하여 수업 정책을 위반하는 문제에 대한 실질적인 해결책이 될 수 있을까요? 모든 강사가 모든 학생 제출물에 AI 탐지기를 사용하기 시작한다고 가정해 보겠습니다. 제 추정으로는 학생들은 4년 동안 500~1,000개의 과제를 제출할 것입니다. 30개 이상의 과목 X 과목당 약 5개의 평가 X 평가당 여러 개의 독립적인 문제. 만약 이 과제들을 각각 1/10,000의 FPR을 가진 AI 탐지기로 검사한다면, 전체 학생의 5~10%가 대학 재학 중 어느 시점에 부정행위 혐의로 억울하게 고발될 것입니다. 이제 세 가지 옵션이 있습니다. * 부정행위를 심각한 위반 행위로 계속 취급하고, AI 탐지기가 부정행위 의심을 발견할 때마다 징계 절차를 시작해야 합니다. 이것이 현실적으로 불가능하다는 것이 명백해지기를 바랍니다. 대부분의 무고한 학생들이 무죄 판결을 받는다고 가정하더라도, 그로 인한 불안과 시간 낭비는 헤아릴 수 없습니다. * 심각한 위반으로 간주하지 말고 소액의 페널티를 적용하세요. 이는 부정행위를 정상화하는 것으로 간주되어 오히려 역효과를 낳을 가능성이 높습니다. * AI 탐지를 하나의 신호로만 사용하고 무결성 위반에 대한 추가 증거를 수집하세요(Pangram 자체에서도 이를 권장합니다). 하지만 문제는 제가 알고 있는 이러한 방법들은 모두 효과가 없거나, 이미 징계 절차를 시작한 후에야 가능하다는 점입니다. 결국 첫 번째 옵션으로 돌아가게 됩니다. AI 감지를 체계적으로 사용하는 데에는 다른 많은 단점이 있습니다. * 자신이 하는 일을 잘 아는 학생들은 텍스트를 수동으로 또는 자동화된 도구를 사용하여 의역함으로써 AI 탐지를 쉽게 피할 수 있습니다. Pangram(또는 다른 특정 도구)이 훨씬 더 광범위하게 도입되기 시작하면, 특히 Pangram의 출력에 대한 학습을 통해 탐지 도구의 성능도 향상될 것입니다. * 물론 단순히 AI에 과제를 맡기는 것만으로는 학습 목표를 달성할 수 없지만, 과정과 활동에 따라 AI를 활용하는 건전한 방법이 많이 있을 수 있습니다. AI 감지 기능을 사용하면 오탐지 위험이 높아져 학생들이 이러한 방법들을 사용하는 데 불편함을 느낄 수 있습니다. 강사들이 AI를 문제로 여긴다면, 해결책은 없을 것 같습니다. 진짜 문제는 우리의 평가 방식이 학생들의 학습 성취도와 학습 참여도를 평가하는 데 그다지 효과적이지 않다는 것입니다. 필기 시험 대신 구술 시험이나 과제를 통해 학생들이 학기 내내 자신의 학습 내용을 발전시키는 등, 대안적인 평가 방식을 모색해야 합니다. 이러한 평가 방식을 도입하기 시작하면서, AI 탐지를 훨씬 뛰어넘는 교육적 이점을 제공한다는 것을 깨달았습니다! AI 탐지기가 쓸모없다는 뜻은 아닙니다. 팬그램(Pangram)은 ICLR 검토에서 AI 사용 수준에 대한 우려스러운 분석을 최근 발표했습니다. 이는 AI 탐지의 좋은 적용 사례인데, 개인을 비난하는 것이 아니라 전체에 대한 것이기 때문입니다. 유용성을 위해 매우 낮은 오탐률을 요구하지 않습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.