X (Twitter)

Pangram prétend être un détecteur d'IA très précis, avec un taux de faux positifs de 1 sur 10 000. Prenons cette affirmation au pied de la lettre et voyons ce qu'elle signifie. Le taux de faux positifs annoncé (la probabilité de détecter à tort un texte écrit par un humain comme étant généré par une IA) semble très impressionnant. Il s'agit assurément d'une amélioration par rapport à la première génération de détecteurs d'IA. Alors, quelle est l'utilité de Pangram ? Prenons un exemple concret : est-ce une solution viable au problème des étudiants qui utilisent l'IA en violation du règlement de leurs cours ? Imaginez que chaque enseignant utilise un détecteur d'IA pour analyser tous les travaux des étudiants. J'estime qu'en moyenne, un étudiant soumet entre 500 et 1 000 travaux écrits au cours de ses quatre années d'études (soit plus de 30 cours, environ 5 évaluations par cours et de nombreux exercices indépendants par évaluation). Si chacun de ces travaux était analysé par un détecteur d'IA avec un taux de faux positifs de 1/10 000, entre 5 et 10 % des étudiants seraient accusés à tort de tricherie à un moment ou un autre de leur cursus universitaire. Vous avez donc maintenant trois options : Il faut continuer à traiter la tricherie comme l'infraction grave qu'elle est et engager des procédures disciplinaires dès que le système de détection par IA signale une suspicion de tricherie. J'espère qu'il est évident que cette approche n'est pas viable. Même en supposant que la plupart des élèves innocents seront innocentés, l'anxiété et le temps perdu sont considérables. Appliquer une sanction légère au lieu de traiter l'infraction comme grave banalise la tricherie et risque d'avoir l'effet inverse. Utilisez la détection par IA comme un simple indicateur et rassemblez des preuves supplémentaires de violation d'intégrité (Pangram le recommande). Le problème est que toutes les méthodes que je connaisse sont soit inefficaces, soit ne peuvent être mises en œuvre qu'après avoir déjà engagé une procédure disciplinaire, ce qui nous ramène à la première option. L'utilisation systématique de la détection par IA présente de nombreux autres inconvénients. Les étudiants qui maîtrisent leur sujet peuvent facilement contourner la détection par IA en reformulant leurs textes, manuellement ou à l'aide d'outils automatisés. Si Pangram (ou tout autre outil similaire) se généralise, les outils de contournement seront incités à s'améliorer, notamment en s'entraînant sur les résultats de Pangram. Bien que le simple fait de confier un exercice à l'IA ne permette évidemment pas d'atteindre les objectifs d'apprentissage, il existe, selon le cours et l'activité, de nombreuses manières pertinentes d'utiliser l'IA. L'utilisation de la détection par IA risque de mettre les étudiants mal à l'aise avec ces méthodes, car elle augmente probablement le risque de faux positifs. Si les enseignants perçoivent l'IA comme le problème, je doute qu'il existe une solution. Le véritable problème réside dans l'inefficacité de nos méthodes d'évaluation pour mesurer la maîtrise des compétences et l'engagement des étudiants. Nous devrions envisager des approches alternatives, comme compléter les travaux écrits par des examens oraux et des séries de travaux où l'étudiant approfondit ses connaissances tout au long du semestre. Après avoir mis en œuvre ces méthodes, j'ai constaté leurs nombreux avantages pédagogiques, bien au-delà de la simple détection par l'IA ! Cela ne signifie pas pour autant que les détecteurs d'IA sont inutiles. Pangram a récemment publié une analyse révélant des niveaux préoccupants d'utilisation de l'IA dans les évaluations de l'ICLR. Il s'agit là d'une application pertinente de la détection par IA, car elle ne vise pas à incriminer des individus, mais un ensemble de systèmes. Son utilité ne requiert pas un taux de faux positifs extrêmement faible.

Fil de Arvind Narayanan (@random_walker)

Informations sur l'auteur

Contenu du fil