Pangram afirma ser un detector de IA de alta precisión con una tasa de falsos positivos de 1 entre 10.000. Tomémoslo al pie de la letra y veamos qué significa. La tasa de falsos positivos declarada (la probabilidad de detectar incorrectamente texto escrito por humanos como generado por IA) parece impresionante. Sin duda, una mejora con respecto a la primera generación de detectores de IA. Entonces, ¿qué tan útil es Pangram? Tomemos una aplicación concreta: ¿es una solución viable al problema de los estudiantes universitarios que usan IA infringiendo las políticas del curso? Supongamos que todos los profesores empezaran a usar un detector de IA en todos los trabajos de los estudiantes. Calculo que los estudiantes entregan entre 500 y 1000 trabajos escritos a lo largo de una carrera de 4 años (!): más de 30 cursos x ~5 evaluaciones por curso x muchos problemas independientes por evaluación. Si cada uno de estos se pasara por un detector de IA con un FPR de 1/10 000, tendríamos entre un 5 % y un 10 % del alumnado acusado falsamente de hacer trampa en algún momento de su carrera universitaria. Así que ahora tienes tres opciones: * Seguir tratando las trampas como la grave infracción que son e iniciar procedimientos disciplinarios cada vez que el detector de IA detecte una sospecha de trampa. Espero que sea evidente que esto no es viable. Incluso si asumimos que la mayoría de los estudiantes inocentes serán exonerados, la ansiedad y el tiempo perdido son inimaginables. * Aplicar una sanción leve en lugar de tratarla como una infracción grave. Esto normaliza las trampas y es probable que tenga consecuencias negativas. * Usar la detección de IA como única señal y recopilar evidencia adicional de violación de integridad (el propio Pangram lo recomienda). Pero el problema es que todas las maneras que conozco de hacerlo no funcionan o solo se pueden hacer una vez iniciado el proceso disciplinario, lo que nos lleva de nuevo a la opción 1. El uso sistemático de la detección mediante IA tiene muchas otras desventajas. * Los estudiantes que saben lo que hacen pueden evadir fácilmente la detección de la IA parafraseando su texto, ya sea manualmente o con herramientas automatizadas. Si Pangram (o cualquier otra herramienta específica) se adopta a mayor escala, las herramientas de evasión también se verán incentivadas a mejorar, especialmente mediante el entrenamiento en los resultados de Pangram. * Si bien delegar un ejercicio a la IA no logra los objetivos de aprendizaje, dependiendo del curso y la actividad, existen muchas maneras saludables de usar la IA. El uso de la detección por IA incomodará a los estudiantes, ya que probablemente aumente el riesgo de falsos positivos. Si los instructores consideran la IA como el problema, dudo que haya solución. El verdadero problema radica en que nuestras prácticas de evaluación no son tan efectivas para evaluar el dominio y la participación de los estudiantes en el aprendizaje. Deberíamos buscar prácticas de evaluación alternativas, como complementar el trabajo escrito con exámenes orales y secuencias de tareas donde el estudiante desarrolle su trabajo a lo largo del semestre. Una vez que comencé a implementarlas, me di cuenta de que aportan beneficios pedagógicos que van mucho más allá de la detección de IA. Esto no significa que los detectores de IA sean inútiles. Pangram publicó recientemente un análisis sobre los preocupantes niveles de uso de la IA en las revisiones del ICLR. Esta es una buena aplicación de la detección por IA, ya que no se trata de acusar a individuos, sino al conjunto. No requiere una tasa muy baja de falsos positivos para ser útil.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.