A Pangram afirma ser um detector de IA altamente preciso, com uma taxa de falsos positivos de 1 em 10.000. Vamos analisar essa afirmação com atenção e ver o que ela significa. A taxa de falsos positivos alegada (a probabilidade de detectar incorretamente um texto escrito por humanos como gerado por IA) parece muito impressionante. Definitivamente, uma melhoria em relação à primeira geração de detectores de IA. Então, quão útil é o Pangram? Vejamos uma aplicação concreta: será uma solução viável para o problema de estudantes universitários que usam IA em violação das normas do curso? Suponha que todos os professores começassem a usar um detector de IA em todos os trabalhos dos alunos. Eu estimo que os alunos entregam de 500 a 1.000 trabalhos escritos ao longo de um curso de quatro anos (!) — mais de 30 disciplinas x cerca de 5 avaliações por disciplina x muitos problemas independentes por avaliação. Se cada um desses trabalhos fosse analisado por um detector de IA com uma taxa de falsos positivos de 1 em 10.000, de 5% a 10% dos alunos seriam falsamente acusados de trapaça em algum momento durante sua trajetória na universidade. Agora você tem três opções: * Continuem a tratar a cola como a grave infração que é e iniciem processos disciplinares sempre que o detector de IA sinalizar suspeita de cola. Espero que seja óbvio que isso não é realmente viável. Mesmo que presumamos que a maioria dos alunos inocentes será inocentada, a ansiedade e o tempo perdido são inimagináveis. * Aplicar uma penalidade leve em vez de tratar a infração como grave. Isso normaliza a trapaça e provavelmente terá o efeito contrário. * Use a detecção por IA como apenas um sinal e colete evidências adicionais de violação de integridade (a própria Pangram recomenda isso). Mas o problema é que todas as maneiras de fazer isso que conheço ou não funcionam, ou só podem ser feitas depois que você já iniciou um processo disciplinar, o que te leva de volta à opção 1. Existem muitas outras desvantagens no uso sistemático da detecção por IA. Alunos que sabem o que estão fazendo podem facilmente burlar a detecção por IA parafraseando seus textos manualmente ou usando ferramentas automatizadas. Se o Pangram (ou qualquer outra ferramenta específica) começar a ser adotado em uma escala muito maior, as ferramentas de evasão também serão incentivadas a se aprimorarem, principalmente por meio do treinamento com os resultados do Pangram. Embora simplesmente delegar um exercício à IA obviamente não alcance os objetivos de aprendizagem, dependendo do curso e da atividade, pode haver muitas maneiras saudáveis de usar a IA. O uso da detecção por IA deixará os alunos desconfortáveis com qualquer uma dessas opções, já que provavelmente aumenta o risco de falsos positivos. Se os instrutores tratarem a IA como o problema, duvido que haja alguma solução. O problema real é que nossas práticas de avaliação não são tão eficazes para avaliar o domínio e o engajamento dos alunos com a aprendizagem. Devemos buscar práticas de avaliação alternativas, como complementar os trabalhos escritos com provas orais e sequências de tarefas em que o aluno constrói seu trabalho ao longo do semestre. Depois que comecei a implementar essas práticas, percebi que elas trazem benefícios pedagógicos que vão muito além da detecção por IA! Isso não significa que os detectores de IA sejam inúteis. A Pangram publicou recentemente uma análise preocupante sobre os níveis de uso de IA nas revisões da ICLR. Esta é uma boa aplicação da detecção por IA, pois não se trata de acusar indivíduos, mas sim o coletivo. Não exige uma taxa de falsos positivos muito baixa para ser útil.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.