Eu também penso assim, e acho que isso fica bem claro nos exemplos que gosto de postar. Não se trata de buscar a verdade; trata-se de tatear na direção aproximada ditada pelo contexto. Não busca, de fato, resolver problemas ou fazer descobertas.
Existe uma relação direta entre o GPT-3.5, que afirma que um fazendeiro precisa de 7 viagens para atravessar um rio sem cabras ou lobos, e isso. O que todos os modelos de lógica de aprendizagem têm em comum é que eles não tentam resolver problemas de fato, apenas tentam gerar textos que superficialmente se assemelham a soluções.
Às vezes, a razão pela qual algo superficialmente se assemelha a uma solução é porque de fato é uma solução. Mas não creio que se possa confiar nisso para alcançar um progresso significativo em qualquer área.
Imagino que, se alguém provar a Hipótese de Riemann amanhã, conseguirá explicar a prova ao GPT-5.2 e este parecerá compreendê-la. E então você poderá se perguntar por que ele não chegou a essa conclusão sozinho. A razão é que nada o impulsiona nessa direção.