A maioria dos benchmarks é ruim, mas as pessoas também os interpretam mal. O HLE, por exemplo, pode ser facilmente manipulado/treinado, mesmo sem intenção, porque as perguntas estão por toda a internet e o fato das respostas serem privadas não importa muito, já que as pessoas resolvam o problema e a informação se espalhe. Portanto, um modelo com boa pontuação nele quase sempre significa apenas que "a IA viu a resposta". Eu não gosto desse tipo de benchmark com perguntas fixas e acho que ele perde a relevância assim que se populariza. Ou melhor, tudo o que eles medem é o quanto a equipe falhou em esconder as respostas do modelo, então, na maioria das vezes, pontuações mais altas são um mau sinal. No VPCT, todas as perguntas têm um nível de dificuldade semelhante, então um modelo que passa de 10% para 90% não significa que ele seja sobre-humano, apenas que ultrapassou esse limite específico. Até mesmo o ARC-AGI sofre com isso. É por isso também que, frequentemente, um benchmark estagna em uma determinada porcentagem; geralmente isso significa que a maioria das perguntas é fácil e algumas poucas são extremamente difíceis (ou até mesmo incorretas), então as IAs simplesmente param de progredir nesse ponto. (Não estou criticando o trabalho do Chase de forma alguma, é uma boa ideia e um bom parâmetro de comparação, mas é muito difícil construir uma avaliação perfeita. Talvez uma versão 2 com um escalonamento adequado corrija essa falha específica.) Evito isso nos meus testes de percepção fazendo apenas algumas perguntas pessoais em cada "nível de dificuldade". Quando uma IA fica mais inteligente, eu simplesmente crio uma pergunta mais difícil. Dessa forma, quando um novo modelo é lançado, tudo o que preciso fazer é fornecer minhas perguntas mais fáceis, depois uma mais difícil, depois outra mais difícil e assim por diante. Fica muito fácil determinar a inteligência real do modelo. E como tenho apenas algumas perguntas, é fácil criar pequenas variações na hora, caso eu suspeite que uma IA acabou de ver a resposta. Gostaria de ter tempo para fazer uma avaliação.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.