Posso confirmar isso de forma independente! Estava com preguiça de enviar qualquer coisa enquanto estava no Japão, mas definitivamente é possível dentro da margem de erro. Presumo que eles não mudaram muito a abordagem de refinamento. Parabéns, Poetiq! Algumas experiências:
Para aqueles menos preguiçosos que se esforçarão para enviar o trabalho, se você combinar os modelos, o Opus pode realizar algumas soluções exclusivas para aumentar a pontuação para mais de 80%. Altamente recomendado! (Não estou aqui pelo reconhecimento; estou trabalhando em outra coisa relacionada)
Não submeti o método ensemble porque o considerei indigno. Ele resolve o problema arc-agi-2 um pouco melhor, mas não tenho certeza se há alguma descoberta importante a ser feita.
