Bem, se a linha de base apresenta uma variação tão grande, isso deve ser tratado com múltiplas sementes e vários experimentos. O mlebench tem um bom precedente para lidar com isso quando o desempenho é extremamente instável. Uma diferença de mais de 10% é bastante significativa; não me preocupei em verificar ontem, deveria ter verificado.
Para ser justo, considerando os diferentes fornecedores, instruções e o próprio ruído ambiente, é preciso dedicar bastante tempo para fazer isso corretamente. Mas se as pontuações relatadas apresentarem uma diferença de 10% ou mais em relação ao que você está relatando, e você usar isso para alegar que se sai melhor do que os outros, então o ônus desse esforço adicional será seu.
