Bueno, si la línea base tiene una variación tan grande, se debe manejar con múltiples semillas y varios experimentos. mlebench tiene un buen precedente para manejar esto cuando el rendimiento es extremadamente ruidoso. Una brecha de más del 10% es bastante, no me molesté en verificarlo ayer, debería haberlo hecho.
Para ser justos, entre los proveedores, las indicaciones y el propio ruido del banco de pruebas, uno tiene que dedicar mucho tiempo para hacerlo correctamente. pero si los puntajes informados tienen una diferencia de más del 10% con respecto a lo que usted informa y lo usa para afirmar que le va mejor que a otros, entonces la carga de este esfuerzo adicional recae sobre usted.
