"Una de las cosas más confusas sobre los modelos en este momento es cómo conciliar el hecho de que están obteniendo tan buenos resultados en las evaluaciones. Y miras las evaluaciones y piensas: "Esas son evaluaciones bastante difíciles". Pero el impacto económico parece ser dramáticamente menor. Hay una posible explicación. Cuando se realizaba el preentrenamiento, la pregunta de con qué datos entrenar ya estaba resuelta, porque esa respuesta lo era todo. Así que no hay que pensar si serán estos datos o aquellos. Cuando la gente hace entrenamiento en la vida real, dicen: 'Está bien, queremos tener este tipo de entrenamiento en la vida real para esto y ese tipo de entrenamiento en la vida real para aquello'. Dices: "Oye, me encantaría que nuestro modelo funcionara de maravilla cuando lo lancemos. Quiero que las evaluaciones se vean geniales. ¿Qué capacitación de aprendizaje asistido por voz podría ayudar en esta tarea?". Si combinamos esto con la generalización de que los modelos en realidad son inadecuados, eso tiene el potencial de explicar mucho de lo que estamos viendo, esta desconexión entre el desempeño de la evaluación y el desempeño real en el mundo real.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.