Última hora: lanzamos un conjunto de datos generalista totalmente sintético para preentrenamiento, SYNTH y dos nuevos modelos de razonamiento de última generación entrenados exclusivamente con él. A pesar de haber procesado solo 200 mil millones de tokens, Baguettotron es actualmente el mejor de su clase en su rango de tamaño.
SYNTH supone una ruptura radical con el método clásico de preentrenamiento: ¿y si entrenáramos el razonamiento y nos centráramos en la asimilación de conocimientos y habilidades relevantes? En esencia, se trata de una selección de los 50huggingface.co/datasets/PleIA…» de Wikipedia. https://t.co/qrBybjF78m
SYNTH es una colección de varios entornos de prueba sintéticos: los datos no se generan a través de simples indicaciones, sino integrando modelos más pequeños y ajustados en flujos de trabajo con inicialización, restricciones y verificaciones/comprobaciones formales.
Dado que SYNTH se diseñó para entrenar capacidades de razonamiento, obtenemos señales de razonamiento reales muy pronto en el entrenamiento. En el caso de Baguettotron, observamos que MMLU comienza a mostrar comportamientos no aleatorios tras menos de 10 mil millones de tokens y alcanza rápidamente un rendimiento cercano al de última generación.
Los entornos de juego sintéticos permitieron realizar una serie de experimentos controlados que nos llevaron a decantarnos por un diseño de gran profundidad. Seleccionamos una arquitectura de 80 capas para Baguettotron, con mejoras generalehuggingface.co/PleIAs/Baguett…l razonamiento lógico: https://t.co/rdn902oTGN
Junto con Baguettotron, lanzamos el modelo de lenguaje viable más pequeño hasta la fecha: Monad, un transformador de 56 millones de nodos, entrenado con la parte en inglés de SYNTH y con un rendimiento no aleatorio en MMLU. Diseñar Monad fue un desafío huggingface.co/PleIAs/Monadrió un tokenizador personalizado de tamaño reducido. https://t.co/hC8SLV1SLc
Ambos modelos se entrenan de forma nativa con un estilo de instrucciones similar al de Qwen, con patrones de razonamiento. Diseñamos un estilo de razonamiento completamente nuevo, optimizado para modelos pequeños, con frases condensadas, símbolos preliminares y entropía simulada (inspirado en el proyecto Entropix).
Con esta versión, pretendemos apoyar tanto el ecosistema emergente para la investigación de preentrenamiento (NanoGPT, NanoChat), la explicabilidad (literalmente se puede observar Monad bajo un microscopio) como la orquestación de herramientas en torno a modelos de vanguardia.
Creemos que los datos sintéticos son tanto un recurso para construir modelos pequeños especializados como un proceso general de aumento y enriquecimiento de la capa de datos en aplicaciones LLM. Más allá de la investigación, esto será un factor clave en nuestra nueva fase de desarrollo de producto.
Antes del informe completo, un anuncio detallado en el blog con algunos resultados científicos e información entre bastipleias.fr/blog/blogsynth…s de síntesis. https://t.co/rixJOesC08





