Brincadeiras à parte, falando sério. Ninguém nunca trabalhou com arquiteturas superpequenas, e a partir disso seria possível construir MoEs extremos e muitas outras formas exóticas com propriedades incertas. Uma possível árvore tecnológica para um núcleo cognitivo.
Não tenho certeza de como isso se encaixaria, mas também poderia sugerir um treinamento sem tokenizador. A representação vetorial de dimensões ajustáveis seria muito preferível a tokens fixos.