Smol é lindo! Acabei de testar no meu Mac com processador M1 e estou impressionado. Pessoal, isso é quantização de 3 bits e 4 bits! Tem um link para a versão rápida para MLX abaixo, caso queiram testar em um Mac. Talvez interesse ao @Dorialexander.
Aqui está a versão para MLX. Você precisará fazer sua própria conversão do modelo seguindo as instruções (em breve, publicarei um modelo convgithub.com/aiamblichus/ch…/t.co/gCWnvuNEjs
