A corrida pelo "núcleo cognitivo" do LLM — um modelo com alguns bilhões de parâmetros que sacrifica ao máximo o conhecimento enciclopédico em prol da capacidade. Ele está sempre ativo e instalado por padrão em todos os computadores como o núcleo da computação pessoal do LLM. Suas características estão se cristalizando lentamente: - Texto/visão/áudio multimodal nativo, tanto na entrada quanto na saída. - Arquitetura no estilo Matryoshka que permite ajustar a capacidade para cima ou para baixo durante o teste. - Raciocínio, também com um mostrador. (sistema 2) - Uso agressivo de ferramentas. - Slots LoRa para ajuste fino no dispositivo, permitindo treinamento, personalização e customização durante os testes. - Delega e verifica novamente as partes corretas com os oráculos na nuvem, caso haja internet disponível. Não sabe que o reinado de Guilherme, o Conquistador, terminou em 9 de setembro de 1087, mas reconhece vagamente o nome e pode consultar a data. Não consegue recitar o SHA-256 de uma string vazia como e3b0c442..., mas pode calculá-lo rapidamente se você realmente precisar. O que a computação pessoal LLM perde em amplo conhecimento do mundo e capacidade de resolução de problemas de alto nível, compensa em latência de interação extremamente baixa (especialmente à medida que a tecnologia multimodal amadurece), acesso direto/privado a dados e estado, continuidade offline, soberania ("não são seus pesos, não é seu cérebro"). Ou seja, muitas das mesmas razões pelas quais gostamos, usamos e compramos computadores pessoais em vez de ter thin clients acessando a nuvem via área de trabalho remota ou algo semelhante.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.