RT @bemikelive: Lançamos hoje o OfficeQA — um benchmark rigoroso para avaliar agentes em tarefas de raciocínio fundamentado. Mais detalhes em nosso blog…
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.