Dizem que os mestres em Direito (LLM) atingem o nível de inteligência de um doutorado, mas ainda falham em tarefas rotineiras. Para entender esse desafio, a Databricks lançou o OfficeQA, um benchmark de tarefas úteis que exigem confiabilidade e diligência, não databricks.com/blog/introduci…ado. Também estamos promovendo uma competição! https://t.co/W8PFESKXAF
O OfficeQA se contrapõe aos benchmarks de "superinteligência" que testam conhecimentos esotéricos ou abstratos, mas que não se traduzem necessariamente em melhor desempenho no trabalho real. Uma maneira de ver isso é: "Será que a ASI consegue passar um dia no escritório?"
O OfficeQA é interessante porque acreditamos que qualquer recém-formado consegue executar as tarefas de forma confiável, mas isso evidencia os desafios que as empresas enfrentam com a IA. Agentes mais experientes, com nossas ferramentas de IA para documentos mais recentes, apresentam um desempenho um pouco melhor, mas ainda há muito espaço para melhorias. Esperamos que os pesquisadores considerem isso útil!
