On prétend que les titulaires d'un LLM possèdent une intelligence équivalente à celle d'un doctorat, mais ils échouent malgré tout à accomplir des tâches routinières. Pour mieux comprendre ce problème, Databricks a lancé OfficeQA, un outil de référence pour lesdatabricks.com/blog/introduci…ièrent fiabilité et rigueur, et non des connaissances spécialisées. Nous organisons également un concours ! https://t.co/W8PFESKXAF
OfficeQA se distingue des tests de « superintelligence » qui évaluent des connaissances ésotériques ou abstraites sans pour autant garantir de meilleures performances dans le travail réel. On pourrait le formuler ainsi : « Une intelligence artificielle de pointe peut-elle tenir le coup une journée au bureau ? »
OfficeQA est une solution intéressante car nous pensons que tout jeune diplômé peut accomplir les tâches de manière fiable, mais elle met en lumière les difficultés rencontrées par les entreprises avec l'IA. Les agents plus sophistiqués, dotés de nos outils d'IA documentaire les plus récents, obtiennent de meilleurs résultats, mais il reste encore beaucoup de marge de progression. Nous espérons que les chercheurs trouveront cela utile !
