Se afirma que los LLM alcanzan la inteligencia de un doctorado, pero aún fallan en tareas rutinarias. Para comprender este desafío, Databricks lanzó OfficeQA, un referente de tareas útiles que requieren confiabilidad y diligencia, no conocimientos especializadodatabricks.com/blog/introduci…anizando una competencia! https://t.co/W8PFESKXAF
OfficeQA contrasta con los benchmarks de "superinteligencia", que evalúan conocimientos esotéricos o abstractos, pero que no necesariamente se traducen en un mejor rendimiento en el trabajo real. Una forma de verlo es: "¿Puede ASI sobrevivir un día en la oficina?"
OfficeQA es útil porque creemos que cualquier recién graduado puede realizar las tareas con fiabilidad, pero resalta los desafíos que enfrentan las empresas con la IA. Los agentes elaborados con nuestras últimas herramientas de IA para documentos funcionan un poco mejor, pero aún hay mucho margen de mejora. ¡Esperamos que los investigadores lo encuentren útil!
