OfficeQA contrasta con los benchmarks de "superinteligencia", que evalúan conocimientos esotéricos o abstractos, pero que no necesariamente se traducen en un mejor rendimiento en el trabajo real. Una forma de verlo es: "¿Puede ASI sobrevivir un día en la oficina?"
OfficeQA es útil porque creemos que cualquier recién graduado puede realizar las tareas con fiabilidad, pero resalta los desafíos que enfrentan las empresas con la IA. Los agentes elaborados con nuestras últimas herramientas de IA para documentos funcionan un poco mejor, pero aún hay mucho margen de mejora. ¡Esperamos que los investigadores lo encuentren útil!
