据说法学硕士(LLM)的智力水平堪比博士,但即便如此,他们仍然无法胜任一些日常琐事。为了了解这一挑战,Databricks 推出了 OfficeQA,这是一个衡量实用任务的基准测试,这些任务需要的是可靠性和勤奋,而不是专业知识。我们还在举办一项竞赛!https://t.co/W8PFESKXAF
OfficeQA 与“超级智能”基准测试形成鲜明对比,后者测试的是深奥或抽象的知识,但这些知识并不一定能转化为实际工作中的更佳表现。我们可以这样理解:“ASI 能否在办公室里顺利完成一天的工作?”
OfficeQA 的巧妙之处在于,我们相信任何应届毕业生都能可靠地完成这些任务,但这同时也凸显了企业在人工智能方面面临的挑战。使用我们最新文档人工智能工具的复杂智能体表现略好一些,但仍有很大的提升空间。我们希望研究人员能从中受益!
