X (Twitter)

据说法学硕士（LLM）的智力水平堪比博士，但即便如此，他们仍然无法胜任一些日常琐事。为了了解这一挑战，Databricks 推出了 OfficeQA，这是一个衡量实用任务的基准测试，这些任务需要的是可靠性和勤奋，而不是专业知识。我们还在举办一项竞赛！https://t.co/W8PFESKXAF

OfficeQA 与“超级智能”基准测试形成鲜明对比，后者测试的是深奥或抽象的知识，但这些知识并不一定能转化为实际工作中的更佳表现。我们可以这样理解：“ASI 能否在办公室里顺利完成一天的工作？”

OfficeQA 的巧妙之处在于，我们相信任何应届毕业生都能可靠地完成这些任务，但这同时也凸显了企业在人工智能方面面临的挑战。使用我们最新文档人工智能工具的复杂智能体表现略好一些，但仍有很大的提升空间。我们希望研究人员能从中受益！

来自 Matei Zaharia（@matei_zaharia）的推文线程