X (Twitter)

據說法學碩士（LLM）的智力水平堪比博士，但即便如此，他們仍然無法勝任一些日常瑣事。為了了解這個挑戰，Databricks 推出了 OfficeQA，這是一個衡量實用任務的基準測試，這些任務需要的是可靠性和勤奮，而不是專業知識。我們還在舉辦一場競賽！ https://t.co/W8PFESKXAF

OfficeQA 與「超級智慧」基準測試形成鮮明對比，後者測試的是深奧或抽象的知識，但這些知識並不一定能轉化為實際工作中的更佳表現。我們可以這樣理解：“ASI 能否在辦公室順利完成一天的工作？”

OfficeQA 的巧妙之處在於，我們相信任何應屆畢業生都能可靠地完成這些任務，但這同時也凸顯了企業在人工智慧方面面臨的挑戰。使用我們最新文檔人工智慧工具的複雜智能體表現略好一些，但仍有很大的提升空間。我們希望研究人員能從中受益！

來自 Matei Zaharia（@matei_zaharia）的推文串