據說法學碩士(LLM)的智力水平堪比博士,但即便如此,他們仍然無法勝任一些日常瑣事。為了了解這個挑戰,Databricks 推出了 OfficeQA,這是一個衡量實用任務的基準測試,這些任務需要的是可靠性和勤奮,而不是專業知識。我們還在舉辦一場競賽! https://t.co/W8PFESKXAF
OfficeQA 與「超級智慧」基準測試形成鮮明對比,後者測試的是深奧或抽象的知識,但這些知識並不一定能轉化為實際工作中的更佳表現。我們可以這樣理解:“ASI 能否在辦公室順利完成一天的工作?”
OfficeQA 的巧妙之處在於,我們相信任何應屆畢業生都能可靠地完成這些任務,但這同時也凸顯了企業在人工智慧方面面臨的挑戰。使用我們最新文檔人工智慧工具的複雜智能體表現略好一些,但仍有很大的提升空間。我們希望研究人員能從中受益!
