X (Twitter)

我认为开放数据集正在成为人工智能领域最重要的贡献。原因有几点：我们仍然缺乏真正跨领域、跨模态、跨语言、跨技术的优质开放数据集——而强化学习领域的这一差距尤为显著。数据集成本高昂，需要大量艰苦的工作，而且枯燥乏味，这使得小型团队难以创建数据集。如果没有强大的开放数据集，开放生态系统根本无法与封闭实验室公平竞争。 - 开放数据集为您提供了一个全新的透明度和可重复性层面，使您能够研究偏差、效率、可解释性等等。开放数据集的价值会不断累积。您可以将它们与每一种新的架构、优化器或训练技术的突破性进展结合使用，随着时间的推移，单个数据集可以转化为数百个最先进的模型。模型会贬值，而开放数据集则会增值。因此，我非常兴奋地向大家介绍 @huggingface 的一项新数据集功能：Duplicate，由 Xet 提供支持。它极大地简化了开放数据集的创建、版本控制和迭代过程。我们走吧！

来自 clem 🤗（@ClementDelangue）的推文线程

作者信息

线程正文