Creo que los conjuntos de datos abiertos se están convirtiendo en las contribuciones más importantes en IA. Algunas razones: - Todavía carecemos de grandes conjuntos de datos abiertos en todos los dominios, modalidades, lenguajes y técnicas, y la brecha es especialmente dolorosa en el aprendizaje de refuerzo. Los conjuntos de datos son costosos, requieren mucho trabajo y son muy poco atractivos, lo que dificulta su creación para equipos pequeños. Sin conjuntos de datos abiertos sólidos, el ecosistema abierto simplemente no puede competir en igualdad de condiciones con los laboratorios cerrados. - Los conjuntos de datos abiertos le brindan una nueva capa de transparencia y replicabilidad que le permite estudiar sesgos, eficiencia, interpretabilidad y mucho más. Los conjuntos de datos abiertos se valorizan. Puedes reutilizarlos con cada nueva arquitectura, optimizador o innovación en el entrenamiento, convirtiendo un único conjunto de datos en cientos de modelos de vanguardia con el tiempo. Los modelos se deprecian, mientras que los conjuntos de datos abiertos se aprecian. Por eso estoy súper emocionado de presentar una nueva función en @huggingface para conjuntos de datos: Duplicar, desarrollada con Xet. Hace que la creación, el control de versiones y la iteración en conjuntos de datos abiertos sean mucho más fáciles. ¡Vamos!
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
