Acredito que os conjuntos de dados abertos estão se tornando as contribuições mais importantes para a IA. Algumas razões: Ainda carecemos de conjuntos de dados abertos verdadeiramente excelentes em diferentes domínios, modalidades, idiomas e técnicas — e essa lacuna é especialmente preocupante no aprendizado por reforço. Os conjuntos de dados são caros, exigem muito trabalho e são pouco atraentes, o que dificulta sua criação por equipes menores. Sem conjuntos de dados abertos robustos, o ecossistema aberto simplesmente não consegue competir em pé de igualdade com os laboratórios fechados. - Os conjuntos de dados abertos oferecem uma camada totalmente nova de transparência e replicabilidade, permitindo estudar vieses, eficiência, interpretabilidade e muito mais. - Conjuntos de dados abertos acumulam valor. Você pode reutilizá-los com cada nova arquitetura, otimizador ou avanço no treinamento, transformando um único conjunto de dados em centenas de modelos de última geração ao longo do tempo. Modelos se depreciam, enquanto conjuntos de dados abertos se valorizam. Por isso, estou muito animado para apresentar um novo recurso no @huggingface para conjuntos de dados: Duplicar, com tecnologia Xet. Isso facilita drasticamente a criação, o versionamento e a iteração em conjuntos de dados abertos. Vamos!
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
