저는 오픈 데이터 세트가 AI에 가장 중요한 기여를 하고 있다고 믿습니다. 몇 가지 이유가 있습니다. - 우리는 여전히 도메인, 모달리티, 언어 및 기술 전반에 걸쳐 진정으로 훌륭한 오픈 데이터 세트가 부족합니다. 특히 강화 학습에서 이러한 격차가 매우 큽니다. - 데이터셋은 비용이 많이 들고, 많은 노력이 필요하며, 매우 매력적이지 않아 소규모 팀이 구축하기 어렵습니다. 강력한 오픈 데이터셋 없이는 오픈 생태계가 폐쇄형 연구실과 동등하게 경쟁할 수 없습니다. - 오픈 데이터 세트는 편향, 효율성, 해석 가능성 등을 연구할 수 있는 완전히 새로운 차원의 투명성과 재현성을 제공합니다. - 오픈 데이터 세트는 가치가 더욱 커집니다. 새로운 아키텍처, 옵티마이저 또는 획기적인 학습 혁신이 있을 때마다 이를 재사용하여 단일 데이터 세트를 시간이 지남에 따라 수백 개의 최첨단 모델로 전환할 수 있습니다. 모델은 가치가 하락하는 반면, 오픈 데이터 세트는 가치가 상승합니다. 그래서 저는 @huggingface에서 데이터세트를 위한 새로운 기능인 Xet 기반 복제 기능을 소개하게 되어 매우 기쁩니다. 이를 통해 오픈 데이터세트를 만들고, 버전을 관리하고, 반복하는 작업이 획기적으로 쉬워집니다. 갑시다!
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
