オープン データセットは AI における最も重要な貢献になりつつあると信じています。 いくつかの理由: - 分野、モダリティ、言語、技術をまたがる真に優れたオープンデータセットがまだ不足しており、そのギャップは強化学習において特に深刻である。 - データセットはコストが高く、多大な労力を必要とし、魅力的ではないため、小規模なチームでは作成が困難です。強力なオープンデータセットがなければ、オープンエコシステムはクローズドラボと対等に競争することはできません。 - オープン データセットにより、まったく新しいレベルの透明性と再現性が得られ、バイアス、効率性、解釈可能性などを研究できるようになります。 - オープンデータセットは価値を倍増させます。新しいアーキテクチャ、オプティマイザー、トレーニングのブレイクスルーが起こるたびに再利用できるため、単一のデータセットから数百もの最先端のモデルを時間をかけて構築できます。モデルの価値は下がりますが、オープンデータセットの価値は上がります。 そのため、@huggingface でデータセット用の新しい機能である Xet を利用した Duplicate を紹介できることを非常に嬉しく思っています。 これにより、オープン データセットの作成、バージョン管理、反復処理が劇的に容易になります。 さあ行こう!
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
