私は Prime Intellect を批判したことを強く非難します。彼らはまさに正しいことをしているのです。 中国製ベースモデルをフロンティアレベルまで事後学習させることは、実際には現時点では、自前のベースモデルを事前学習することよりも*重要*です。PIやArceeなどが何を事前学習できるかは基本的に気にしませんが、すぐに追いつくだろうという期待は十分にあります。欧米にはコンピューティング資源が豊富にあり、欧米のオープンスペースでは、小規模なモデル(これら2つと@ZyphraAI、@Dorialexander、@natolambertとOlmo…)で十分な事前学習の専門知識があるという証拠が既に見られ、あらゆる観点から見てスケールします。しかし、それは主に…地政学的な意味合いを持ち、皆さんがエージェントフレームワークに接続された愛国的なサーバーで何を実行できるかという問題です。私は西洋人でも中国人でもありませんし、投稿内容とは反対に、この側面については全く関心がありません。これは純粋に道具的な問題です。経歴を参照してください。競争は米国/西洋と中国の間ではなく、人間とAGI対類人猿の権力集中の間のものです。そして、プライム・インテリクトは、中央集権化の動きを阻止するために誰よりも尽力しています。 考えてみてください。HFには、私たちが活用するにはあまりにも無能な天界の賜物がぎっしり詰まっています。それらは陳腐化するまでただそこに朽ちていくだけです。数千から数百万回ダウンロードされても、何も見せるものがありません。そもそもなぜQwenは時代遅れで非常に高価なLlamaのような密なモデルを作っているのでしょうか?主な理由は、a) Alibabaが「月間HFダウンロード数」というKPIを持っていること、b) 研究者や小規模な研究室が現代のアーキテクチャを微調整する方法を理解できないことです。たとえインフラがより成熟していて、技術的にそれほど複雑でなかったとしても、何を基準に微調整するのでしょうか?オープンソースの微調整の最高峰はNous-Hermesであり、そのパラダイムは基本的にGPT-4を蒸留し、「好み」と漠然とした基準に従ってフィルタリングし、強力な基盤上でSFTを行い、最善の結果を期待することでした。このアプローチは、OpenAIらによって、幻覚やスタイルの模倣を助長する、脅威のない行き止まりとして事前に軽蔑的に却下され、予想通り立ち消えになった。では、次は「強化学習」だろうか?強化学習とは何か、どのように強化学習を行うのか、信号発生器とは何か、下流のタスクとどのように交差するのか?完璧なフロンティアレベルの基盤であるKimi-K2は、数ヶ月前から誰でも利用可能になっている。DeepSeek-V3は、もう1年近くになる。V2は1年以上も経過している。あらゆる規模の数十のモデルが、より長いコンテキストやその他の恩恵を受けて定期的に更新されている。では、それらすべてを使って私たちは何を構築したのだろうか? 現代の最先端技術どころか、中国の社内指導に匹敵するようなものでも?もしもし?これらの派生製品を教えてもらえますか?オープンサイエンスの理念を完全に冒涜しています。中国人でさえ気にせず、皆、独自のモデルをゼロからトレーニングしているだけです。例外はごくわずかですが(例えばRednoteがDSV3-VLを作ったなど)、どれも大きな話題を呼びませんでした。数十億ドル規模のスタートアップ企業は、検索やエージェントコーディング、そして膨大なトレーニング後データセットを強みとしており、自社製品にDS/GLM/Qwenをこっそりと使用していますが、アルファを共有していません。それだけです。 プライム・インテリクトの登場です。彼らは学習の問題を解決し、環境生成の問題を解決しています。彼らは、一般的なモデル認知を形作るシグナルについて、原理的に考え抜いています。彼らは事実上、蓄積されてきた膨大な不活性な価値の貯蔵庫を解き放っているのです。世界にとって、これは単なる模倣モデルとは比べものにならないほど大きな意味を持ちます。彼らは恐ろしく賢く、善意を持ち、確固たるロードマップを持ち、そして私の友人です。彼らの研究は偉大な共通の課題(Great Common Task)に貢献するものなので、私は彼らの研究を軽視するつもりはありません。もしあなたが彼らの研究に気づかなければ、この段階で何が本当に重要なのか全く分かっていないのです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。