X (Twitter)

FLUX 2 発売：最先端のビジュアルインテリジェンスにおける画期的な進歩 Black Forest Labs は今回 4 つのバージョンをリリースしました。 • FLUX 2 [pro]: API 経由で提供される最高品質のバージョンで、速度と低コストを実現し、品質と速度の完璧なバランスを実現します。 • FLUX 2 [flex]：開発者がステップ数やガイダンス係数を調整し、品質、キューワードの遵守、速度のバランスを自由に取れるオープンパラメータ制御バージョン。 • FLUX 2 [dev]: 32 ビットパラメータを備えたオープンウェイトモデル。現在最も強力なオープンイメージ生成および編集モデルであり、単一の RTX 4090 グラフィックカード上でローカルに実行できます。 • FLUX 2 [klein] (近日公開): Apache 2.0 のオープンソースモデル。ベースモデルから抽出されたもので、軽量でありながら強力です。コアイノベーションポイント 1. 複数画像参照のサポート：FLUX 2は最大10枚の画像を同時に参照できるため、キャラクター、製品、スタイルにおいて業界最高レベルの一貫性を実現します。これは、ブランドデザインやキャラクター開発といったシナリオにおいて大きなメリットとなります。 2. 究極のリアリズムとディテールモデルは、照明、テクスチャ、空間ロジックの面で大幅に改善され、製品写真、視覚化、写真のようなアプリケーションシナリオに適しています。 3. テキストレンダリング機能：複雑なタイポグラフィ、インフォグラフィック、絵文字、インターフェースプロトタイプ内の細かいテキストを、本番環境で確実に実行できるようになりました。これにより、AI画像生成における長年の課題であったテキスト精度の問題が解決されます。 4. 高解像度編集では、詳細と一貫性を維持しながら最大 4 メガピクセルの画像編集をサポートします。 5. 強化されたプロンプトにより、複数部構成のプロンプトや構成上の制約など、複雑で構造化された指示の理解が大幅に向上します。モデルファミリー技術アーキテクチャ FLUX 2は、潜在フローマッチングアーキテクチャを基盤とし、画像生成と編集を単一のアーキテクチャに統合しています。このモデルは、Mistral-3の24パラメータ視覚言語モデルと改良されたフロートランスフォーマーを組み合わせたもので、前者は現実世界の知識と文脈理解をもたらし、後者は空間関係、材質特性、構成ロジックを捉えます。さらに、チームはモデルの潜在空間 (VAE) を最初から再トレーニングし、学習可能性、品質、圧縮率のバランスを改善しました。意義と影響：このリリースの核心的な意義は、技術スキルを披露するためのツールから生産性向上のためのツールへと進化した点にあります。FLUX 2は、美しい画像を生成するだけでなく、ブランドガイドラインの真摯な遵守、スタイルの一貫性の維持、テキストの正確なレンダリング、複雑な指示への対応など、クリエイティブワークフローに不可欠な要件をすべて備えています。 Black Forest Labs の「オープンコア」コンセプトも注目に値します。商用グレードの API を提供し、オープンな重みモデルをリリースすることで、少数の企業による独占ではなく、研究者、クリエイター、開発者がビジュアルインテリジェンスの未来を形作る作業に参加できるようになります。これはマルチモーダルな知的エージェントへの重要な一歩です。AIの未来は、知覚、生成、記憶、そして推論能力を統合するでしょう。FLUX 2は、この未来が急速に近づいていることを示しています。

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容