X (Twitter)

xAI が Grok-4.1 Fast および Agent Tools API を正式にリリースしました。 Grok-4.1 Fastは、ツール呼び出しとエージェントタスク向けに最適化された最先端のモデルです。@xaiはこれを現在のAPIにおける最良のツール呼び出しモデルと位置付けており、主に実世界のエンタープライズアプリケーションを対象としています。主なハイライト：優れたツール呼び出しとエージェント機能：シミュレーション環境における大規模な強化学習トレーニングを通じて、モデルは数十のドメインにわたる様々なツールに曝露され、複雑で複数回のラウンドを経る現実世界のシナリオ（カスタマーサービスや金融サービスなど）において、優れた推論、計画、実行能力を発揮します。新しいエージェントツールAPIと組み合わせることで、開発者は長期計画、ツールの並列呼び出し、そして独立した目標達成をサポートする、実稼働レベルの自律エージェントを容易に構築できます。 • 大きなコンテキストウィンドウ: 200 万トークンをサポートし、非常に長い会話でも安定した高パフォーマンスを維持します。 • 事実の正確性が大幅に向上：幻覚率は前世代の Grok-4 Fast と比べて半分に減少し、FActScore などの事実の正確性テストでは Grok-4 と同等になりました。 • スピードと知性のバランス：2つのバリエーションを提供 • grok-4-1-fast-reasoning：推論能力を最大化 • grok-4-1-fast-non-reasoning：究極の応答速度を追求主要なベンチマークパフォーマンス: • τ²-bench Telecom (実際の通信顧客サービスシナリオ): 100% の完璧なスコア、総コストはわずか 105 ドル • Berkeley Function Calling v4: 72% の精度、総コストは 400 ドル • Research-Eval (エージェントの調査能力): 63.9 ポイント、GPT-5 (45.5) と Claude Sonnet 4.5 (41.2) をはるかに上回る • R20 FRAMES（フレームワーク評価）：87.6ポイント、最高のコスト効率 • X Browse（Xプラットフォームマルチホップ検索タスク）：56.3ポイント、GPT-5（24.2）とClaude（14.6）を大幅に上回るエージェントツールAPI：プロダクショングレードのエージェント開発をこれまで以上にシンプルに。開発者は、わずか数行のコードを書くだけで、xAIが管理する以下のプロダクショングレードのツールにアクセスできます（キー、レート制限、セキュリティサンドボックスを自ら管理する必要はありません）。 • リアルタイムX検索 + インターネットウェブページ検索 • インテリジェントな文書検索（文書アップロード後の正確な引用） • 安全な Python コード実行サンドボックス • リモート MCP ツール (サードパーティのカスタムツールと統合可能) 価格と提供状況 · 入力: $0.20/M トークン (キャッシュされた入力は $0.05 のみ) 出力: $0.50/Mトークン • ツールの呼び出し: 成功した呼び出し 1,000 件につき 5 ドル • 期間限定で完全に無料: 今から 2025 年 12 月 3 日まで、モデル + すべてのエージェントツールが無料です。また、OpenRouter 経由で無料で体験できます。

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容