安価で豊富なモデルを真に定義するものは何でしょうか?(戦術的に後ろに寄りかかる) 大型模型の現地展開に朗報!Dark Side of the Moonから新たに公開されたKimi-Linear-48B-A3Bの技術分析をお届けします! 一言で言うと、これこそが安くて豊富なファーストフードの真のモデルです。 48B-A3Bモデルは、線形アテンションを維持しながら1MBのコンテキストを実現し、メモリ消費量が非常に低く抑えられています。従来のアテンションモデルはコンテキスト長が長くなるにつれてメモリ消費量が指数関数的に増加しますが、このモデルのメモリ使用量は線形であるため、CPU使用率には全く問題ありません。私はすでにダウンロードしており、頻繁に使用するローカルモデルに追加する予定です。 現時点で最も不確実なのは、想起率です。アプリをダウンロードし、小説をいくつか入力して、モデルに詳細を尋ね、その反応の精度を測ることで想起効果を評価する予定です。結果をご覧になりたい方は、この投稿に「いいね!」をお願いします。100件以上の「いいね!」が集まったら、今週末にレビューを公開します。
基本パラメータ
比較データ
タイプミス: 従来の注意力記憶の成長は二次関数です。








