X (Twitter)

LLMの背後にある33の主要概念に関する包括的なガイド：数式を避け、本質に直接到達し、基礎から実践まで明確なガイドを提供します LLMの中核基盤：テキストからインテリジェントな予測へ LLMは、機械学習と自然言語処理を基盤とした生成AIモデルであり、テキスト処理に特化しています。超知能のオートコンプリートシステムのように動作します。入力（「What is fine-tuning?」など）を入力すると、モデルは次のトークンを一つずつ予測し、徐々に完全な文を組み立てていきます。例えば、最初に「Fine-tuning」を出力し、続いて「is」「the」「process」などを出力します。 • トークン：LLMが処理するテキストの最小単位であり、単語、サブワード、句読点などが含まれます。入力テキストはまず「トークナイザー」によって数値ID（例："What"は1023に対応）に分解され、モデルの計算が容易になります。簡単に言うと、トークン化によりモデルは膨大な量のデータを効率的に「読み取る」ことができますが、長いテキストは切り捨てられる可能性があります。 • 埋め込み：トークンIDは、「潜在空間」における意味的類似性を捉える高次元ベクトルに変換されます。例えば、「犬」と「子犬」のベクトルは非常に近い値を持ち、「王 - 男 + 女 ≈ 女王」といった具合です。これにより、モデルは同義語を処理でき、暗記を回避できます。 • パラメータ：モデルには数十億個の「調整可能なノブ」があり、学習を通じて継続的に最適化され、言語パターン、構文、知識をエンコードします。事前学習段階では、モデルは膨大な量のテキストから次の単語を繰り返し予測し、「世界知識」を蓄積します。事前学習済みの基本モデルはテキストを予測することしかできず、指示に応答することはできません。微調整を行うことで、ユーザーの指示に従うことを学習する「指示モデル」になります。さらに「アライメント」を行うことで、出力が有用で、誠実で、無害であることが保証されます。強化学習は、人間からのフィードバック（RLHF）から報酬モデルを学習する際によく使用され、高品質な応答の生成を優先します。インタラクションと生成：プロンプト、推論、そして効率性。ユーザーとLLM間の対話は、システムプロンプト（「バイアスを避けるために簡潔な言葉で答える」などの役割を定義する）とユーザープロンプト（具体的な質問）を含むプロンプトによって駆動されます。プロンプトの合計長はコンテキストウィンドウによって制限され、通常は数千から数十万の語彙単位に及びます。長い対話では、履歴を切り捨てる必要がある場合があります。 • ゼロショット学習と少数ショット学習: ゼロショット学習では直接質問し、モデルの組み込み知識に依存します。少数ショット学習では、箇条書きを提供してリスト形式の要約を要求するなど、出力形式をガイドする例をプロンプトに追加します。 • 思考連鎖（CoT）：複雑な問題に対して段階的なヒントを提供することで、精度を向上させることができます。新世代モデル（Gemini 2.5 Proなど）はこのメカニズムを組み込んでおり、人間の段階的な推論をシミュレートしています。生成プロセスは「推論」と呼ばれ、モデルは終了マーカーまで単語を1つずつ出力します。ユーザーエクスペリエンスに影響を与える重要な要素はレイテンシー、つまり最初の単語から最初の単語までの時間（TTFT）と、後続の単語間の間隔です。温度パラメータはランダム性を制御します。低い値（0.0）では出力の一貫性が確保されますが、高い値では創造性が刺激されますが、現実から逸脱する可能性があります。拡張メカニズム: RAG からインテリジェントエージェントへ LLM は単独で動作することはなく、信頼性を向上させるために外部ツールと組み合わせて使用されることがよくあります。 • RAG：まず、データベースまたはウェブページから関連文書を取得し、それらをプロンプトに挿入して応答を生成し、モデルの「幻覚」（つまり、自信過剰で虚偽の情報を作り出すこと）を回避します。例えば、Perplexity AIはウェブを検索し、情報源を引用します。 • ワークフロー vs. エージェント：ワークフローは固定されたステップ（RAGの「取得-強化-生成」など）で構成され、反復的なタスクに適しています。一方、エージェントは動的プログラミングを採用しており、ツールを自律的に選択し、目標を細分化し、複数ステップの操作を実行できます。例えば、エージェントは情報を検索し、それを学習ガイドに要約することができ、静的プロセスの柔軟性をはるかに超えています。その他のバリエーションとしては、小規模言語モデル（SLM、パラメータ数が150億未満でデバイス上での動作に適している）やマルチモーダルモデル（テキストと画像の処理に適したGPT-4oなど）があります。オープンソースモデル（Llama 3.1など）は重みを公開しているためカスタマイズが容易ですが、独自仕様のモデル（GPT-5など）はAPI経由でアクセスするためセキュリティが重視されます。本稿は、LLMの課題と将来の方向性を評価し、その欠点を客観的に検証しています。具体的には、錯覚（事実の捏造）、推論の弱点（頻繁な数学的誤り）、データバイアス（トレーニングセットからのステレオタイプの継承）、知識の遮断（トレーニング後の情報が古くなる）などが挙げられます。解決策としては、RAGグラウンディング（事実のアンカー）、ツールの統合（計算機など）、RLHF（事実によるバイアスの低減）などが挙げられます。しかし、これらにはトレードオフが伴います。精度の向上は、多くの場合、速度やコストを犠牲にしなければなりません。評価には、ベンチマーク（知識をテストするためのMMLU、コードをテストするためのHumanEvalなど）とメトリクス（ソースへの忠実性など）が用いられます。新たに登場した「LLM-as-Judge」アプローチでは、別のモデルを用いて自動的にスコア付けを行い、反復処理を加速します。記事アドレス:

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容