X (Twitter)

LLM의 33가지 핵심 개념에 대한 포괄적인 가이드: 수학 공식 피하기, 핵심으로 바로 들어가기, 기본부터 실습까지 명확한 가이드 제공 LLM의 핵심 기반: 텍스트에서 지능형 예측까지 LLM은 머신러닝과 자연어 처리에 기반한 생성 AI 모델로, 텍스트 처리에 특화되어 있습니다. 마치 초지능형 자동 완성 시스템처럼 작동합니다. 입력(예: "미세 조정이란 무엇인가요?")이 주어지면, 모델은 다음 토큰을 하나씩 예측하여 완전한 문장을 점진적으로 완성해 나갑니다. 예를 들어, 먼저 "미세 조정"을 출력하고, 그 다음에 "is", "the", "process" 등을 출력할 수 있습니다. • 토큰: LLM에서 처리하는 최소 텍스트 단위로, 단어, 하위 단어 또는 구두점을 포함합니다. 입력 텍스트는 먼저 "토큰화"를 통해 숫자 ID(예: "What"은 1023에 해당)로 분해되어 모델 계산을 용이하게 합니다. 간단히 말해, 토큰화를 통해 모델은 방대한 양의 데이터를 효율적으로 "읽을" 수 있지만, 긴 텍스트는 잘릴 수 있습니다. • 임베딩: 토큰 ID는 "잠재 공간"에서 의미적 유사성을 포착하는 고차원 벡터로 변환됩니다. 예를 들어, "개"와 "강아지"에 대한 벡터는 매우 유사하며, "왕 - 남자 + 여자 ≈ 여왕"과 같은 벡터도 유사합니다. 이를 통해 모델은 동의어를 처리할 수 있으므로 암기 과정을 생략할 수 있습니다. • 매개변수: 모델 내에 있는 수십억 개의 "조정 가능한 노브"는 언어 패턴, 구문 및 지식을 인코딩하고 학습을 통해 지속적으로 최적화됩니다. 사전 학습 단계에서 모델은 방대한 양의 텍스트에서 다음 단어를 반복적으로 예측하여 "세계 지식"을 축적합니다. 사전 훈련된 기본 모델은 텍스트만 예측할 수 있고 지시에는 응답할 수 없습니다. 미세 조정을 통해 사용자 프롬프트를 따르도록 학습하는 "지시 모델"이 됩니다. 추가적인 "정렬"을 통해 출력이 유용하고, 정직하며, 무해하도록 보장합니다. 강화 학습은 종종 인간 피드백(RLHF)을 기반으로 보상 모델을 훈련하는 데 사용되며, 고품질 응답 생성을 우선시합니다. 상호작용 및 생성: 프롬프트, 추론 및 효율성. 사용자와 LLM 간의 대화는 프롬프트에 의해 주도되는데, 여기에는 시스템 프롬프트("편견을 피하기 위해 간결한 언어로 답변하세요"와 같은 역할을 정의하는 프롬프트)와 사용자 프롬프트(구체적인 질문)가 포함됩니다. 프롬프트의 총 길이는 맥락적 범위에 따라 제한되며, 일반적으로 수천 개에서 수십만 개의 어휘 단위에 이릅니다. 긴 대화에서는 히스토리를 잘라내야 할 수도 있습니다. • 제로샷 학습과 퓨샷 학습: 제로샷 학습은 질문을 직접 던지고 모델에 내장된 지식에 의존하는 반면, 퓨샷 학습은 출력 형식을 안내하기 위해 프롬프트에 예를 추가합니다. 예를 들어 목록 스타일 요약을 요구하는 요점을 제공합니다. • 사고의 사슬(CoT): 복잡한 문제에 대한 단계별 힌트를 제공하면 정확도를 높일 수 있습니다. 차세대 모델(예: Gemini 2.5 Pro)은 이 메커니즘을 통합하여 인간의 추론 과정을 단계별로 시뮬레이션합니다. 생성 과정은 "추론"이라고 하며, 모델은 마지막 마커까지 단어 하나하나를 출력합니다. 사용자 경험에 영향을 미치는 핵심 요소는 지연 시간, 즉 첫 단어에서 첫 단어까지의 시간(TTFT)과 이후 단어 사이의 간격입니다. 온도 매개변수는 무작위성을 제어합니다. 낮은 값(0.0)은 일관된 출력을 보장하는 반면, 높은 값은 창의성을 자극하지만 현실과 동떨어질 수 있습니다. 확장 메커니즘: RAG에서 지능형 에이전트로 LLM은 단독으로 작동하지 않습니다. 종종 외부 도구와 결합하여 신뢰성을 향상시킵니다. • RAG: 먼저, 데이터베이스나 웹 페이지에서 관련 문서를 검색하여 프롬프트에 삽입하여 응답을 생성하고, 모델의 "환각"(즉, 허위 정보를 조작하는 것)을 방지합니다. 예를 들어, Perplexity AI는 웹을 검색하고 출처를 인용합니다. • 워크플로 vs. 에이전트: 워크플로는 고정된 단계(예: RAG의 "검색-향상-생성")로 구성되어 반복적인 작업에 적합합니다. 반면 에이전트는 동적 프로그래밍을 사용합니다. 즉, 도구를 자율적으로 선택하고, 목표를 세분화하고, 다단계 작업을 실행할 수 있습니다. 예를 들어, 에이전트는 정보를 검색하고 학습 가이드로 요약할 수 있어 정적 프로세스의 유연성을 훨씬 뛰어넘습니다. 다른 변형으로는 소규모 언어 모델(SLM, 150억 개 미만의 매개변수를 가지며 기기 내 작동에 적합)과 다중 모드 모델(예: 텍스트 및 이미지 처리를 위한 GPT-4o)이 있습니다. 오픈소스 모델(예: Llama 3.1)은 가중치를 노출하여 사용자 정의를 용이하게 하는 반면, 독점 모델(예: GPT-5)은 API를 통해 접근하여 보안을 강화합니다. LLM의 과제와 미래 방향을 평가하는 이 글은 LLM의 단점인 착시(사실 조작), 추론 약점(빈번한 수학적 오류), 데이터 편향(훈련 세트에서 고정관념 상속), 그리고 지식 단절(훈련 후 오래된 정보)을 객관적으로 살펴봅니다. 해결책으로는 RAG 접지(사실 기반), 도구 통합(예: 계산기), 그리고 RLHF(사실을 통한 편향 감소)가 있습니다. 그러나 이러한 방법들은 상충 관계를 수반합니다. 정확도 향상은 종종 속도나 비용의 희생을 수반합니다. 평가는 벤치마크(예: 지식 테스트를 위한 MMLU, 코드 테스트를 위한 HumanEval)와 지표(예: 소스 코드 충실도)를 사용합니다. 새롭게 등장하는 "LLM-as-Judge" 방식은 또 다른 모델을 사용하여 자동으로 점수를 매겨 반복 작업을 가속화합니다. 기사 주소:

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용