X (Twitter)

Guía completa de 33 conceptos clave del LLM: cómo evitar fórmulas matemáticas, ir directo a la esencia y ofrecer una guía clara desde los fundamentos hasta la práctica. El fundamento principal de LLM: Del texto a la predicción inteligente LLM es un modelo de IA generativa basado en aprendizaje automático y procesamiento del lenguaje natural, especializado en el procesamiento de texto. Funciona como un sistema de autocompletado superinteligente: dada una entrada (como "¿Qué es el ajuste fino?"), el modelo predice el siguiente token uno a uno, construyendo gradualmente una oración completa. Por ejemplo, podría generar primero "Ajuste fino", seguido de "es", "el", "proceso", etc. • Tokens: Son las unidades de texto más pequeñas que procesa LLM, incluyendo palabras, subpalabras y signos de puntuación. El texto de entrada se divide primero en identificadores numéricos (por ejemplo, «What» corresponde a 1023) mediante un «tokenizador» para facilitar el cálculo del modelo. En resumen, la tokenización permite que el modelo «lea» de forma eficiente grandes cantidades de datos, pero también implica que los textos largos pueden truncarse. • Incrustaciones: Los identificadores de tokens se transforman en vectores de alta dimensión que capturan la similitud semántica en un "espacio latente". Por ejemplo, los vectores de "perro" y "cachorro" son muy similares, y "rey - hombre + mujer ≈ reina". Esto permite que el modelo maneje sinónimos, evitando la memorización mecánica. • Parámetros: El modelo cuenta con miles de millones de parámetros ajustables, optimizados continuamente mediante entrenamiento, que codifican patrones lingüísticos, sintaxis y conocimiento. Durante la fase de preentrenamiento, el modelo predice repetidamente la siguiente palabra en grandes cantidades de texto, acumulando así conocimiento del mundo. El modelo base preentrenado solo puede predecir texto y no puede responder a instrucciones. Mediante un ajuste fino, se convierte en un «modelo de instrucciones» que aprende a seguir las indicaciones del usuario. Un ajuste posterior garantiza que la salida sea útil, precisa e inofensiva. El aprendizaje por refuerzo se utiliza a menudo para entrenar modelos de recompensa a partir de la retroalimentación humana (RLHF), priorizando la generación de respuestas de alta calidad. Interacción y generación: indicaciones, razonamiento y eficiencia. El diálogo entre el usuario y el LLM se basa en indicaciones, incluidas las del sistema (que definen roles, como «responder con un lenguaje conciso para evitar sesgos») y las del usuario (preguntas específicas). La longitud total de las indicaciones está limitada por la ventana de contexto, que suele oscilar entre varios miles y cientos de miles de unidades léxicas; los diálogos largos pueden requerir la truncación del historial. • Aprendizaje con cero ejemplos y con pocos ejemplos: El aprendizaje con cero ejemplos hace preguntas directamente y se basa en el conocimiento incorporado del modelo; el aprendizaje con pocos ejemplos agrega ejemplos en las indicaciones para guiar el formato de salida, como proporcionar viñetas para requerir un resumen en forma de lista. • Cadena de pensamiento (CoT): Proporcionar pistas paso a paso para problemas complejos puede mejorar la precisión. Los modelos de nueva generación (como Gemini 2.5 Pro) incorporan este mecanismo, simulando el razonamiento humano paso a paso. El proceso de generación se denomina «inferencia», donde el modelo genera palabra por palabra hasta el marcador final. El factor clave que afecta la experiencia del usuario es la latencia: el tiempo de respuesta de la primera palabra (TTFT) y el intervalo entre palabras subsiguientes. El parámetro de temperatura controla la aleatoriedad: un valor bajo (0,0) garantiza una salida consistente, mientras que un valor alto fomenta la creatividad, pero puede alejarse de la realidad. Mecanismo de extensión: De RAG a agente inteligente LLM no funciona de forma aislada; a menudo se combina con herramientas externas para mejorar la fiabilidad. • RAG: Primero, recupera documentos relevantes de bases de datos o páginas web, los incorpora en las preguntas para generar respuestas y evita las «alucinaciones» del modelo (es decir, la invención de información falsa de forma deliberada). Por ejemplo, Perplexity AI busca en la web y cita las fuentes. • Flujo de trabajo vs. Agente: Los flujos de trabajo constan de pasos fijos (como el «recuperar-mejorar-generar» de RAG), adecuados para tareas repetitivas. Los agentes, en cambio, emplean programación dinámica: pueden elegir herramientas de forma autónoma, desglosar objetivos y ejecutar operaciones de varios pasos. Por ejemplo, un agente puede buscar información y resumirla en una guía de aprendizaje, superando con creces la flexibilidad de los procesos estáticos. Otras variantes incluyen modelos de lenguaje pequeños (SLM, con menos de 15 mil millones de parámetros, adecuados para su uso en dispositivos) y modelos multimodales (como GPT-4o para el procesamiento de texto e imágenes). Los modelos de código abierto (como Llama 3.1) exponen los pesos, lo que facilita la personalización; a los modelos propietarios (como GPT-5) se accede mediante API, lo que prioriza la seguridad. El artículo, que evalúa los retos y las perspectivas futuras del aprendizaje automático, examina objetivamente sus deficiencias: la ilusión (fabricación de datos), las debilidades del razonamiento (errores matemáticos frecuentes), el sesgo de datos (heredar estereotipos del conjunto de entrenamiento) y la pérdida de conocimiento (información obsoleta tras el entrenamiento). Entre las soluciones propuestas se incluyen el anclaje de datos mediante RAG (fijación de hechos), la integración de herramientas (como calculadoras) y la reducción del sesgo mediante RLHF (Reducción del Sesgo a través de los Hechos). Sin embargo, estas soluciones implican ciertas contrapartidas: una mayor precisión suele conllevar una pérdida de velocidad o un coste adicional. La evaluación utiliza puntos de referencia (como MMLU para evaluar el conocimiento y HumanEval para evaluar el código) y métricas (como la fidelidad al código fuente). El enfoque emergente de "LLM como juez" utiliza otro modelo para puntuar automáticamente, lo que acelera la iteración. Dirección del artículo:

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo