Un LLM (Large Language Model) es un tipo de Inteligencia Artificial entrenada para comprender, generar y manipular lenguaje humano de forma coherente. Se basan en arquitecturas de redes neuronales (principalmente la arquitectura Transformer) y han sido alimentados con cantidades masivas de datos textuales: libros, artículos, código de programación, conversaciones y prácticamente todo el internet público.
Desglosando las siglas:
- L (Large – Grande): Se refiere a dos cosas. Primero, al volumen de datos de entrenamiento (petabytes de texto). Segundo, al número de parámetros (las «conexiones» internas del modelo), que suelen contarse por miles de millones o incluso billones.
- L (Language – Lenguaje): Su especialidad es el lenguaje en todas sus formas. No solo idiomas (español, inglés, chino), sino también lenguajes de programación (Python, JavaScript, PHP) y lenguajes matemáticos.
- M (Model – Modelo): Es una representación matemática compleja que ha aprendido patrones y probabilidades. No «piensa» como un humano, sino que predice qué palabra (o «token») es la más probable que venga después de otra.
¿Cómo funciona en realidad? (Sin tecnicismos excesivos)
Imagina un autocompletado de teclado extremadamente sofisticado. Cuando le haces una pregunta a un LLM, este no busca la respuesta en una base de datos estática. En su lugar:
- Analiza tu texto (el prompt).
- Calcula estadísticamente qué palabras tienen más sentido para responderte basándose en todo lo que leyó durante su entrenamiento.
- Genera la respuesta palabra por palabra, ajustando el sentido global en milisegundos.