En el campo de la Inteligencia Artificial, y más específicamente en los Modelos de Lenguaje (LLM), un token es la unidad atómica de procesamiento.
No pienses en palabras, piensa en fragmentos. Para que una IA pueda «leer» o «escribir», primero debe trocear el texto en unidades que pueda convertir en números (vectores). Esos trozos son los tokens.
¿Cómo funciona la tokenización?
Cuando le envías una frase a una IA, esta no ve letras ni palabras completas de entrada. Utiliza un tokenizer para descomponer el mensaje.
- Palabras comunes: Suelen ser un solo token (ej: «casa»).
- Palabras complejas o raras: Se dividen en varios tokens (ej: «desestacionalización» podría ser «des-«, «estacional», «-ización»).
- Signos de puntuación y espacios: También cuentan como tokens.
¿Cuántas palabras es un token?
Aunque varía según el modelo (GPT-5, Claude 4, Gemini 3), la métrica estándar en la industria suele ser:
1.000 tokens ≈ 750 palabras (Aproximadamente, 1 token equivale a 4 caracteres en inglés o 3 en español debido a nuestra morfología).