Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas.
A diferencia de los sistemas antiguos que solo tenían espacio para unos pocos cientos de letras, Unicode tiene capacidad para más de 1.1 millones de caracteres. Actualmente, ya define más de 150.000, cubriendo desde el alfabeto latino hasta el sánscrito, pasando por jeroglíficos egipcios y símbolos matemáticos complejos.
Unicode es el estándar universal que asigna un número único a cada carácter, de cada idioma, de cada época y de cada estado de ánimo (sí, los emoji también están aquí).
La anatomía de un carácter: El «Code Point»
En Unicode, a cada carácter se le asigna un punto de código (Code Point), que se escribe habitualmente en formato hexadecimal precedido por U+.
- A mayúscula es
U+0041(exactamente igual que el 65 en ASCII). - ñ minúscula es
U+00F1. - 🚀 (cohete) es
U+1F680.
ASCII vs. Unicode: La evolución final
| Característica | ASCII (El Abuelo) | Unicode (El Estándar en 2026) |
| Capacidad | 128 caracteres. | $+1.1$ millones de espacios. |
| Idiomas | Solo Inglés. | Todos los idiomas del mundo. |
| Emojis | No (solo :)). | Sí (miles y creciendo). |
| Compatibilidad | Base de todo. | Retrocompatible con ASCII. |
UTF-8: El «idioma» de internet en 2026
Unicode es el mapa, pero UTF-8 es la forma en que empaquetamos ese mapa para enviarlo por la red. Es el formato de codificación más usado en el mundo por una razón brillante:
- Si el texto es solo inglés (ASCII), ocupa 1 byte por letra.
- Si usas caracteres árabes, chinos o emojis, usa más bytes automáticamente. Es eficiente, inteligente y no desperdicia espacio.
Unicode en la actualidad
- IA y Tokenización: Los modelos de lenguaje no leen palabras, leen «tokens» basados en Unicode. La riqueza del lenguaje de la IA depende directamente de lo bien que entienda este estándar.
- Inclusión Digital: Unicode sigue añadiendo lenguas indígenas y dialectos en peligro de extinción, asegurando que ninguna cultura se quede fuera de la era digital.
- Seguridad (Homógrafos): ¿Sabías que existe una «а» cirílica que es idéntica a nuestra «a» latina? Los hackers la usan para crear dominios falsos que parecen reales. Unicode lo sabe y ayuda a detectarlos.
Aviso: Si alguna vez copias un texto de un PDF y los espacios se vuelven raros, es probable que estés ante un «Non-breaking space» (
U+00A0). Unicode tiene decenas de tipos de «espacios» invisibles que pueden volver loco a un programador o a usuarios que trabajen con documentos digitales.