Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Microsiervos

Publicado en: 07/05/2024 16:53

Escrito por: [email protected] (Alvy)

Todo lo que hay que saber sobre Unicode, el UTF-8 y más allá

Todo lo que hay que saber sobre Unicode, el UTF-8 y más allá

Hoy en día el 98% de los archivos de texto que se manejan en todo tipo de software estan codificados como UTF-8 (Unicode Transformation Format, 8-bit) una forma estándar de codificar caracteres en todas las formas de escritura, emojis incluidos. Hace ya muchas décadas que se modernizó el viejísimo código ASCII aunque el UTF-8 mantiene la compatibilidad hacia atrás, razón por la que transición fue muy poco dolorosa.

En un artículo que tiene ya algún tiempo, Niki, un desarrollador que sabe algo de todo esto, ha explicado El mínimo absoluto que todo desarrollador de software debería saber sobre Unicode. Esto incluye la explicación de lo que son los puntos de código, de los que Unicode permite 1,1 millones aunque de momento solo hay definidos unos 170.000 y otros se reservan para «uso privado», como cuando para cierta plataforma (por ejemplo las de Apple) una empresa define un carácter con su logotipo y cosas así.

Una de las complicaciones de UTF-8 es que los caracteres pueden ser secuencias de 1, 2, 3 ó 4 bytes. El UTF-8 es compatible ASCII (del 0 al 127); a partir de ahí el UTF-16 ya complica las cosas con más símbolos para otros sistemas de escritura más allá del alfabeto básico del inglés. Esto incluye sincronía, no superposición y curiosidades como la forma en que se pueden formar los símbolos y los emojis, que también están incluidos en las tablas de Unicode.

Respecto a esto de los símbolos, sistemas de escritura y emojis la cosa …

Top noticias del 7 de Mayo de 2024