Conjunto de caracteres universales

https://en.wikipedia.org/wiki/Universal_Character_Set_characters#Surrogates

Conjunto de caracteres universales

Índice de escrituras nacionales predominantes y seleccionadas regionales o minoritarias

El Consorcio Unicode y el ISO/IEC JTC 1/SC 2/WG 2 colaboran conjuntamente en la lista de caracteres del conjunto de caracteres codificados universales. El Conjunto de Caracteres Codificados Universales, más comúnmente llamado conjunto de caracteres universal (abreviado UCS, designación oficial: ISO/IEC 10646), es un estándar internacional para mapear caracteres, símbolos discretos utilizados en lenguaje natural, matemáticas, música y otros dominios. a valores únicos de datos legibles por máquina. Al crear este mapeo, el UCS permite a los proveedores de software interoperar y transmitir —intercambiar—UCS-codificadas las cadenas de texto con UCS de uno a otro. Como es un mapa universal, se puede utilizar para representar varios idiomas al mismo tiempo. Esto evita la confusión de utilizar múltiples codificaciones de caracteres heredadas, lo que puede dar como resultado que la misma secuencia de códigos tenga múltiples interpretaciones dependiendo de la codificación de caracteres en uso, lo que resulta en mojibake si se elige la incorrecta.

UCS tiene una capacidad potencial de más de 1 millón de caracteres. Cada carácter UCS está representado de manera abstracta por un punto de código ,, un número entero entre 0 y 1,114,111 (1,114,112 = 220 + 216 o 17 × 216 = 0x110000 puntos de código), que se utiliza para representar cada carácter dentro de la lógica interna del software de procesamiento de texto. A partir de Unicode 15.1, lanzado en septiembre de 2023, 293.792 (26%) de estos puntos de código están asignados, a 149.878 (13%) se les han asignado caracteres, 137.468 (12%) están reservados para uso privado, 2.048 se utilizan para habilitar el mecanismo. de sustitutos, y 66 son designados como no caracteres, dejando los 820.320 restantes (74%) sin asignar. El número de caracteres codificados se compone de la siguiente manera:

149.641 caracteres gráficos (algunos de los cuales no tienen un glifo visible, pero aún así se cuentan como gráficos)
237 caracteres de propósito especial para control y formato

ISO mantiene el mapeo básico de caracteres desde el nombre del carácter hasta el punto de código. A menudo, los términos carácter y punto de código se utilizarán indistintamente. Sin embargo, cuando se hace una distinción, un punto de código se refiere al número entero del carácter: lo que uno podría considerar su dirección. Mientras tanto, un carácter en ISO/IEC 10646 incluye la combinación del punto de código y su nombre, Unicode agrega muchas otras propiedades útiles al conjunto de caracteres, como bloque, categoría, secuencia de comandos, y direccionalidad.

Además de la UCS, el estándar Unicode,complementario (no es un proyecto conjunto con ISO, sino más bien una publicación del Consorcio Unicode) proporciona otros detalles de implementación como:

asignaciones entre UCS y otro conjunto de caracteres
diferentes intercalaciones de caracteres y cadenas de caracteres para diferentes idiomas
un algoritmo para diseñar texto bidireccional ("el algoritmo BiDi"), donde el texto en la misma línea puede cambia de izquierda a derecha ("LTR") y de derecha a izquierda ("RTL")
un algoritmo plegado de casos

Los usuarios finales de software ingresan estos caracteres en los programas a través de varios métodos de entrada,por ejemplo, teclados físicos o paletas de caracteres virtuales.

El UCS se puede dividir de varias maneras, como por plano, bloque, categoría del carácter, o propiedad del carácter.[1]

Descripción general de la referencia del Carácter

Ver también Lista de referencias de entidades de caracteres XML y HTMLy entrada Unicode

Una referencia de caracteres numéricos HTML o XML hace referencia a un carácter mediante su Conjunto de Carácter Universal/punto de código Unicode code point, y utiliza el formato

&#nnnn;

&#xhhhh;

donde nnnn es el punto de código en forma decimal y hhhh es el punto de código en forma hexadecimal. La x debe estar en minúscula en documentos XML. nnnn o hhhh pueden tener cualquier número de dígitos y pueden incluir ceros a la izquierda. El hhhh puede mezclar mayúsculas y minúsculas, aunque el estilo habitual es el de mayúsculas..

IPor el contrario, una referencia de entidad de carácter se refiere a un carácter por el nombre de una entidad que tiene el carácter deseado como texto de reemplazo. La entidad debe estar predefinida (integrada en el lenguaje de marcado) o declarada explícitamente en una Definición de Tipo de Documento (DTD). El formato es el mismo que para cualquier referencia de entidad:

&name;

donde nombre es el nombre de la entidad que distingue entre mayúsculas y minúsculas. El punto y coma es obligatorio.

Planos

Plano (Unicode)

Unicode e ISO dividen el conjunto de puntos de código en 17 planos, cada uno de ellos capaz de contener 65536 caracteres distintos o 1.114.112 en total. A partir de 2023 (Unicode 15.1), ISO y el Consorcio Unicode solo han asignado caracteres y bloques en siete de los 17 planos. Los demás quedan vacíos y reservados para uso futuro.

La mayoría de los personajes están actualmente asignados al primer plano: el Plano Básico Multilingüe. Esto es para ayudar a facilitar la transición del software heredado, ya que el plano multilingüe básico se puede abordar con solo dos octetos. Los caracteres fuera del primer plano suelen tener un uso muy especializado o poco común.

Cada plano se corresponde con el valor de uno o dos dígitos hexadecimales (0—9, A—F) que preceden a los cuatro últimos: por lo tanto, U+24321 está en el Plano 2, U+4321 está en el Plano 0 (leído implícitamente U+04321 ), y U+10A200 estaría en el Plano 16 (hexadecimal 10 = decimal 16). Dentro de un plano, el rango de puntos de código es hexadecimal 0000—FFFF, lo que produce un máximo de 65536 puntos de código. Los planos restringen los puntos de código a un subconjunto de ese rango.

Bloques

Bloque Unicode

Unicode agrega una propiedad de bloque a UCS que divide aún más cada plano en bloques separados. Cada bloque es una agrupación de caracteres según su uso, como "operadores matemáticos" o "caracteres de escritura hebrea". Al asignar caracteres a puntos de código no asignados previamente, el Consorcio normalmente asigna bloques completos de caracteres similares: por ejemplo, todos los caracteres que pertenecen al mismo script o todos los símbolos con propósitos similares se asignan a un solo bloque. Los bloques también pueden mantener puntos de código reservados o no asignados cuando el Consorcio espera que un bloque requiera asignaciones adicionales.

Los primeros 256 puntos de código del UCS corresponden a los de ISO 8859-1, La codificación de caracteres de 8 bits más popular en el Mundo Occidental. Como resultado, los primeros 128 caracteres también son idénticos al ASCII. Aunque Unicode se refiere a estos como un bloque de escritura latina, estos dos bloques contienen muchos caracteres que suelen ser útiles fuera de la escritura latina. En general, no es necesario que todos los caracteres de un bloque determinado sean del mismo guión, y un guión determinado puede aparecer en varios bloques diferentes.

Categorias

Unicode asigna a cada carácter UCS una categoría general y una subcategoría. Las categorías generales son: letra, marca, número, puntuación, símbolo o control (en otras palabras, un carácter de formato o no gráfico).

Los tipos incluyen:.

Escrituras modernas, históricas y antiguas. A partir de 2023 (Unicode 15.1), la UCS identifica 161 scripts que se utilizan o se han utilizado en todo el mundo. Muchos más se encuentran en diversas etapas de aprobación para la futura inclusión de la UCS.[2]
Alfabeto Fonético Internacional. La UCS dedica varios bloques (más de 300 caracteres) a los caracteres del Alfabeto Fonético Internacional.
Combinando Marcas Diacriticas.Un avance importante concebido por Unicode en el diseño de UCS y algoritmos relacionados para manejar texto fue la introducción de la combinación de signos diacríticos. Al proporcionar acentos que pueden combinarse con cualquier carácter de letra, Unicode y UCS reducen significativamente la cantidad de caracteres necesarios. Si bien UCS también incluye caracteres precompuestos, estos se incluyeron principalmente para facilitar el soporte dentro de UCS para sistemas de procesamiento de texto que no son Unicode.
Puntuación. Además de unificar los signos diacríticos, la UCS también buscó unificar la puntuación en todas las escrituras. Sin embargo, muchas escrituras también contienen puntuación cuando esa puntuación no tiene una semántica similar en otras escrituras
Símbolos. Muchos símbolos matemáticos, técnicos, geométricos y de otro tipo están incluidos en la UCS. Esto proporciona símbolos distintos con su propio punto de código o carácter en lugar de depender de cambiar de fuente para proporcionar glifos simbólicos.
- Divisa.
- Como letra. Estos símbolos aparecen como combinaciones de muchas letras comunes de la escritura latina, como ℅. Unicode designa muchos de los símbolos con forma de letras como caracteres de compatibilidad, generalmente porque pueden estar en texto sin formato al sustituir glifos por una secuencia de caracteres que los compone: por ejemplo, sustituyendo el glifo ℅ por la secuencia compuesta de caracteres c/o.
- Formas numéricas. Las formas numéricas consisten principalmente en fracciones precompuestas y números romanos. Al igual que otras áreas de la composición de secuencias de caracteres, el enfoque Unicode prefiere la flexibilidad de componer fracciones combinando caracteres. En este caso, para crear fracciones, se combinan números con el carácter de barra fraccionaria (U+2044). Como ejemplo de la flexibilidad que proporciona este enfoque, hay diecinueve caracteres de fracción precompuestos incluidos en el UCS. Sin embargo, hay una infinidad de fracciones posibles. Al utilizar caracteres de composición, la infinidad de fracciones se maneja con 11 caracteres (0-9 y la barra de fracción). Ningún conjunto de caracteres podría incluir puntos de código para cada fracción precompuesta. Idealmente, un sistema de texto debería presentar los mismos glifos para una fracción, ya sea una de las fracciones precompuestas (como ⅓) o una secuencia de caracteres que la componen (como 1⁄3). Sin embargo, los navegadores web no suelen ser tan sofisticados con Unicode y manejo de texto. Al hacerlo, se garantiza que las fracciones precompuestas y las fracciones de secuencia combinadas aparecerán compatibles una al lado de la otra
- Flechas.
- Matemático.
- Formas geométricas
- Computación heredada.
- Control de imágenes Representaciones gráficas de muchos caracteres de control
- Caja de Dibujo.
- Bloque de Elementos.
- Patrones Braille.
- Reconocimiento óptico de caracteres
- Técnica.
- Dingbats.
- Símbolos varios.
- Emoticonos.
- Símbolos y Pictografías.
- Símbolos alquímicos.
- Piezas de juego. (ajedrez, damas, go, dados, dominó, mahjong, naipes y muchos otros).
- Símbolos de ajedrez
- Tai Xuan Jing.
- Símbolos de hexagrama de Yijing
CJK. Dedicado a ideogramas y otros caracteres para apoyar idiomas en China, Japón, Corea (CJK), Taiwán, Vietnam y Tailandia.
- Radicales y trazos.
- Ideografías. Con diferencia, la mayor parte de la UCS está dedicada a los ideogramas utilizados en los idiomas del este de Asia. Si bien la representación glífica de estos ideogramas ha divergido en los idiomas que los utilizan, la UCS unifica estos caracteres Han en lo que Unicode se refiere. como Unihan (para Han Unificado). Con Unihan, el software de diseño de texto debe trabajar junto con las fuentes disponibles y estos caracteres Unicode para producir el glifo apropiado para el idioma apropiado. A pesar de unificar estos caracteres, la UCS todavía incluye más de 97.000 ideogramas de Unihan.
Notación musical.
Taquigrafías duployanas.
Escritura de letreros de Sutton.
Caracteres de compatibilidad. Varios bloques en el UCS están dedicados casi en su totalidad a caracteres de compatibilidad. Los caracteres de compatibilidad son aquellos incluidos para soportar sistemas de manejo de texto heredados que no hacen distinción entre carácter y glifo como lo hace Unicode. Por ejemplo, muchas letras árabes están representadas por un glifo diferente cuando la letra aparece al final de una palabra que cuando la letra aparece al principio de una palabra. El enfoque de Unicode prefiere tener estas letras asignadas al mismo carácter para facilitar el procesamiento y almacenamiento interno de texto de la máquina. Para complementar este enfoque , el software de texto debe seleccionar diferentes variantes de glifos para mostrar el carácter según su contexto. Se incluyen más de 4000 caracteres por razones de compatibilidad.
Control Caracteres.
Sustitutos. El UCS incluye 2048 puntos de código en el plano multilingüe básico (BMP) para pares de puntos de código sustitutos. En conjunto, estos puntos de código sustitutos permiten abordar cualquier punto de código en los otros dieciséis planos mediante el uso de dos puntos de código sustitutos. Esto proporciona un método integrado simple para codificar el UCS de 20,1 bits dentro de una codificación de 16 bits como UTF-16. De esta manera, UTF-16 puede representar cualquier carácter dentro del BMP con un solo byte de 16 bits. Los caracteres fuera del BMP luego se codifican usando dos bits de 16 bits. bytes (4 octetos en total) utilizando los pares sustitutos.
Uso privado. El consorcio proporciona varios bloques y aviones de uso privado a los que se les pueden asignar caracteres dentro de varias comunidades, así como proveedores de sistemas operativos y fuentes.
No caracteres. El consorcio garantiza que a ciertos puntos de código nunca se les asignará un carácter y los llama puntos de código que no son caracteres. Los dos últimos puntos de código de cada plano (que terminan en FE y FF) son dichos puntos de código. Hay algunos otros intercalados a lo largo del Plano Multilingüe Básico , el primer plano.

Caracteres de propósito especial

Ver también:caracteres de control Unicode

Unicode codifica más de cien mil caracteres. La mayoría de ellos representan grafemas para su procesamiento como texto lineal. Sin embargo, algunos no representan grafemas o, como grafemas, requieren un tratamiento excepcional. A diferencia de los caracteres de control ASCII y Otros caracteres incluidos para capacidades heredadas de ida y vuelta, estos otros caracteres de propósito especial dotan al texto sin formato de una semántica importante.

Algunos caracteres especiales pueden alterar el diseño del texto, como zero-width joiner and zero-width non-joiner, mientras que otros no afectan el diseño del texto en absoluto, sino que afectan la forma en que se clasifican, combinan o procesan las cadenas de texto. Otros caracteres de propósito especial, como los matematicos invisibles, generalmente no tienen ningún efecto en la representación del texto, aunque un software de diseño de texto sofisticado puede optar por ajustar sutilmente el espacio alrededor de ellos.

Unicode no especifica la división del trabajo entre la fuente y el software de diseño de texto (o "motor") al representar texto Unicode. Debido a que los formatos de fuente más complejos, como OpenType or Apple Advanced Typography, permiten la sustitución contextual y el posicionamiento de glifos, un Un motor de diseño de texto simple podría depender completamente de la fuente para todas las decisiones de elección y ubicación de glifos. En la misma situación, un motor más complejo puede combinar información de la fuente con sus propias reglas para lograr su propia idea de mejor representación. Siguiendo todas las recomendaciones de la especificación Unicode, un motor de texto debe estar preparado para trabajar con fuentes de cualquier nivel de sofisticación, ya que las reglas de sustitución contextual y posicionamiento no existen en algunos formatos de fuentes y son opcionales en el resto. La barra fraccionaria es un ejemplo: Las fuentes complejas pueden proporcionar o no reglas de posicionamiento en presencia del carácter de barra fraccionaria para crear una fracción, mientras que las fuentes en formatos simples no pueden.

Marca de orden de bytes (BOM)

Cuando aparece al principio de un archivo de texto o secuencia, la marca de orden de bytes (BOM) U+FEFF indica la forma de codificación y su orden de bytes.

Si el primer byte de la secuencia es 0xFE y el segundo 0xFF, entonces no es probable que el texto de la secuencia esté codificado en UTF-8,ya que esos bytes no son válidos en UTF-8. Tampoco es probable que sea UTF-16 en formato pequeño. orden de bytes endian porque 0xFE, 0xFF leídos como una palabra little-endian de 16 bits sería U+FFFE, lo cual no tiene sentido. La secuencia tampoco tiene significado en ningún arreglo de codificación UTF-32 por lo que, en resumen, sirve como un Indicación bastante confiable de que el flujo de texto está codificado como UTF-16 en big-endian orden de bytes. Por el contrario, si los primeros dos bytes son 0xFF, 0xFE, entonces se puede suponer que el flujo de texto está codificado como UTF-16LE porque, leído como un valor little-endian de 16 bits, los bytes producen la marca de orden de bytes esperada 0xFEFF. Sin embargo, esta suposición se vuelve cuestionable si los dos bytes siguientes son ambos 0x00; o el texto comienza con un carácter nulo (U+0000), o la codificación correcta es en realidad UTF-32LE, en la que la secuencia completa de 4 bytes FF FE 00 00 es un carácter, la BOM.

La secuencia UTF-8 correspondiente a U+FEFF es 0xEF, 0xBB, 0xBF. Esta secuencia no tiene significado en otras formas de codificación Unicode, por lo que puede servir para indicar que esa secuencia está codificada como UTF-8.

La especificación Unicode no requiere el uso de marcas de orden de bytes en flujos de texto y establece además que no deben usarse en situaciones en las que ya se esté utilizando algún otro método para señalar la forma de codificación.

Invisibles matemáticos

Principalmente para matemáticas, el Separador invisible (U+2063) proporciona un separador entre caracteres donde se pueden omitir la puntuación o el espacio, como en un índice bidimensional como i⁣j. Tiempos invisibles (U+2062) y Aplicación de función (U+ 2061 ) son útiles en textos de matemáticas donde la multiplicación de términos o la aplicación de una función está implícita sin ningún glifo que indique la operación. Unicode 5.1 también introduce el carácter Mathematical Invisible Plus (U+2064) que puede indicar que un número entero seguido de una fracción debe indicar su suma, pero no su producto.

Barra de fracción

Ejemplo de uso de barra de fracción. Este tipo de letra (Apple Chancery) muestra la fracción común sintetizada a la izquierda y el glifo de fracción precompuesta a la derecha como una representación de la cadena de texto sin formato "1 1⁄4 1¼". Dependiendo del entorno de texto, la cadena única "1 1⁄ 4 1¼". 4" podría producir cualquier resultado, el de la derecha, mediante la sustitución de la secuencia de fracción con el glifo de fracción precompuesto único.

Un ejemplo más elaborado de uso de barra diagonal fraccionaria: texto sin formato "4 221⁄225" renderizado en Apple Chancery. Esta fuente proporciona al software de diseño de texto instrucciones para sintetizar la fracción de acuerdo con la regla Unicode descrita en esta sección.

El carácter de barra fraccionaria (U+2044) tiene un comportamiento especial en el estándar Unicode:(sección 6.2, Otra puntuación)

La forma estándar de una fracción construida usando la barra fraccionaria se define de la siguiente manera: cualquier secuencia de uno o más dígitos decimales (Categoría general = Nd), seguida de la barra fraccionaria, seguida de cualquier secuencia de uno o más dígitos decimales. La fracción debe mostrarse como una unidad, como ¾. Si el software de visualización no es capaz de asignar la fracción a una unidad, entonces también se puede mostrar como una secuencia lineal simple como alternativa (por ejemplo, 3/4). la fracción se va a separar de un número anterior, entonces se puede utilizar un espacio, eligiendo el ancho adecuado (normal, fino, ancho cero, etc.), por ejemplo, 1 + ESPACIO ANCHO CERO + 3 + BARRA DE FRACCIÓN + 4 se muestra como 1¾.

Siguiendo esta recomendación Unicode, los sistemas de procesamiento de texto producen símbolos sofisticados a partir de texto plano únicamente. En este caso, la presencia del carácter de barra diagonal indica al motor de diseño que sintetice una fracción a partir de todos los dígitos consecutivos que preceden y siguen a la barra diagonal. En la práctica, los resultados varían debido a la complicada interacción entre fuentes y motores de diseño. Los motores de diseño de texto simples tienden a no sintetizar fracciones en absoluto, y en su lugar dibujan los glifos como una secuencia lineal como se describe en el esquema alternativo de Unicode.

Los motores de diseño más sofisticados se enfrentan a dos opciones prácticas: pueden seguir las recomendaciones de Unicode o pueden confiar en las propias instrucciones de la fuente para sintetizar fracciones. Al ignorar las instrucciones de la fuente, el motor de diseño puede garantizar el comportamiento recomendado de Unicode. Si siguen las instrucciones de la fuente, el El motor de diseño puede lograr una mejor tipografía porque la ubicación y la forma de los dígitos se ajustarán a esa fuente particular en ese tamaño particular.

El problema de seguir las instrucciones de la fuente es que los formatos de fuente más simples no tienen forma de especificar el comportamiento de síntesis de fracciones. Mientras tanto, los formatos más complejos no requieren que la fuente especifique el comportamiento de síntesis de fracciones y, por lo tanto, muchos no lo hacen. La mayoría de las fuentes de formatos complejos pueden indique al motor de diseño que reemplace una secuencia de texto sin formato como 1⁄2 con el glifo precompuesto ½. Pero como muchos de ellos no dan instrucciones para sintetizar fracciones, una cadena de texto sin formato como 221⁄225 bien puede representarse como 22½25 (con siendo ½ la fracción precompuesta sustituida, en lugar de sintetizada). Ante problemas como este, aquellos que deseen confiar en el comportamiento recomendado de Unicode deben elegir fuentes conocidas por sintetizar fracciones o software de diseño de texto conocido por producir el comportamiento recomendado de Unicode independientemente de fuente.

Formato neutro bidireccional

La dirección de escritura es la dirección en la que se colocan los glifos en la página en relación con la progresión hacia adelante de los caracteres en la cadena Unicode. El inglés y otros idiomas de escritura latina tienen una dirección de escritura de izquierda a derecha. Varias escrituras de escritura importantes, como el Árabe y el Hebreo, tienen dirección de escritura de derecha a izquierda. La especificación Unicode asigna un tipo de dirección a cada carácter para informar a los procesadores de texto cómo se deben ordenar las secuencias de caracteres en la página.

Si bien los caracteres léxicos (es decir, letras) normalmente son específicos de una única escritura, algunos símbolos y signos de puntuación se utilizan en muchas escrituras. Unicode podría haber creado símbolos duplicados en el repertorio que difieren solo por el tipo de dirección, pero optó por unifíquelos y asígneles un tipo direccional neutral. Adquieren dirección en el momento de la representación de los caracteres adyacentes. Algunos de estos caracteres también tienen una propiedad bidi-espejada que indica que el glifo debe representarse en una imagen reflejada cuando se usa en texto de derecha a izquierda. .

El tipo direccional en tiempo de representación de un carácter neutral puede permanecer ambiguo cuando la marca se coloca en el límite entre cambios de dirección. Para solucionar este problema, Unicode incluye caracteres que tienen una fuerte direccionalidad, no tienen ningún glifo asociado y son ignorables por los sistemas que no procesar texto bidireccional:

Marca de letra árabe (U+061C)
Marca de izquierda a derecha (U+200E)
Marca de derecha a izquierda (U+200F)

Rodear un carácter bidireccionalmente neutral por la marca de izquierda a derecha obligará al carácter a comportarse como un carácterde izquierda a derecha, mientras que rodearlo por la marca de derecha a izquierda lo obligará a comportarse como un carácter de derecha a izquierda. El comportamiento de estos caracteres se detalla en el algoritmo bidireccional de Unicode.

Formato general bidireccional

Texto Bidireccional

Si bien Unicode está diseñado para manejar múltiples idiomas, múltiples sistemas de escritura e incluso texto que fluye de izquierda a derecha o de derecha a izquierda con una mínima intervención del autor, existen circunstancias especiales en las que la combinación de texto bidireccional puede volverse compleja, requiriendo más control de autor. Para estas circunstancias, Unicode incluye otros cinco caracteres para controlar la compleja incrustación de texto de izquierda a derecha dentro de texto de derecha a izquierda y viceversa:

Lincrustación de izquierda a derecha (U+202A)
Incrustación de derecha a izquierda (U+202B)
Formato direccional pop (U+202C)
Anulación de izquierda a derecha (U+202D)
Anulación de derecha a izquierda (U+202E)
Aislamiento de izquierda a derecha (U+2066)
Aislamiento de derecha a izquierda (U+2067)
Primer aislamiento fuerte (U+2068)
Aislamiento direccional pop (U+2069)

Caracteres de anotación interlineal

Ancla de anotación interlineal (U+FFF9)
Separador de anotaciones interlineales (U+FFFA)
Terminador de anotación interlineal (U+FFFB)

Script-específico

Control de formato prefijado
- Signo de número arábigo (U+0600)
- Signo árabe Sanah (U+0601)
- Marcador de notas al pie árabe (U+0602)
- Signo árabe Safha (U+0603)
- Signo árabe Samvat (U+0604)
- Marca de número arábigo arriba (U+0605)
- Fin árabe de Ayah (U+06DD)
- Marca de abreviatura siríaca (U+070F)
- Marca de la libra árabe arriba (U+0890)
- Marca Piastra árabe arriba (U+0891)
- Signo numérico Kaithi (U+110BD)
- Signo de número Kaithi arriba (U+110CD)
Jeroglíficos egipcios
- Unión vertical de jeroglíficos egipcios (U+13430)
- Unión horizontal de jeroglíficos egipcios (U+13431)
- Inserto de jeroglífico egipcio en el inicio superior (U+13432)
- Inserto de jeroglífico egipcio en el inicio inferior (U+13433)
- Inserción de jeroglíficos egipcios en el extremo superior (U+13434)
- Inserto de jeroglífico egipcio en el extremo inferior (U+13435)
- Superposición de jeroglíficos egipcios en el medio (U+13436)
- Segmento de inicio de jeroglífico egipcio (U+13437)
- Segmento final de jeroglífico egipcio (U+13438)
- Inserto de jeroglífico egipcio en el medio (U+13439)
- Inserto de jeroglífico egipcio en la parte superior (U+1343A)
- Inserto de jeroglífico egipcio en la parte inferior (U+1343B)
- Jeroglífico egipcio que comienza el recinto (U+1343C)
- Recinto final de jeroglíficos egipcios (U+1343D)
- Jeroglífico egipcio que comienza el recinto amurallado (U+1343E)
- Recinto amurallado con extremo de jeroglífico egipcio (U+1343F)
Brahmi
- Unión de números Brahmi (U+1107F)
Formación de caracteres muertos en escritura derivada de Brahmi (Virama y signos diacríticos similares)
- Devanagari firma Virama (U+094D)
- Signo bengalí Virama (U+09CD)
- Signo Gurmukhi Virama (U+0A4D)
- Gujarati firma Virama (U+0ACD)
- Signo Oriya Virama (U+0B4D)
- Signo tamil Virama (U+0BCD)
- Signo Telugu Virama (U+0C4D)
- Signo Kannada Virama (U+0CCD)
- Signo malayalam barra vertical Virama (U+0D3B)
- Signo malayalam Virama circular (U+0D3C)
- Signo malayalam Virama (U+0D4D)
- El cingalés ficha a Al-Lakuna (U+0DCA)
- Personaje tailandés Phinthu (U+0E3A)
- Personaje tailandés Yamakkan (U+0E4E)
- Laos firma Pali Virama (U+0EBA)
- Myanmar firma Virama (U+1039)
- Signo tagalo Virama (U+1714)
- Signo tagalo Pamudpod (U+1715)
- Signo Hanunoo Pamudpod (U+1734)
- Signo jemer Viriam (U+17D1)
- Signo jemer Coeng (U+17D2)
- Signo Tai Tham Sakot (U+1A60)
- Tai Tham firma Ra Haam (U+1A7A)
- Adeg Adeg balinés (U+1B44)
- Signo sundanés Pamaaeh (U+1BAA)
- Signo sundanés Virama (U+1BAB)
- Batak Pangolat (U+1BF2)
- Batak Panongonan (U+1BF3)
- Syloti Nagri firma a Hasanta (U+A806)
- Syloti Nagri firma al suplente Hasanta (U+A82C)
- Signo Saurashtra Virama (U+A8C4)
- Rejang Virama (U+A953)
- Pangkon javanés (U+A9C0)
- Meetei Mayek Virama (U+AAF6)
- Kharoshthi Virama (U+10A3F)
- Brahmi Virama (U+11046)
- Signo Brahmi Antiguo Tamil Virama (U+11070)
- Kaithi firma Virama (U+110B9)
- Chakma Virama (U+11133)
- Sharada firma Virama (U+111C0)
- Khojki Firma Virama (U+11235)
- Khudawadi firma Virama (U+112EA)
- Grantha firma Virama (U+1134D)
- Newa Sign Virama (U+11442)
- Tirhuta Signo Virama (U+114C2)
- Siddham firma Virama (U+115BF)
- Modi Sign Virama (U+1163F)
- Takri Signo Virama (U+116B6)
- Asesino de signos de Ahom (U+1172B)
- Signo Dogra Virama (U+11839)
- Inmersiones Akuru Signo Halanta (U+1193D)
- Inmersiones Akuru Virama (U+1193E)
- Nandinagari firma Virama (U+119E0)
- Cartel Plaza Zanabazar Virama (U+11A34)
- Subunidor Plaza Zanabazar (U+11A47)
- Subjoiner de Soyombo (U+11A99)
- Bhaiksuki firma Virama (U+11C3F)
- Masaram Gondi firma Halanta (U+11D44)
- Masaram Gondi Virama (U+11D45)
- Gunjala Gondi Virama (U+11D97)
- Asesino de signos Kawi (U+11F41)
- Combinador Kawi (U+11F42)
Viramas Históricos con otras funciones
- Marca tibetana Halanta (U+0F84)
- Myanmar ficha a Asat (U+103A)
- Signo de Limbu Sa-I (U+193B)
- Meetei Mayek Apun Iyek (U+ABED)
- Chakma Maayyaa (U+11134)
Selectores de variaciónes mongol
- Selector uno de variación libre de Mongolia (U+180B)
- Selector dos de variación libre de Mongolia (U+180C)
- Selector tres de variación libre de Mongolia (U+180D)
- Separador de vocales mongoles (U+180E)
Selectores de variación genéricos
- Selector de variación -1 a -16 (U+FE00–U+FE0F)
- Selector de variación -17 a -256 (U+E0100–U+E01EF)
Caracteres de etiqueta (U+E0001 y U+E0020–U+E007F)
Tifinagh
- Unión de consonantes Tifinagh (U+2D7F)
Ogham
- Marca espacial Ogham (U+1680)
Ideográfica
- Indicador de variación ideográfica (U+303E)
- Descripción ideográfica (U+2FF0–U+2FFB)
Control de formato musical
- Símbolo musical de inicio de haz (U+1D173)
- Viga final con símbolo musical (U+1D174)
- Empate con símbolo musical (U+1D175)
- Amarre final con símbolo musical (U+1D176)
- Símbolo musical que comienza slur (U+1D177)
- Símbolo musical que finaliza slur (U+1D178)
- Frase inicial del símbolo musical (U+1D179)
- Frase final del símbolo musical (U+1D17A)
Control de formato abreviado
- Superposición de letras en formato taquigráfico (U+1BCA0)
- Formato taquigráfico superposición continua (U+1BCA1)
- Paso hacia abajo de formato abreviado (U+1BCA2)
- Paso ascendente de formato abreviado (U+1BCA3)
Formato alternativo obsoleto
- Inhibir el intercambio simétrico (U+206A)
- Activar intercambio simétrico (U+206B)
- Inhibir la configuración de formas árabes (U+206C)
- Activar la configuración de formas árabes (U+206D)
- Formas de dígitos nacionales (U+206E)
- Formas de dígitos nominales (U+206F)

Otros

Carácter de reemplazo de objeto (U+FFFC)
Carácter de reemplazo (U+FFFD)

Caracteres vs puntos de código

El término "carácter" no está bien definido, y a lo que nos referimos la mayor parte del tiempo es al grafema. Un grafema se representa visualmente por su glifo. El tipo de letra (a menudo denominada erróneamente como fuente) utilizado puede representar variaciones visuales del mismo personaje Es posible que dos grafemas diferentes puedan tener exactamente el mismo glifo o estén visualmente tan cerca que el lector promedio no pueda distinguirlos.

Un grafema casi siempre está representado por un punto de código, por ejemplo, la LETRA A MAYÚSCULA LATINA está representada solo por el punto de código U+0041.

El grafema A LATINA MAYÚSCULA CON DIERESIS Ä es un ejemplo donde un carácter puede ser representado por más de un punto de código, puede ser U+00C4, o U+0041U+0308. U+0041 es la familiar A y U+0308 es la COMBINADORA DIERESIS ̈, una marca de combinación diacritica.

Cuando una marca de combinación es adyacente a un punto de código de marca no combinable, las aplicaciones de representación de texto deben superponer la marca de combinación al glifo representado por el otro punto de código para formar un grafema de acuerdo con un conjunto de reglas.

La palabra BÄM estaría formada por tres grafemas y puede estar formada por tres puntos de código o más dependiendo de cómo estén compuestos realmente los caracteres.

Espacios en blanco, uniones y separadores

Espacio en blanco caracter

Unicode proporciona una lista de caracteres que considera espacios en blanco para compatibilidad con la interoperabilidad. Las implementaciones de software y otros estándares pueden usar el término para indicar un conjunto de caracteres ligeramente diferente. Por ejemplo, Java no considera U+00A0 NO-BREAK SPACE o U+0085. <control-0085> (LÍNEA SIGUIENTE) es un espacio en blanco, aunque Unicode lo es. Los caracteres de espacio en blanco son caracteres típicamente designados para entornos de programación. A menudo no tienen significado sintáctico en tales entornos de programación y son ignorados por los intérpretes de la máquina. Unicode designa el legado controle los caracteres U+0009 a U+000D y U+0085 como caracteres de espacio en blanco, así como todos los caracteres cuyo valor de propiedad de categoría general sea Separador. Hay un total de 25 caracteres de espacio en blanco a partir de Unicode 15.1.

Adheridos y no adheridos al Grafema

El elemento de unión de ancho-cero (U+200D) y el elemento de no unión de ancho-cero (U+200C) controla la unión y ligadura de glifos. El elemento de unión no hace que los caracteres que de otro modo no se unirían o ligarían lo hicieran, pero cuando se combinan con el no elemento de unión, estos caracteres se pueden usar para controlar las propiedades de unión y ligación de los dos caracteres de unión o ligación circundantes. La combinación de grafemas (U+034F) se utiliza para distinguir dos caracteres base como una base o dígrafo común, principalmente para el procesamiento de texto subyacente, clasificación de cadenas, plegado de mayúsculas y minúsculas, etc.

Uniones y separadores de palabras

El separador de palabras más común es un espacio (U+0020). Sin embargo, existen otros conectores y separadores de palabras que también indican una ruptura entre palabras y participan en algoritmos de salto de línea. El espacio sin interrupción (U+00A0) también produce un avance de línea de base sin un glifo, pero inhibe en lugar de permitir un salto de línea. El espacio de ancho cero (U+200B) permite un salto de línea pero no proporciona espacio: en cierto sentido une, en lugar de separar, dos palabras. Finalmente, Word Joiner (U+2060) inhibe los saltos de línea y tampoco involucra ninguno de los espacios en blanco producidos por un avance de línea de base.

Avance de línea base

Sin avance de línea de base

Permitir salto de línea

(Separadores)

Espacio U+0020

Espacio de ancho cero U+200B

Inhibir salto de línea

(Uniones)

Espacio sin interrupciones U+00A0

Unión de palabras U+2060

Otros separadores

Separador de línea (U+2028)
Separador de párrafos (U+2029)

Estos proporcionan a Unicode separadores de línea y párrafo nativos independientes de los caracteres de control ASCII codificados heredados, como retorno de carro (U+000A), avance de línea (U+000D) y siguiente línea (U+0085). Unicode no proporciona otros caracteres de control de formato ASCII que presumiblemente no forman parte del modelo de procesamiento de texto plano Unicode. Estos caracteres de control de formato heredados incluyen Tabulación (U+0009), Tabulación de líneas o Tabulación vertical (U+000B) y Avance de página (U+000C), que también se considera un salto de página.

Espacios

Espacio (puntuación)

El carácter de espacio (U+0020) que normalmente se ingresa con la barra espaciadora de un teclado sirve semánticamente como separador de palabras en muchos idiomas. Por motivos heredados, el UCS también incluye espacios de distintos tamaños que son equivalentes de compatibilidad para el carácter de espacio. Si bien estos espacios de ancho variable son importantes en tipografía, el modelo de procesamiento Unicode exige que dichos efectos visuales sean manejados mediante texto enriquecido, marcado y otros protocolos similares. Se incluyen en el repertorio Unicode principalmente para manejar la transcodificación de ida y vuelta sin pérdidas desde otras codificaciones de conjuntos de caracteres. Estos espacios incluyen:

En Quad (U+2000)
Em Quad (U+2001)
En el espacio (U+2002)
Em Espacio (U+2003)
Espacio tres por em (U + 2004)
Espacio cuatro por em (U + 2005)
Espacio seis por em (U + 2006)
Espacio Figura (U+2007)
Espacio de puntuación (U+2008)
Espacio delgado (U+2009)
Espacio para el cabello (U+200A)
Espacio Matemático Medio (U+205F)

Aparte del espacio ASCII original, los demás espacios son todos caracteres de compatibilidad. En este contexto, esto significa que efectivamente no añaden contenido semántico al texto, sino que proporcionan control de estilo. Dentro de Unicode, este control de estilo no semántico a menudo se denomina texto enriquecido y está fuera del alcance de los objetivos de Unicode. En lugar de utilizar diferentes espacios en diferentes contextos, este estilo debería manejarse mediante un software de diseño de texto inteligente.

Otros tres separadores de palabras específicos del sistema de escritura son:

Separador de vocales mongoles (U+180E)
Espacio ideográfico (U+3000): se comporta como un separador ideográfico y generalmente se representa como un espacio en blanco del mismo ancho que un ideograma.
Marca de espacio Ogham (U+1680): este carácter a veces se muestra con un glifo y otras veces solo como un espacio en blanco.

Caracteres de control de salto de línea

Varios caracteres están diseñados para ayudar a controlar los saltos de línea, ya sea desalentándolos (caracteres sin saltos) o sugiriendo saltos de línea como el guión suave (U+00AD) (a veces llamado "guión tímido"). Estos personajes, aunque diseñados para el estilo, probablemente sean indispensables para los intrincados tipos de saltos de línea que hacen posibles.

Inhibición de rotura

BreGuión sin separación (U+2011)
Espacio sin descanso (U+00A0)
Delimitador de marca tibetana Tsheg Bstar (U+0F0C)
Espacio estrecho sin interrupción (U+202F)ak inhibidor

Los caracteres que inhiben la interrupción deben ser equivalentes a una secuencia de caracteres incluida en Word Joiner U+2060. Sin embargo, el Word Joiner se puede agregar antes o después de cualquier carácter que permita un salto de línea para inhibir dicho salto de línea.

Habilitación de pausa

Guión suave (U+00AD)
Marca tibetana intersilábica Tsheg (U+0F0B)
Espacio de ancho cero (U+200B)

Tanto los caracteres que inhiben como los que permiten la interrupción participan con otros caracteres de puntuación y espacios en blanco para permitir que los sistemas de imágenes de texto determinen los saltos de línea dentro del algoritmo de ruptura de línea Unicode

Tipos de punto de código

Todos los puntos de código a los que se les da algún tipo de propósito o uso se consideran puntos de código designados. De éstos, podrán ser asignados a un carácter abstracto, o de otro modo designados para algún otro fin.

Carácteres asignados

La mayoría de los puntos de código en uso real se han asignado a caracteres abstractos. Esto incluye caracteres de uso privado, que aunque no están designados formalmente por el estándar Unicode para un propósito particular, requieren que el remitente y el destinatario hayan acordado de antemano cómo deben interpretarse para que se produzca un intercambio de información significativo.

Uso privado de carácteres

Áreas de Uso Privado

La UCS incluye 137,468 caracteres de uso privado, que son puntos de código para uso privado distribuidos en tres bloques diferentes, cada uno llamado Área de Uso Privado (PUA). El estándar Unicode reconoce los puntos de código dentro de las PUA como códigos de caracteres Unicode legítimos, pero no les asigna ningún carácter (abstracto). En cambio, los individuos, las organizaciones, los proveedores de software, los proveedores de sistemas operativos, los proveedores de fuentes y las comunidades de usuarios finales son libres de utilizarlos como mejor les parezca. Dentro de los sistemas cerrados, los caracteres de la PUA pueden operar sin ambigüedades, lo que permite que dichos sistemas representen caracteres o glifos no definidos en Unicode.[8] En los sistemas públicos su uso es más problemático, ya que no existe ningún registro ni forma de evitar que varias organizaciones adopten los mismos puntos de código para diferentes propósitos. Un ejemplo de tal conflicto es el uso de U+F8FF por parte de Apple para el logotipo Apple, versus el uso de U+F8FF por parte del Registro Unicode de ConScript como glifo de momificación de la escritura de Klingon.

El plano multilingüe básico (Plano 0) contiene 6.400 caracteres de usuario privado en el área de uso privado PUA del mismo nombre, que va desde U+E000 hasta U+F8FF. Los Planos de Uso Privado,el plano 15 y el plano 16, tienen cada uno sus propias aplicaciones no deseadas de 65,534 caracteres de uso privado (los dos últimos puntos de código de cada avión no son caracteres). Se trata de la Zona de Uso Privado Suplementario-A, que va de U+F0000 a U+FFFFD, y la Zona de Uso Privado Suplementario-B, que va de U+100000 a U+10FFFD.

Las PUA son un concepto heredado de ciertos sistemas de codificación asiáticos. Estos sistemas tenían áreas de uso privado para codificar lo que los japoneses llaman gaiji (caracteres raros que normalmente no se encuentran en las fuentes) en formas específicas de la aplicación.

Sustitutos

La UCS utiliza sustitutos para abordar caracteres fuera del Plano Multilingüe Básico sin recurrir a representaciones de bytes de más de 16 bits.[10] Hay 1024 sustitutos "altos" (D800-DBFF) y 1024 sustitutos "bajos" (DC00-DFFF). Al combinar un par de sustitutos, se pueden abordar los caracteres restantes en todos los demás planos (1024 × 1024 = 1048576 puntos de código en los otros 16 planos). En UTF-16, siempre deben aparecer en pares, como un sustituto alto seguido de un sustituto bajo, por lo que se utilizan 32 bits para indicar un punto de código.

Un par sustituto denota el punto del código

1000016 + (H - D80016) × 40016 + (L - DC0016)

donde H y L son los valores numéricos de los sustitutos alto y bajo respectivamente.

Dado que los valores sustitutos altos en el rango DB80-DBFF siempre producen valores en los planos de uso privado, el rango sustituto alto se puede dividir en sustitutos altos (normales) (D800-DB7F) y "sustitutos de uso privado alto" (DB80-DBFF) .

Los puntos aislados del código sustituto no tienen una interpretación general; en consecuencia, no se proporcionan tablas de códigos de caracteres ni listas de nombres para este rango. En el lenguaje de programación Python, se utilizan códigos sustitutos individuales para incrustar bytes no decodificables en cadenas Unicode.

No carácteres

El término sin guión "sin carácter" se refiere a 66 puntos de código (etiquetados <no es un carácter>) reservados permanentemente para uso interno y, por lo tanto, se garantiza que nunca se asignarán a un carácter. Cada uno de los 17 planos tiene sus dos puntos de código finales reservados como no caracteres. Entonces, los no caracteres son: U+FFFE y U+FFFF en el BMP, U+1FFFE y U+1FFFF en el Plano 1, y así sucesivamente, hasta U+10FFFE y U+10FFFF en el Plano 16, para un total de 34 códigos. puntos. Además, hay un rango contiguo de otros 32 puntos de código sin caracteres en el BMP: U+FDD0..U+FDEF. Por lo tanto, las implementaciones de software pueden utilizar estos puntos de código para uso interno. Un ejemplo particularmente útil de un no carácter es el punto de código U+FFFE. Este punto de código tiene la secuencia de bytes UTF-16/UCS-2 inversa de la marca de orden de bytes (U+FEFF). Si una secuencia de texto contiene este no carácter, es una buena indicación de que el texto se ha interpretado con el incorrecto endianismo.

Las versiones del estándar Unicode de 3.1.0 a 6.3.0 afirmaban que los caracteres que no son caracteres "nunca deberían intercambiarse".El Corrigendum #9 del estándar declaró más tarde que esto estaba dando lugar a un "rechazo excesivo inapropiado", aclarando que "[los no caracteres] no son ilegales en el intercambio ni causan texto Unicode mal formado", y eliminando el reclamo original.

Puntos de código reservado

Todos los demás puntos de código, que no estén designados, se consideran reservados. Estos puntos de código pueden asignarse para un uso particular en versiones futuras del estándar Unicode.

Caracteres, grupos de grafemas y glifos

Mientras que muchos otros conjuntos de caracteres asignan un carácter para cada posible representación de glifo del carácter, Unicode busca tratar los caracteres por separado de los glifos. Esta distinción no siempre es inequívoca; sin embargo, algunos ejemplos ayudarán a ilustrarla. A menudo se pueden combinar dos caracteres tipográficamente para mejorar la legibilidad del texto. Por ejemplo, la secuencia de tres letras "ffi" puede tratarse como un solo glifo. Otros conjuntos de caracteres suelen asignar un punto de código a este glifo además de las letras individuales: "f" e "i".

Además, Unicode aborda las letras diacríticas modificadas como caracteres separados que, cuando se representan, se convierten en un solo glifo. Por ejemplo, una "o" con diéresis: "ö". Tradicionalmente, otros conjuntos de caracteres asignaban un punto de código de carácter único para cada letra diacrítica modificada utilizada en cada idioma. Unicode busca crear un enfoque más flexible al permitir combinar caracteres diacríticos con cualquier letra. Esto tiene el potencial de reducir significativamente la cantidad de puntos de código activos necesarios para el conjunto de caracteres. Como ejemplo, considere un idioma que usa la escritura latina y combina la diéresis con las letras mayúsculas y minúsculas "a", "o" y "u". Con el enfoque Unicode, solo es necesario agregar el carácter diacrítico de diéresis al conjunto de caracteres para usar con las letras latinas: "a", "A", "o", "O", "u" y "U": siete personajes en total. Un conjunto de caracteres heredado necesita agregar seis letras precompuestas con diéresis además de los seis puntos de código que utiliza para las letras sin diéresis: doce puntos de código de caracteres en total.

Caracteres de compatibilidad

UCS incluye miles de caracteres que Unicode designa como caracteres de compatibilidad. Estos son caracteres que se incluyeron en UCS para proporcionar puntos de código distintos para caracteres que otros conjuntos de caracteres diferencian, pero que no se diferenciarían en el enfoque Unicode para caracteres.

La razón principal de esta diferenciación fue que Unicode hace una distinción entre caracteres y glifos. Por ejemplo, cuando se escribe inglés en estilo cursivo, la letra "i" puede adoptar diferentes formas, ya sea que aparezca al principio de una palabra, al final de una palabra, en la mitad de una palabra o de forma aislada. Los idiomas como el Árabe escritos en escritura árabe siempre están en cursiva. Cada letra tiene muchas formas diferentes. UCS incluye 730 caracteres en formato árabe que se descomponen en solo 88 caracteres árabes únicos. Sin embargo, estos caracteres árabes adicionales se incluyen para que el software de procesamiento de texto pueda traducir texto de otros conjuntos de caracteres a UCS y viceversa sin pérdida de información crucial para el software que no es Unicode.

Sin embargo, para UCS y Unicode en particular, el enfoque preferido es codificar o asignar siempre esa letra al mismo carácter sin importar dónde aparezca en una palabra. Luego, las distintas formas de cada letra se determinan mediante los métodos del software de diseño de texto y fuente. De esta forma, la memoria interna de los caracteres permanece idéntica independientemente de dónde aparezca el carácter en una palabra. Esto simplifica enormemente la búsqueda, clasificación y otras operaciones de procesamiento de texto.

Propiedades de los caracteres

Propiedad del carácter Unicode

Cada carácter en Unicode está definido por un conjunto grande y creciente de propiedades. La mayoría de estas propiedades no forman parte del conjunto de caracteres universal. Las propiedades facilitan el procesamiento de texto, incluida la recopilación o clasificación de texto, la identificación de palabras, oraciones y grafemas, la representación o visualización de texto, etc. A continuación se muestra una lista de algunas de las propiedades principales. Hay muchos otros documentados en la base de datos de caracteres Unicode.

Propiedad

Ejemplo

Detalles

Nombre

LETRA A MAYÚSCULA LATINA

Este es un nombre permanente asignado por la cooperación conjunta de Unicode e ISO UCS. Existen y se reconocen algunos nombres mal elegidos (por ejemplo, FORMULARIO DE PRESENTACIÓN U+FE18 PARA BRAKCET LENTICULAR BLANCO DERECHO VERTICAL, que está mal escrito; debería ser BRACKET), pero no se cambiarán para garantizar la estabilidad de las especificaciones.

Punto de código

U+0041

El punto de código Unicode es un número que también se asigna permanentemente junto con la propiedad "Nombre" y se incluye en el UCS complementario. La costumbre habitual es representar el punto de código como un número hexadecimal con el prefijo "U+" delante.

Representative Glyph

[16]

The representative glyphs are provided in code charts.[17]

General Category

Uppercase_Letter

The general category[18] is expressed as a two-letter sequence such as "Lu" for uppercase letter or "Nd", for decimal digit number.

Combining Class

Not_Reordered (0)

Since diacritics and other combining marks can be expressed with multiple characters in Unicode the "Combining Class" property allows characters to be differentiated by the type of combining character it represents. The combining class can be expressed as an integer between 0 and 255 or as a named value. The integer values allow the combining marks to be reordered into a canonical order to make string comparison of identical strings possible.

Bidirectional Category

Left_To_Right

Indicates the type of character for applying the Unicode bidirectional algorithm.

Bidirectional Mirrored

Indicates the character's glyph must be reversed or mirrored within the bidirectional algorithm. Mirrored glyphs can be provided by font makers, extracted from other characters related through the "Bidirectional Mirroring Glyph" property or synthesized by the text rendering system.

Bidirectional Mirroring Glyph

N/A

This property indicates the code point of another character whose glyph can serve as the mirrored glyph for the present character when mirroring within the bidirectional algorithm.

Decimal Digit Value

NaN

For numerals, this property indicates the numeric value of the character. Decimal digits have all three values set to the same value, presentational rich text compatibility characters and other Arabic-Indic non-decimal digits typically have only the latter two properties set to the numeric value of the character while numerals unrelated to Arabic Indic digits such as Roman Numerals or Hanzhou/Suzhou numerals typically have only the "Numeric Value" indicated.

Digit Value

NaN

Numeric Value

NaN

Ideographic

False

Indicates the character is a CJK ideograph: a logograph in the Han script.[19]

Default Ignorable

False

Indicates the character is ignorable for implementations and that no glyph, last resort glyph, or replacement character need be displayed.

Deprecated

False

Unicode never removes characters from the repertoire, but on occasion Unicode has deprecated a small number of characters.

Unicode provides an online database[20] to interactively query the entire Unicode character repertoire by the various properties.

Page updated

Google Sites

Report abuse