UTF-8 (8-bit Unicode Transformation Format) és una normativa de codificació de caràcters, per Unicode que utilitza símbols de longitud variable. Va ser creat per Robert C. Pike i Kenneth L. Thompson. Està definit com a estàndard per la <RFC 3629> de la Internet Engineering Task Force (IETF).
Actualment és una de les tres possibilitats de codificació reconegudes per Unicode i llenguatges web, o quatre en ISO 10646.
CODIFICACIÓ DE CARÀCTERS:
Rang de punts
Valor escalar
00000000 0xxxxxxx
00000yyy yyxxxxxx
zzzzyyyy yyxxxxxx
000uuuuu zzzzyyyy yyxxxxxx
UTF-8
0xxxxxxx
110yyyyy 10xxxxxx
1110zzzz 10yyyyyy 10xxxxxx
11110uuu 10uuzzzz 10yyyyyy 10xxxxxx
Notes
Rang equivalent a US-ASCII. Símbols d'un únic byte on el bit més significatiu és 0.
Símbols de doble byte. El primer octet comença amb 110, el segon byte comença amb 10.
Símbols de tres bytes. El primer octet comença amb 1110, els bytes següents comencen amb 10.
Símbols de quatre bytes. El primer octet comença amb 11110, els bytes següents comencen amb 10
UNICODE
00000000007F
0000800007FF
00080000FFFF
01000010FFFF
Bibliografia:
https://ca.wikipedia.org/wiki/UTF-8
https://es.wikipedia.org/wiki/UTF-8