RFC 20. – ASCII format for Network Interchange. 16. Oktober 1969. (ANSI X 3.4-1968 – englisch).
ISO/IEC 646:1991 (englisch)
ASA X3.4-1963 (englisch)
Erläuterungen zu den Steuerzeichen (englisch)
ASCII-Tabelle mit Erläuterungen (deutsch)
Umwandlung von und zu Dezimale, Oktale, Hexadezimale und Binäre ASCII-Schreibweise (englisch)
Der American Standard Code for Information Interchange (ASCII, alternativ US-ASCII, oft [ˈæski] ausgesprochen, deutsch „Amerikanischer Standard-Code für den Informationsaustausch“) ist eine 7-Bit-Zeichenkodierung; sie entspricht der US-Variante von ISO 646 und dient als Grundlage für spätere, auf mehr Bits basierende Kodierungen für Zeichensätze. Der ASCII-Code wurde zuerst am 17. Juni 1963 von der American Standards Association (ASA) als Standard ASA X3.4-1963 gebilligt[1]:1[2]:50 und 1967/1968[3] wesentlich sowie zuletzt im Jahr 1986 (ANSI X3.4-1986)[4] von ihren Nachfolgeinstitutionen aktualisiert und wird bis heute noch benutzt. Die Zeichenkodierung definiert 128 Zeichen, bestehend aus 33 nicht druckbaren sowie den folgenden 95 druckbaren Zeichen, beginnend mit dem Leerzeichen: https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange
Unicode (Aussprachen: amerikanisches Englisch [ˈjuːnikoʊd], britisches Englisch [ˈjuːnikəʊd]; dt. [ˈjuːnikoːt]) ist ein internationaler Standard, in dem langfristig für jedes sinnvolle Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es, die Verwendung unterschiedlicher und inkompatibler Kodierungen in verschiedenen Ländern oder Kulturkreisen zu beseitigen. Unicode wird ständig um Zeichen weiterer Schriftsysteme durch das Unicode-Konsortium ergänzt. ISO 10646 ist die von ISO verwendete, praktisch bedeutungsgleiche Bezeichnung des Unicode-Zeichensatzes; er wird dort als Universal Coded Character Set (UCS) bezeichnet. https://de.wikipedia.org/wiki/Unicode
UTF-8 (Abkürzung für 8-Bit UCS Transformation Format, wobei UCS wiederum Universal Coded Character Set abkürzt) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen (Unicode und UCS sind praktisch identisch). Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten am Plan-9-Betriebssystem festgelegt. Sie wurde zunächst im Rahmen von X/Open als FSS-UTF bezeichnet (filesystem safe UTF in Abgrenzung zu UTF-1, das diese Eigenschaft nicht hat), in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche Bezeichnung UTF-8.[1] UTF-8 ist in den ersten 128 Zeichen (Indizes 0–127) deckungsgleich mit ASCII und eignet sich mit in der Regel nur einem Byte Speicherbedarf für Zeichen vieler westlicher Sprachen, besonders für die Kodierung englischsprachiger Texte, die sich im Regelfall ohne Modifikation daher sogar mit nicht-UTF-8-fähigen Texteditoren ohne Beeinträchtigung bearbeiten lassen, was einen der Gründe für den Status als De-facto-Standard-Zeichenkodierung des Internet und damit verbundener Dokumenttypen darstellt. Im März 2019 verwendeten 93,1 % aller Websites UTF-8[2] und 94,8 % der Top 1000.[3] In anderen Sprachen ist der Speicherbedarf in Byte pro Zeichen größer, wenn diese vom ASCII-Zeichensatz abweichen: Bereits die deutschen Umlaute erfordern zwei Byte, ebenso griechische oder kyrillische Zeichen. Zeichen fernöstlicher Sprachen und von Sprachen aus dem afrikanischen Raum belegen bis zu 4 Byte je Zeichen. Da die Verarbeitung von UTF-8 als Multibyte-Zeichenfolge wegen der notwendigen Analyse jedes Bytes im Vergleich zu Zeichenkodierungen mit fester Byteanzahl je Zeichen mehr Rechenaufwand und für bestimmte Sprachen auch mehr Speicherplatz erfordert, werden abhängig vom Einsatzszenario auch andere UTF-Kodierungen zur Abbildung von Unicode-Zeichensätzen verwendet. Z. B. verwendet Microsoft Windows intern UTF-16 Little Endian, als Kompromiss zwischen UTF-8 und UTF-32. https://de.wikipedia.org/wiki/UTF-8
RFC 3629 – UTF-8, a transformation format of ISO 10646 (englisch)
UTF-8-Codetabelle mit Unicode-Zeichen – UTF-8-Kodierung aller Unicode-Positionen aus der BMP mit Zusatzinformationen und benannten HTML-Entitäten
Dieter Pawelczak: Kodierung von Zeichenfolgen. Beispiel UCS/UTF8. In: Universität der Bundeswehr München. Institut für Software Engineering
Pavel Radzivilovsky, Yakov Galka, Slava Novgorodov: UTF-8 Everywhere. Manifesto (englisch)