UCS Transformation Format, wobei UCS die Abkürzung für Universal Code Character Set ist
UTF-8 ist die am weitesten verbreitete Zeichencodierung für Text (genauer: Unicode-Zeichen). Die "8" steht für eine maximale Länge von 8 Byte pro Zeichen. Dabei wird aber nur die tatsächlich benötigte Länge verwendet. Die ersten 128 Zeichen stimmen mit dem ASCII-Zeichensatz überein, d.h. für die lateinische Schrift kommt UTF-8 mit nur einem Byte pro Zeichen aus.
UTF-8 enthält neben der lateinischen Schrift auch fast alle anderen heute noch verwendeten Schriftarten, wie z.B. griechisch, kyrillisch, arabisch, chinesisch, Braille und mehrere indische und japanische Schriftarten. Auch etliche alte Schriftarten, wie z.B. ägyptische Hieroglyphen, und eine Vielzahl von Sonderzeichen sind enthalten.