Modul: Text & Tabellen: TEI

TEI

TEI (Text Encoding Initiative) hat sich als Organisation 1987 gegründet und arbeitet fortwährend an einem Standard für die Repräsentation von Texten. Wichtigstes Ergebnis ist das Dokumentenformat gleichen Namens. Seit Version P4 ist TEI XML-Dialekt. Die allgemeinen Aspekte von TEI lassen sich wie folgt zusammenfassen: (TEI P5, 2023)

TEI ist ein Dokumentenformat mit Fokus auf linearem Text. In vielen Geisteswissenschaften ist TEI sogar Standardformat für Texte
Strukturen im Text können gekennzeichnet werden, denn TEI ist eine Auszeichnungssprache. Zu diesem Zweck stehen zahlreiche Elemente zur Verfügung, darunter auch spezielle für Grammatik, Linguistik, Aufführungstexte und Lyrik. Dadurch eignet sich TEI besonders gut für die Beforschung von Texten, insbesondere in den Geisteswissenschaften. Die naturgetreue Darstellung ist dagegen nicht das Ziel von TEI. Für diesen Zweck eignen sich Bildformate oder PDF besser
Hunderte von Header-Elementen können beschreibende Daten zum Text aufnehmen. TEI wird dadurch auch zum Metadatenstandard
Als Auszeichnungssprache auf Basis von XML ist TEI Software-unabhängig
Wie alle XML-Dateien ist TEI UTF-8-kodiert. Das ist zumindest die Voreinstellung. Da TEI nicht gepackt wird, ist es mit einem einfachen Texteditor, wie z.B. Notepad unter Windows, lesbar

TEI-Grundaufbau: TEI-Header + Text.

Der Header sollte Metadaten zum Text enthalten. Jedes TEI-Dokument muss einen Header besitzen. Im Beispiel sind nur die Pflichtelemente vorhanden. Alle Pflichtelemente sind Kindelemente von fileDesc:

Die drei Pflichtelemente des Headers
titleStmt	Title Statement mit Kindelement title für den Titel
publicationStmt	für die Nennung des Verlags oder Distributors und für Informationen über die Art und Weise der Bereitstellung, wie z.B. Lizenzbedingungen, Identifikationsnummern usw.
sourceDesc	für die Beschreibung der Quellen, aus denen der Text abgeleitet ist, häufig eine bibliografische Beschreibung. Im Beispiel wurde die Standardfloskel "Born digital" benutzt, die ausdrücken soll, dass es keine Vorlage gibt und der Text bereits digital entstanden ist.

TEI stellt zahlreiche weitere Header-Elemente zur Verfügung, die folgendermaßen gegliedert sind:

Die 5 übergeordneten Header-Elemente
fileDesc	Eine Dateibeschreibung, die eine komplette bibliografische Beschreibung des Files selbst enthält
encodingDesc	Eine Kodierungsbeschreibung, die Methoden und redaktionelle Grundsätze beschreibt
profileDesc	Nicht-bibliographische Aspekte des Texts, z.B. Sprache, Teilnehmende, Umstände der Entstehung
xenoData	Ein Container-Element, das die Einbindung von Metadaten aus Nicht-TEI-Schemata ermöglicht
revisionedDesc	Eine Versionsinformation, die es dem Kodierer ermöglicht, eine Historie der vorgenommenen Änderungen zu erstellen

Auch für die Auszeichnung von Text stehen eine Fülle von Elementen zur Verfügung. Schon die TEI-Dokumentation ist über 2000 Seiten lang. (TEI P5, 2023)