Modul: Text & Tabellen
Modul: Text & Tabellen
TEI
TEI (Text Encoding Initiative) hat sich als Organisation 1987 gegründet und arbeitet fortwährend an einem Standard für die Repräsentation von Texten. Wichtigstes Ergebnis ist das Dokumentenformat gleichen Namens. Seit Version P4 ist TEI XML-Dialekt. Die allgemeinen Aspekte von TEI lassen sich wie folgt zusammenfassen: (TEI P5, 2023)
- TEI ist ein Dokumentenformat mit Fokus auf linearem Text. In vielen Geisteswissenschaften ist TEI sogar Standardformat für Texte
- Strukturen im Text können gekennzeichnet werden, denn TEI ist eine Auszeichnungssprache. Zu diesem Zweck stehen zahlreiche Elemente zur Verfügung, darunter auch spezielle für Grammatik, Linguistik, Aufführungstexte und Lyrik. Dadurch eignet sich TEI besonders gut für die Beforschung von Texten, insbesondere in den Geisteswissenschaften. Die naturgetreue Darstellung ist dagegen nicht das Ziel von TEI. Für diesen Zweck eignen sich Bildformate oder PDF besser
- Hunderte von Header-Elementen können beschreibende Daten zum Text aufnehmen. TEI wird dadurch auch zum Metadatenstandard
- Als Auszeichnungssprache auf Basis von XML ist TEI Software-unabhängig
- Wie alle XML-Dateien ist TEI UTF-8-kodiert. Das ist zumindest die Voreinstellung. Da TEI nicht gepackt wird, ist es mit einem einfachen Texteditor, wie z.B. Notepad unter Windows, lesbar
TEI-Grundaufbau: TEI-Header + Text.
Der Header sollte Metadaten zum Text enthalten. Jedes TEI-Dokument muss einen Header besitzen. Im Beispiel sind nur die Pflichtelemente vorhanden. Alle Pflichtelemente sind Kindelemente von fileDesc:
titleStmt | Title Statement mit Kindelement title für den Titel |
---|---|
publicationStmt | für die Nennung des Verlags oder Distributors und für Informationen über die Art und Weise der Bereitstellung, wie z.B. Lizenzbedingungen, Identifikationsnummern usw. |
sourceDesc | für die Beschreibung der Quellen, aus denen der Text abgeleitet ist, häufig eine bibliografische Beschreibung. Im Beispiel wurde die Standardfloskel "Born digital" benutzt, die ausdrücken soll, dass es keine Vorlage gibt und der Text bereits digital entstanden ist. |
TEI stellt zahlreiche weitere Header-Elemente zur Verfügung, die folgendermaßen gegliedert sind:
fileDesc | Eine Dateibeschreibung, die eine komplette bibliografische Beschreibung des Files selbst enthält |
---|---|
encodingDesc | Eine Kodierungsbeschreibung, die Methoden und redaktionelle Grundsätze beschreibt |
profileDesc | Nicht-bibliographische Aspekte des Texts, z.B. Sprache, Teilnehmende, Umstände der Entstehung |
xenoData | Ein Container-Element, das die Einbindung von Metadaten aus Nicht-TEI-Schemata ermöglicht |
revisionedDesc | Eine Versionsinformation, die es dem Kodierer ermöglicht, eine Historie der vorgenommenen Änderungen zu erstellen |
Auch für die Auszeichnung von Text stehen eine Fülle von Elementen zur Verfügung. Schon die TEI-Dokumentation ist über 2000 Seiten lang. (TEI P5, 2023)