Modul: Text & Tabellen

TEI

TEI (Text Encoding Initiative) hat sich als Organisation 1987 gegründet und arbeitet fortwährend an einem Standard für die Repräsentation von Texten. Wichtigstes Ergebnis ist das Dokumentenformat gleichen Namens. Seit Version P4 ist TEI XML-Dialekt. Die allgemeinen Aspekte von TEI lassen sich wie folgt zusammenfassen: (TEI P5, 2023)

  • TEI ist ein Dokumentenformat mit Fokus auf linearem Text. In vielen Geisteswissenschaften ist TEI sogar Standardformat für Texte
  • Strukturen im Text können gekennzeichnet werden, denn TEI ist eine Auszeichnungssprache. Zu diesem Zweck stehen zahlreiche Elemente zur Verfügung, darunter auch spezielle für Grammatik, Linguistik, Aufführungstexte und Lyrik. Dadurch eignet sich TEI besonders gut für die Beforschung von Texten, insbesondere in den Geisteswissenschaften. Die naturgetreue Darstellung ist dagegen nicht das Ziel von TEI. Für diesen Zweck eignen sich Bildformate oder PDF besser
  • Hunderte von Header-Elementen können beschreibende Daten zum Text aufnehmen. TEI wird dadurch auch zum Metadatenstandard
  • Als Auszeichnungssprache auf Basis von XML ist TEI Software-unabhängig
  • Wie alle XML-Dateien ist TEI UTF-8-kodiert. Das ist zumindest die Voreinstellung. Da TEI nicht gepackt wird, ist es mit einem einfachen Texteditor, wie z.B. Notepad unter Windows, lesbar

TEI-Grundaufbau: TEI-Header + Text.

Innerhalb des TEI-Headers befindet sich das File-Description-Element und darunter die drei Pflichtelemente Title Statement, Publication Statement und Source Description. Das Title Statement enthält das Pflichtelement title. Header Pflichtelemente Text <?xml version="1.0"?> <!DOCTYPE tei SYSTEM "file:///D:/tei/tei_all.dtd"> <?xml-stylesheet type="text/xsl" href="file:///D:/tei/html/html.xsl"?> <TEI>     <teiHeader>         <fileDesc>             <titleStmt>                 <title>XML/TEI-Beispiel minimaler Komplexität</title>             </titleStmt>             <publicationStmt>                 <p>Open Educational Resources, 2023</p>             </publicationStmt>             <sourceDesc>                 <p>Born digital</p>             </sourceDesc>         </fileDesc>     </teiHeader>     <text>         <body>             <p>Dies ist nicht zu viel Text.</p>         </body>     </text> </TEI>

Der Header sollte Metadaten zum Text enthalten. Jedes TEI-Dokument muss einen Header besitzen. Im Beispiel sind nur die Pflichtelemente vorhanden. Alle Pflichtelemente sind Kindelemente von fileDesc:

Die drei Pflichtelemente des Headers
titleStmt Title Statement mit Kindelement title für den Titel
publicationStmt  für die Nennung des Verlags oder Distributors und für Informationen über die Art und Weise der Bereitstellung, wie z.B. Lizenzbedingungen, Identifikationsnummern usw.
sourceDesc für die Beschreibung der Quellen, aus denen der Text abgeleitet ist, häufig eine bibliografische Beschreibung. Im Beispiel wurde die Standardfloskel "Born digital" benutzt, die ausdrücken soll, dass es keine Vorlage gibt und der Text bereits digital entstanden ist.

TEI stellt zahlreiche weitere Header-Elemente zur Verfügung, die folgendermaßen gegliedert sind:

Die 5 übergeordneten Header-Elemente
fileDesc Eine Dateibeschreibung, die eine komplette bibliografische Beschreibung des Files selbst enthält
encodingDesc Eine Kodierungsbeschreibung, die Methoden und redaktionelle Grundsätze beschreibt
profileDesc Nicht-bibliographische Aspekte des Texts, z.B. Sprache, Teilnehmende, Umstände der Entstehung
xenoData Ein Container-Element, das die Einbindung von Metadaten aus Nicht-TEI-Schemata ermöglicht
revisionedDesc   Eine Versionsinformation, die es dem Kodierer ermöglicht, eine Historie der vorgenommenen Änderungen zu erstellen

Auch für die Auszeichnung von Text stehen eine Fülle von Elementen zur Verfügung. Schon die TEI-Dokumentation ist über 2000 Seiten lang. (TEI P5, 2023)