Modul: Text & Tabellen

.docx, OOXML, .odt und ODF

Alle wichtigen Textverarbeitungsprogramme können Dokumente als .docx (Word-Datei) und als .odt (OpenDocument Text) einlesen und abspeichern. Auch die basieren auf XML. Vermutlich haben Sie sich bei der Arbeit mit Textverarbeitungsprogrammen aber noch nie mit der Auswahl von XML-Elementen und der Gültigkeit Ihrer Dokumente auseinandersetzen müssen, denn das nimmt Ihnen das Textverarbeitungsprogramm vollständig ab. 

Merke! .docx und .odt sind nur eine Seite zweier umfassender Büroanwendungsformate, in denen u.a. auch Tabellendokumente (Spreadsheets) und Präsentationen gespeichert werden können. Diese umfassenden Büroanwendungsformate heißen OOXML und ODF und sind in der folgenden Tabelle gegenübergestellt.

Die beiden wichtigsten Büroanwendungsformate
OOXML (Office Open XML oder OASIS Open XML) ODF (OpenData Format)
Dateiendung für Text .docx .odt
Dateiendung für Tabellen (Spreadsheets)  .xlsx .ods
Dateiendung für Präsentationen .pptx .odp
Spezifikation offen
Zur internationalen Norm erhoben durch ISO (Internationale Organisation für Normung),
OASIS (Organisation for the Advancements of Structured Information Standards),
ecma (Industry association for standardizing information and communication systems)
ISO, OASIS
Aufbau Unterdateien in zip-Container
Kodierung nicht standardtextkodiert
Entwickelt durch
Microsoft Sun Microsystems


Sowohl OOXML als auch ODF sind Containerformate auf Basis von zip, liegen also komprimiert vor. In dem Container befinden sich Unterdateien (in der Microsoft-Welt "Parts" genannt), aus denen das Dokument, die Tabelle oder die Präsentation zusammengesetzt ist. Neben XML-Dateien für Text, Tabellen, Präsentationen, mathematische Formeln und Vektorgrafiken können das beispielsweise Pixelgrafiken sein. Pixelgrafikformate sind zwar keine XML-Auszeichnungssprachen, können aber dank der Containertechnik einfach mit eingepackt werden. Dass aus vielen solcher Unterdateien durch das Packen nur eine Datei wird, fördert die Übersicht bei der Arbeit und verringert zudem noch das Datenvolumen durch Kompression.

Die Kompression von XML im .docx oder .odt hat die skurrile Folge, dass diese — obwohl Textformate — nicht zeichenkodiert sind. Das liegt daran, dass bei der Kompression häufig vorkommende Zeichenfolgen zusammengefasst als abgekürzte Bitfolge gespeichert werden. Ein Wörterbuch dieser Bitfolgen wird mitgespeichert, aber welche Bitfolge für was verwendet wird, hängt vom gesamten Text ab.  Bei Zeichenkodierung ist hingegen jedes Zeichen einzeln und einheitlich kodiert, unabhängig davon, was im Text sonst noch vorkommt.

Merke! Aufgrund der weiten Verbreitung haben sich OOXML und ODF zu wichtigen Austauschformaten für Textdokumente entwickelt. Für die Langzeitarchivierung wird dennoch PDF/A bevorzugt, da nicht gesichert ist, dass die als .docx und .odt gespeicherten Texte mit jedem Textverarbeitungsprogramm und in aller Zukunft immer gleich angezeigt werden. Schlimmer noch: Es gab Fälle, in denen sich ältere Dateien nicht mehr lesen ließen. Das kann daran liegen, dass im Container auch Komponenten gespeichert werden können, die proprietär sind und sich dann mit späteren Versionen von Textverarbeitungsprogrammen nicht immer lesen lassen.

Wenn mit der Datenveröffentlichung das Ziel verbunden ist, Texte in leicht editierbarer Form zur Verfügung zu stellen, sollten .docx- oder .odt-Dateien zusätzlich zu PDF/A beigelegt werden. 

Merke! Bilddaten, die selbst wichtige Forschungsdaten sind, sollten darüber hinaus auch als Grafikdatei im Originalformat bereitgestellt werden, denn bei der Speicherung im OOXML, ODF oder PDF kommt es möglicherweise zu Qualitätseinbußen und Informationsverlust. Beispielsweise können Bilddaten textuelle Zusatzinformationen (Metadaten im Datei-Header) enthalten, die dann oft verlorengehen.

Auslaufende Dokumentenformate, wie z.B. der .docx-Vorläufer .doc, sind für die Archivierung nicht geeignet.