21.04.2021

Technische Redaktion – Was ist eigentlich XML?

Home › Technologien, KI und Digitalisierung › Technische Redaktion – Was ist eigentlich XML?

Was bedeutet XML? Wenn es etwas gibt, woran es in der Informationsbranche nicht mangelt, dann sind es wohl die vielen Akronyme. XML, CMS, TMS, XSLT, MÜ, VR, HMI, PIM, RDF, OWL, DITA … die Liste könnte ganze Seiten füllen. Das Akronym XML (oder genauer gesagt „eXtensible Markup Language“) beschreibt einen Grundstein moderner Informationstechnologien. Aber was genau ist XML, wo findet man es und was können Redakteure oder Übersetzer damit anfangen?

Ursprung von XML

Um besser zu verstehen, was XML ist, muss man zuerst etwas weiter zurückblicken. Mit der Verbreitung elektronischer Dokumente entstand in den 70er Jahren der Wunsch, Texte und Formatinformationen voneinander zu trennen. Im Jahr 1969 und in den darauffolgenden Jahren entwickelten drei IBM-Mitarbeiter, Charles Goldfarb, Edward Mosher und Raymond Lorie die erste Aufzeichnungssprache, die Formatinformationen getrennt von Text beschrieb. Diese Sprache wurde nach den Anfangsbuchstaben der drei Entwickler GML genannt.

GML wurde weiterentwickelt und führte 1986 zur Verabschiedung der SGML-Norm ISO 8879 (Standard Generalized Markup Language), die den Aufbau einer standardisierten Aufzeichnungssprache definierte. Damit sollten Text und weitere Informationen wie Format- aber auch semantische Informationen getrennt voneinander sein. Jedes SGML-Dokument verweist auf eine Datei, eine DTD (Dokument- Typ-Definition), die die Struktur, die Entitäten (Entities = Kurzformen für eine Wortgruppe oder Referenz auf Sonderzeichen) und die zulässigen Elemente aller SGML-Dateien eines bestimmten Typs beschreibt. SGML bedeutete eine richtige Revolution für die Dokumentationsbranche:

- Dokumente lagen als Textdatei vor und waren plattformunabhängig austauschbar.
- Die Struktur der Information konnte auf ihre Richtigkeit geprüft werden.
- Informationen ließen sich aus Dokumenten ähnlich wie aus einer Datenbank extrahieren.

Vor allem durch die Verbreitung des Internets entstand der Bedarf an einer etwas flexibleren und webfähigen Auszeichnungssprache. So wurde 1998 vom World Wide Web Consortium (W3C) die erste Version von XML als Subset von SGML verabschiedet. Momentan gilt die Version XML 1.1 von September 2006. Strukturinformationen können bei XML-Dateien entweder in Form einer DTD oder als XML-Schema angegeben werden. Ein XML-Schema ist im Gegensatz zur DTD eine XML-Datei. Sie beschreibt die Struktur des XML-Dokuments. XML-Dokumente müssen nicht zwingend mit einer DTD oder mit einem XML-Schema abgeglichen werden. Sie werden dann nicht auf ihre Gültigkeit (valid documents), sondern nur auf ihre Wohlgeformtheit (well-formed documents) überprüft.

Merkmale von XML

Die wichtigsten Merkmale von XML-Dokumenten sind:

- Sie haben ein Wurzelelement.
- Elemente haben Anfang- und Endtags, die sie in eckigen Klammern umschließen: (z. B. <terminologieeintrag>Druck-ventil</ terminologieeintrag>). Elemente können verschachtelt sein. – Elemente können Attribute haben. Allerdings sind mehrere Attribute mit demselben Namen nicht zulässig. Attributeigenschaften stehen in Anführungszeichen.
- Anfang- und Endtags berücksichtigen die Groß- und Kleinschreibung.

Daten können aus XML-Dokumenten mithilfe einer Abfragesprache wie XQuery extrahiert werden (z. B. „Welche Prozeduren betreffen den Teil XYZ?“). Mit einer Transformationssprache wie XSLT kann ein XML-Dokument oder Teile davon in ein anderes Dokument (z. B. ein XML-, HTMLoder Textdokument) umgewandelt werden.

In der technischen Kommunikation sind z. B. folgende Sprachen XML-basiert:

- DITA (Darwin Information Typing Architecture) dient zur Erstellung und Organisation von Topic-basierten Informationen.
- XLIFF (Localization Interchange File Format) und die verwandten Dialekte für Übersetzungsdateien.
- TMX (Translation Memory eXchange) für Translation-Memorys.
- TBX (TermBase eXchange) für Terminologiebestände.

Für Redakteure bietet XML die Chance, zum einen aus einer Datei unterschiedliche Formate (Druck, Web, ePub usw.) zu generieren und zum anderen Inhalte mit einer Reihe von Metainformationen anzureichern. Diese Metainformationen, die in den Elementen und Attributen enthalten sind, können die Formatierung (z. B. Überschrift), die Verwaltung (z. B. Bearbeitungsstatus) oder die Semantik (Prozedur, Schritt, Ergebnis) betreffen. Es ist daher möglich, über Attribute Inhalte für unterschiedliche Zielgruppen zu veröffentlichen. Dieses Prinzip machen sich die Content-Management- Systeme zunutze.

Nutzen von XML

XML eignet sich bestens für mehrsprachige Inhalte. Es verwendet standardmäßig Unicode UTF-8 und bietet die Möglichkeit, Informationen für den Übersetzungsprozess zu verwalten wie die Sprache (das Attribut xml:lang), den Segmentstatus oder die Übersetzungsherkunft. Das Internationalization Tag Set (ITS) wurde durch das World Wide Web Consortium zu Lokalisierungszwecken entwickelt. Es beschreibt Tags wie die Sprachrichtung (von links nach rechts oder umgekehrt), die Übersetzbarkeit von Elementen, Notizen für den Übersetzer oder Terminologieeinträge.

Bei der Lokalisierung von XML-Dateien müssen Übersetzer vor allem Folgendes beachten:

- Die Codierung der Datei muss stimmen.
- Die Reihenfolge der Tags muss stimmen, denn eine geänderte Reihenfolge kann dazu führen, dass die übersetzte XMLDatei nicht mehr valid ist.
- Elementnamen dürfen nicht übersetzt werden. Bei den Attributen muss der Übersetzer prüfen, welche übersetzt werden dürfen.

XML heute

XML hat sich also als Datentformat in der technischen Redaktion und in der Übersetzungsbranche etabliert. Es bietet viele Vorteile, die alle Beteiligten noch intensiver als bisher verwenden könnten und sollten, um ihre Abläufe zu optimieren. Gute XML-Kenntnisse sind daher ein wichtiger Baustein in der Qualifikation von Redakteuren und Übersetzern.