8Die eXtensible Markup Language (XML)
»Ich bin überall in diesem Land gewesen und habe mit den besten Leuten gesprochen. Ich kann Ihnen versichern, dass Datenverarbeitung ein Tick ist, der sich nächstes Jahr erledigt hat.«
– Editor für Computerbücher bei Prentice Hall, 1957
8.1Auszeichnungssprachen
Auszeichnungssprachen dienen der strukturierten Gliederung von Texten und Daten. Ein Text besteht zum Beispiel aus Überschriften, Fußnoten und Absätzen, eine Vektorgrafik dagegen aus einzelnen Grafikelementen wie Linien und Textfeldern. Auszeichnungssprachen liegt die Idee zugrunde, besondere Bausteine durch Auszeichnung hervorzuheben. Ein Text könnte etwa so beschrieben sein:
Mein Buch
<Ende Überschrift>
Hui ist das <fett>toll<Ende fett>.
Als Leser eines Buchs erkennen wir optisch eine Überschrift an der Schriftart. Ein Computer hat damit aber seine Schwierigkeiten. Wir wollen auch dem Rechner die Fähigkeit verleihen, diese Struktur zu erkennen.
HTML ist die erste populäre Auszeichnungssprache, die Auszeichnungselemente (engl. tags) wie <b>fett</b> benutzt, um bestimmte Eigenschaften von Elementen zu kennzeichnen. Damit wurde eine Visualisierung verbunden, etwa bei einer Überschrift fett und mit großer Schrift. Leider werden Auszeichnungssprachen wie HTML auch dazu benutzt, Formatierungseffekte zu erzielen. Beispielsweise werden Überschriften richtigerweise mit dem Überschriften-Tag ausgezeichnet. Wenn an anderer Stelle eine Textstelle fett und groß sein soll, wird diese aber auch oft mit dem Überschriften-Tag markiert, obwohl sie keine Überschrift ist.
8.1.1Die Standard Generalized Markup Language (SGML)
Das Beispiel der Überschrift in einem Buch veranschaulicht die Idee, Bausteine mit Typen in Verbindung zu bringen. Der allgemeine Aufbau mit diesen Auszeichnungselementen ließe sich dann für beliebige hierarchische Dokumente nutzen. Die Definition einer Auszeichnungssprache (Metasprache) ist daher auch nicht weiter schwierig. Schon Mitte der 1980er Jahre wurde als ISO-Standard die Standard Generalized Markup Language (SGML)[ 84 ](Der Vorgänger von SGML war GML; hier standen die Buchstaben (sicherlich inoffiziell) für Charles Goldfarb, Edward Mosher und Raymond Lorie, die bei IBM in den 1960er Jahren diese Dokumentenbeschreibungssprache geschaffen hatten.) definiert, die die Basis für beliebige Auszeichnungssprachen ist. Ab der Version 2.0 ist auch HTML als SGML-Anwendung definiert. Leider kam mit den vielen Freiheiten und der hohen Flexibilität eine große und aufwändige Deklaration der Anwendungen hinzu. Ein SGML-Dokument musste einen ganz bestimmten Aufbau besitzen. SGML-Dateien waren daher etwas unflexibel, weil die Struktur genau eingehalten werden musste. Für HTML-Dateien wäre das schlecht, weil die Browser-Konkurrenten produktspezifische Tags definieren, die auf den Browser des jeweiligen Herstellers beschränkt bleiben. So interpretiert der Internet Explorer zum Beispiel das Tag <blink>blinkend </blink> nicht. Tags, die ein Browser nicht kennt, überliest er einfach.
8.1.2Extensible Markup Language (XML)
Für reine Internetseiten hat sich HTML etabliert, aber für andere Anwendungen wie Datenbanken oder Rechnungen ist HTML nicht geeignet. Für SGML sprechen die Korrektheit und Leistungsfähigkeit – dagegen sprechen die Komplexität und die Notwendigkeit, eine Beschreibung für die Struktur angeben zu müssen. Daher setzte sich das W3C zusammen, um eine neue Auszeichnungssprache zu entwickeln, die einerseits so flexibel wie SGML, andererseits aber so einfach zu nutzen und zu implementieren ist wie HTML. Das Ergebnis war die eXtensible Markup Language (XML). Diese Auszeichnungssprache ist für Compiler einfach zu verarbeiten, da es genaue Vorgaben dafür gibt, wann ein Dokument in Ordnung ist.
XML ist nicht nur der Standard zur Beschreibung von Daten, denn oft verbinden sich mit diesem Ausdruck eine oder mehrere Technologien, die mit der Beschreibungssprache im Zusammenhang stehen. Und: Ohne XML kein WiX[ 85 ](Windows Installer XML – Definition von Auslieferungspaketen für Microsoft Windows)! Die wichtigsten Technologien zur Verarbeitung von XML in Java werden hier kurz vorgestellt. Eine ausführliche Beschreibung mit allen Nachbartechnologien finden Sie bei Interesse auf den Webseiten des W3C unter http://www.w3c.org/.