Where have you gone, XML?

Am Deutschen Literaturarchiv in Marbach (im Bild das dortige Geburtshaus Schillers) fand eine kleine, aber feine Tagung zur Textauszeichnung in Editionen statt. Ziel war und ist die Erstellung von entsprechenden Empfehlungen. Da die aber noch in mehreren Besprechungen und mit verschiedenen Interessengruppen weiter entwickelt werden müssen, will ich hier keine vorläufigen Fassungen bekannt machen und stattdessen den Anlass ergreifen, um einige mir durch den Kopf gehende Überlegungen oder Bedenken zur Entwicklung der eXtended Markup Language anzusprechen. In ihrem Anfang als Structured Generalized Markup Language (SGML) war das Ziel, die mit grafischen Mitteln ausgedrückten Strukturen von Texten, wie z.B. Überschriften, Absätze, Zitate, Listen durch deren sachliche Auszeichnung, d.h. durch ihre explizite Benennung (in spitzen Klammern) zu ersetzen. Dass es die sachliche Auszeichung gebe, war damals kein Thema und musste es vielleicht auch nicht sein. 

Mittlerweile hat sich das Markup (die Auszeichung), z.B. auch in so verdienstvollen Unternehmungen wie der Text Encoding Initiative (TEI), zu gigantischem Ausmaß entwickelt, so dass der eigentliche Text teilweise schwer darin zu entdecken ist. Dies ist nicht nur ein Problem der menschlichen Nervenstärke. Auch Programme bekommen damit Probleme. Nicht so sehr im normalen Umgang. Da kommen sie mit komplexen Strukturen besser zurecht als der Mensch. Wohl aber, wenn sich die Strukturen ändern und die Programme entsprechend angepasst werden müssen. Und die Strukturen werden sich ändern! In einem Aufsatz in der Zeitschrift KI 4/09 beklagen Sahle und Schaßan, dass die TEI im Wesentlichen nur linguistische und literaturwissenschaftliche Interessen berücksichtige und nicht z. B. historische. Die Klage ist berechtigt, aber ihre Erhörung führt zu noch wesentlich komplexerem Markup. Die Illusion der einen sachlichen Auszeichnung ist dahin, und die Autoren fragen selbst, ob neue Lösungen gefunden werden müssen, sei es unterschiedliche Auszeichnungen für die verschiedenen Interessen oder die Einführung von Stand-off-Markup, wo die Auszeichnung vom Text getrennt wird. Eben diese Frage möchte ich nachdrücklich unterstützen und ergänzend auf ein wenig bemerktes Problem hinweisen. Im Rahmen von XML erfolgt die Referenz auf einzelne Elemente über XPath- bzw. XPointer-Ausdrücke, d.h. solche wo die Position der Elemente in der Hierarchie der XML-Auszeichung des Dokuments benutzt wird. Mit jedem neuen XML-Auszeichnungselement in einem Dokument wird diese Basis aber verändert. Ich sehe noch keinen Vorschlag, wie diese Komplexität beherrscht werden soll.

Kommentar verfassen