Fachportal für Technische Dokumentation

Word und XML – Ein Textverarbeitungsprogramm spricht eine neue Sprache

XML und MS Word – jahr(zehnt)elang markierten diese beiden Begriffe entgegengesetzte Positionen in der Diskussion um die günstigste und zukunftsträchtigste Art der Datenaufbereitung in der Technischen Dokumentation. All die hitzigen Diskussionen, all die Aufzählungen von Argumenten und Gegenargumenten – das soll nun vorbei sein? Im Prinzip ja – aber nur mit MS Word 2003 Professional, denn diese Version verfügt über die Fähigkeit, externe XML-Strukturen einzubinden.
Zuerst einmal: Alles, was MS Word 2003 an XML produziert und an XML-Input braucht bzw. benutzt, ist konform zu den entsprechenden XML-Kernstandards des W3C (World Wide Web Consortium), das die einheitliche Entwicklung und Standardisierung aller technischen Regelwerke des Internets zur Aufgabe hat.

Zwar ist ein Word-Dokument nach wie vor ein Word-Dokument - so wie wir es seit Jahr(zehnt)en kennen, aber dieses Word-Dokument kann nun außerdem seine Inhalte und seine interne Struktur als XML-Datei ablegen. Diese interne XML-Struktur wird WordML genannt. Sie beinhaltet die Abbildung aller Inhalte, Gestaltungen und Funktionen von Word-Dokumenten in Word-spezifischem XML. (Entsprechende interne XML-Formate gibt es auch für Excel und Access 2003.)

Zusätzlich zu WordML können in Word 2003 weitere - und zwar beliebige - XML-Anwendungen benutzt werden. Als solche benutzerdefinierten Strukturen sind auch die in der Technischen Dokumentation vorkommenden XML-Anwendungen DocBook (www.docbook.org) und DITA
(www-128.ibm.com/developerworks/xml/library/x-dita1/) anzusehen. Aber es kann auch jegliche selbst entwickelte Struktur eingebunden werden. Dementsprechend gibt es zwei XML-Speicherformate: nämlich WordML (= XML) und benutzerdefiniertes XML (= nur Daten). Aber auch das übliche DOC-Format wurde erweitert: Es kann die XML-Struktur in seinem Dateiformat abspeichern (eingebettet in die Absatzmarken).

Von Word zu WordML

Spielt man mit dem Gedanken, seinen gesamten Datenbestand in XML umzusetzen, kann die Frage nach dem Konvertierungsaufwand entscheidend sein. Vor allem, wenn sehr viele ältere (Word-) Dokumente vorhanden sind. Gerade dann ist Word 2003 ideal: ein Word-Dokument öffnen - egal mit welcher Version es erstellt wurde - und im Dateiformat XML speichern (Befehl: Datei/Speichern unter). Fertig ist die WordML-Datei, die mit jedem anderen XML-Editor geöffnet und bearbeitet sowie mit XML-Mitteln weiterverarbeitet werden kann. Allerdings ist WordML eine sehr flache Struktur, die sich deutlich von den üblichen Strukturen (z. B. bei DocBook) unterscheidet, sodass eine direkte Nutzung dieser Struktur nicht empfehlenswert ist. Allerdings werden beim Speichern in WordML die Namen der verwendeten Absatzformate als Attribute mitgegeben (siehe folgende Abbildung), sodass diese Formatvorlagen im WordML-Datenstrom gut zu identifizieren sind.


Abb. 1: Überschrift in WordML mit Tag-Darstellung

Zwar ist das WordML-Format auf den ersten Blick unübersichtlich und flach, aber man kann auf Grund der Aufwärtskompatibilität der verschiedenen Word-Versionen jedes ältere Word-Dokument ganz rasch und ohne Aufwand in dieses Format umsetzen. Da WordML für Skripte und Routinen gut greifbar ist, wird es zum Schnittstellenformat für die Weiterverarbeitung von älteren Word-Dokumenten - und damit zum Retter von größeren Datenbeständen, die auf eine neue Plattform gebracht werden sollen.

Benutzerdefiniertes XML

Jedes XML-Dokument lässt sich in Word öffnen - und zwar nicht nur als reine Textdatei wie in früheren Word-Versionen, sondern als XML-Datei mit grafisch dargestellten Tags. Es wird also automatisch zwischen textlichem Inhalt und Mark-up unterschieden. Damit kann MS Word 2003 jederzeit als XML-Editor eingesetzt werden.

Soll die XML-Struktur in Word 2003 bearbeitet werden, z. B. durch das Einfügen neuer Elemente, dann wird ein XML-Schema (W3C-Schema) benötigt, das die Elemente und Attribute bereitstellt und während der Eingabe die Validierung übernimmt. Zwar wird in der Technischen Dokumentation in der Regel mit Dokumenttyp-Definitionen (DTDs) gearbeitet, aber für DocBook und DITA gibt es vorbereitete XML-Schemas zum Download. Im Übrigen gibt es diverse Tools, die DTDs in XML-Schemas umsetzen und umgekehrt, Word selbst tut dies allerdings nicht. Die verschiedenen Schemas werden in einer Schema-Bibliothek Office-weit verwaltet. Dem Dokument wird das XML-Schema über den Befehl Extras/Vorlagen und Add-Ins bekannt gemacht (siehe folgende Abbildung). Parallel zum fest implementierten WordML kann also ein XML-Dokument in Word 2003 z. B. auch der DocBook-Struktur entsprechen. Das ist die eigentliche Leistung, die Microsoft vollbracht hat, und deren Bedeutung bislang - wohl auch von Microsoft selbst - noch bei weitem unterschätzt wird.


Abb. 2: Rilke-Gedicht mit Tags in Word


Abb. 3: Zuweisen von XML-Schemas in Word

Ausblick

So weit, so gut - aber wie geht es weiter? MS Office 12 wird Anfang 2006 erscheinen, die ersten Betaversionen sollen bereits im Herbst 2005 zur Verfügung stehen. Bei Microsoft wird wohl noch heftig daran gearbeitet, die internen XML-Strukturen auch als Dateiformat (im Zip-Container) zu nutzen. Darüber hinaus sollen die elend langen Style- und Property-Definitionen, die bislang noch das Auffinden der eigentlichen Information in WordML-Dateien erschweren, ausgelagert werden, und alle OLE-Elemente, die noch als binäre Objekte den XML-Datenstrom bevölkern, als externe Dateien XML-üblich eingebunden werden. Als besonderes Schmankerl ist angekündigt, dass ältere Office-Versionen nachträglich mit Dateikonvertern aufgerüstet werden können, damit auch diese in den Genuss der neuen XML-Formate kommen.

Die Integration von XML in MS Word bzw. MS Office wird also mit großer Energie vorangetrieben. Es ist und bleibt spannend. Nichtsdestotrotz ist die bereits verfügbare XML-Funktionalität von MS Word 2003 in den gängigen Arbeitsumgebungen sinnvoll und kostensparend einsetzbar, auch wenn manch kantige Eigenschaft noch geglättet werden muss.

Willi Breitwieser, Entwickler für MS-Office-Anwendungen im XML-Umfeld, willi@breitwieser.net
Ursula Welsch, Fachberaterin und Trainerin für die Anwendung von XML, ursula.welsch@welschmedien.de


21.12.05
Willi Breitwieser - Entwickler für MS-Office-Anwendungen im XML-Umfeld
Weitere Artikel von Willi Breitwieser

Ursula Welsch - Fachberaterin und Trainerin für die Anwendung von XML, Inhaberin von Ursula Welsch Neue Medien
Weitere Artikel von Ursula Welsch

Mit dem Artikel verknüpfte Schlagwörter:
Word XML

HTML Druckversion

Suche



Themenbereich:

Werbung

Nicht verpassen
Gezielt informieren mit Author-it Aspect und Assist

Erfolgreiche Bildbearbeitung mit Gimp

Das bietet Open-Source-Software

DITA – Konzepte und Anwendungen: Tools für jeden Bedarf

DITA: ein neuer Standard mit Zukunft

Successful DITA Implementation with FrameMaker

Wissensaustausch mit Wikis: Einfach loslegen

Agil und eXtrem - die Zukunft der Technischen Dokumentation

Startseite | Impressum | Kontakt

[XML-RSS]

Doku.Info ist ein Service von Comet Computer GmbH - Die Profis für Technische Dokumentation