Jörn Erbguth *SGML zur Erfassung und Dokumentation juristischer DokumenteJurPC Web-Dok. 40/1998, Abs. 1 - 21 |
Einleitung |
Bereits 1986 wurde die Standard Generalized Markup Language (SGML) als ISO-Standard (ISO 8879) normiert. In den ersten Jahren diente SGML nur zur Dokumentstrukturierung in Nischenbereichen (z.B. Luftfahrtindustrie und amerikanisches Militär). Mit dem World-Wide-Web (WWW) fand die HyperText Markup Language (HTML) große Verbreitung. HTML kann als eine Anwendung von SGML betrachtet werden. In den letzten zwei Jahren wurde aus SGML die eXtended Markup Language abgeleitet, die SGML in größerem Umfang ins WWW bringen soll. XML wird dabei u.a. auch von Microsoft und Netscape unterstützt. | JurPC Web-Dok. 40/1998, Abs. 1 |
Seit einigen Jahren setzt sich SGML auch im Bereich des elektronischen Publizierens juristischer Verlage durch (C.H.Beck, Recht und Praxis, Boorberg, NOMOS, etc.). | Abs. 2 |
Strukturierte Dokumente |
Die meisten Dokumente enthalten neben der eigentlichen Textinformation auch Metainformation über die einzelnen Textbestandteile. In der Regel wird diese Metainformation durch das Layout dargestellt. So sind Überschriften, Zitate, Fußnoten etc. jeweils in anderen Schriftarten dargestellt und stehen an anderen Positionen im Dokument. Die Metainformation dient beim gedruckten Dokument zur Orientierung und zur gezielten Selektierung von Textabschnitten vor dem Lesen. Sie ermöglichen es z.B. beim ersten Betrachten eines Dokumentes unwillkürlich etwa die Überschrift und nicht die Fußnoten zu lesen. | Abs. 3 |
In strukturierten Dokumenten kann diese Information explizit gemacht werden. Statt einer bestimmten Formatierung oder Plazierung werden Textbestandteile direkt mit der Metainformation "Überschrift", "Zitat", "Fußnote" etc. gekennzeichnet. Durch die explizite Dokumentstrukturierung wird von der Strukturinformation im Layout (z.B. Times Roman, 14 pt, fett) auf eine funktionale Ebene (z.B. Überschrift) abstrahiert. | Abs. 4 |
Wozu explizite Dokumentstrukturierung? |
Durch die Strukturierung mit der Funktion der jeweiligen Textabschnitte wird eine hohe Dokumentportabilität erreicht. Bereits unter Microsoft Winword kann dies bei der Verwendung von Dokumentvorlagen beobachtet werden. Dabei werden für die einzelnen Absatzarten (wie Überschrift, Zitat etc.) Absatzformate definiert, die das Layout aller entsprechend gekennzeichneten Absätze festlegen. Um das Dokument z.B. an andere Drucker oder Verwendungszwecke anzupassen, genügt es, die Absatzdefinitionen zu ändern. Dadurch wird die Formatierung der entsprechend markierten Absätze geändert, ohne manuell an jedem Absatz entsprechende Formatänderungen vornehmen zu müssen. | Abs. 5 |
Mit dem elektronischen Publizieren ist der unmittelbare (Aus-)Druck eines Dokumentes nur noch ein Verwendungszweck unter vielen geworden. Hinzugekommen sind die direkte elektronische Verwertung (Online oder via CD-ROM) sowie die Dokumentwiederverwendung. Ist die Struktur explizit markiert, so kann die Darstellung, die Übernahme von Textbestandteilen in Inhaltsverzeichnisse, die Suche in den Dokumenten etc. automatisch an die Dokumentstruktur angepaßt werden. Durch die Metainformation wird die in den Dokumenten enthaltene Information elektronisch handhabbar. | Abs. 6 |
SGML als Sprache zur Definition von Dokumentformaten |
Die gekennzeichneten Textbestandteile können nur dann automatisch weiterverarbeitet werden, wenn deren Kennzeichnung einheitlich ist. Alle Textbestandteile müssen daher eine eindeutige Bezeichnung erhalten. Zudem muß festgelegt werden, an welcher Stelle im Dokument welcher Textbestandteil zulässig ist. So wird ein Dokument z.B. mit einer Überschrift und nicht mit einem Zitat oder einer Fußnote beginnen müssen. | Abs. 7 |
SGML ist ein Metasprache, mit der sich Dokumentformate für strukturierte Dokumente definieren lassen. Mit SGML wird definiert, welche Textbestandteile (unter SGML: Elemente) im Dokument an welcher Stelle zulässig sind. Zu jedem SGML-Dokument gibt es eine Dokument Typ Definition (DTD), in der die äußere Struktur der Dokumente festgelegt wird. Mit einem SGML-Parser, der in die meisten SGML-Werkzeuge eingebaut ist, läßt sich automatisch prüfen, ob ein Dokument formal korrekt ist. | Abs. 8 |
Ablage zusätzlicher Informationen in SGML-Dokumenten |
Die Elemente in SGML-Dokumenten können nicht nur Text, sondern auch zusätzliche Informationen in Attributen enthalten. Dadurch läßt sich z.B. die Sprache oder eine besondere Formatierung eines Textabschnittes, das Ziel von Hyperlinks oder die Quelle eines Zitates festhalten. Die Attribute werden ebenso wie die Elemente in der Dokument Typ Definition (DTD) festgelegt | Abs. 9 |
Schachtelung von SGML-Elementen |
Mit SGML ist es möglich die hierarchische Struktur von Dokumenten wiederzugeben. Denn mit SGML lassen sich - im Gegensatz zu Absatzformaten unter Winword - SGML-Elemente ineinander verschachteln. Im Gegensatz zur jetzigen Struktur von juris Dokumenten, bei denen Textabschnitte nicht weiter untergliedert werden können, gliedern SGML-Elemente Text in beliebiger Tiefe. Paragraphen-, Absatz-, Satz- und Listenstrukturen werden dadurch darstellbar. Formatierungen und Hyperlink können direkt in den Text eingestellt werden. So kann z.B. eine Fußnote in einer Überschrift angelegt werden, die ihrerseits ein Zitat mit einem Hyperlink enthält. | Abs. 10 |
Abgrenzung zu (relationalen) Datenbanken |
SGML hat mit Datenbanken die formale Definition der Dokumenttypen gemeinsam. Ähnlich wie im Datenbankschema wird in der SGML-DTD genau definiert, wo welche Elemente zulässig sind. Dadurch wird die strukturelle Integrität von SGML-Dokumenten garantiert. Spezielle SGML-Datenhaltungssysteme ermöglichen die Suche nach einzelnen Elementen innerhalb eines Dokumentenbestandes. Eine Sammlung von SGML-strukturierten Texten erhält damit einen wesentlichen Teil der Funktionalität einer Datenbank. | Abs. 11 |
Eine Datenbank kann mit Tabellen verglichen werden. Jeder Datensatz entspricht dabei einer Tabellenzeile. Alle Einträge in einer Tabellenzeile stehen nebeneinander und geben keine Struktur wieder.(1) Mit ihnen ist die verschachtelte Struktur von Dokumenten nur unzureichend darstellbar. | Abs. 12 |
Eine Folge bei juris ist z.B. die Notwendigkeit, dokumentarische Informationen in separate Bereiche außerhalb des Textes stellen zu müssen. So werden die im Text enthaltenen Verweise in einem eigenen Abschnitt nochmals manuell in formalisierter Schreibweise aufgeführt. Für die Generierung von Hyperlinks müssen die Verweise im Abschnitt Zitierungen wieder mit den entsprechenden Textstellen in Verbindung gebracht werden. Dies ist aufwendig und nicht ohne Fehler möglich. Mit SGML dagegen können die Hyperlinks im Text bereits bei der Dokumentation markiert und mit der formalen Schreibweise hinterlegt werden. | Abs. 13 |
SGML-Werkzeuge |
Zur Unterstützung der Erstellung von SGML-Dokumenten und SGML-Dokumenttypdefinitionen gibt es spezielle Software. Dazu gehören graphische DTD-Designer, SGML-Editoren und SGML-Konvertierer: | Abs. 14 |
DTD-Designer |
Mit ihm wird die Struktur der Dokumente eines Dokumenttyps festgelegt. Da die Struktur hierarchisch, d.h. baumartig aufgebaut ist, bietet sich eine entsprechende graphische Darstellung zur leichten Visualisierung an. Das Beispiel in der Abbildung 2 ist mit dem Near & Far Designer von Microstar erstellt worden. | Abs. 15 |
SGML-Editor |
Ein SGML-Editor ermöglicht neue SGML-Dokumente anzulegen und bestehende zu ändern. Während aller Eingaben kann dabei geprüft werden, ob die vorgegebene Dokumentstruktur eingehalten wird. SGML-Editoren können Dokumente an Hand ihrer Strukturierung formatiert darstellen. | Abs. 16 |
Je nach Bedarf können dabei die SGML-Markierungen mit dargestellt oder unterdrückt werden. Zusätzlich zum vorhandenen Text kann weiterer Text generiert werden, der die SGML-Elemente entsprechend kennzeichnet. | Abs. 17 |
Die beiden am weitesten verbreiteten SGML-Editoren sind der Adept-Editor von Arbortext und der AuthorEditor von SoftQuad. Daneben gibt es noch einige Textverarbeitungs- und DTP-Programme, die SGML zumindest teilweise unterstützen. | Abs. 18 |
SGML-Konvertierungsprogramme |
Aus inhaltlich strukturierten SGML-Dokumenten kann fast jedes beliebige Ausgabeformat automatisch generiert werden. Für diese "down-translation" gibt es Konvertierungsprogramme, wie z.B. Balise (AIS) oder Omnimark, die speziell diese Umsetzung unterstützen. | Abs. 19 |
Der anspruchsvollere Teil, ist der Weg hin zu SGML, die "up-translation". Dieser kann nur teilweise automatisch erfolgen, da aus Formatierungen (z.B. in der Textverarbeitung oder im Drucksatz) nur bedingt auf die inhaltliche Struktur geschlossen werden kann. Die oben genannten Programme unterstützen auch diese Konvertierung. | Abs. 20 |
Fazit |
· SGML vereinigt Vorteile von Datenbanken und
Textverarbeitung · SGML ermöglicht die Strukturierung der Dokumente unabhängig vom Ausgabemedium · SGML-Dokumente können automatisch entsprechend dem Ausgabemedium formatiert werden - damit können Druck, CD-ROM und Online-Publikationen aus einer Datenquelle erstellt werden · Mit SGML lassen sich Hyperlinks direkt im Text des Dokumentes ablegen · Graphiken, Abbildungen und Tabellen können in die Dokumente integriert werden · SGML garantiert fehlerfreie Strukturierung der Dokumente und erhöht dadurch die Dokumentqualität · SGML ist ISO-normiert und daher herstellerunabhängig | JurPC Web-Dok. 40/1998, Abs. 21 |
Fußnote:(1) Das relationale Modell ist so mächtig, daß mit Hilfe einer speziellen Umsetzungsschicht auch beliebige SGML-Dokumente dort strukturiert abgelegt werden können. Eine solche Schicht, wie sie z.B. von eidon mit SGMLbase realisiert wird, speichert dabei jedoch SGML-Elemente und nicht SGML-Dokumente in den einzelnen Datensätzen ab. |
* Jörn Erbguth, Diplom-Informatiker und Jurist (1. Staatsexamen), ist Mitarbeiter im Bereich Produktentwicklung/Dokumentation bei der juris GmbH in Saarbrücken. Seine email-Adresse lautet: erbguth@juris.de |
[01.04.98] |
Zitiervorschlag: Autor, Titel, JurPC Web-Dok., Abs. |
Zitiervorschlag: Erbguth, Jörn, SGML zur Erfassung und Dokumentation juristischer Dokumente - JurPC-Web-Dok. 0040/1998 |