Jochen Notholt *Das Semantic Web: Schritte auf dem Weg zum juristischen EinsatzJurPC Web-Dok. 57/2005, Abs. 1 - 42 |
I n h a l t s ü b e r s i c h t |
A. | Einführung |
B. | Vorgehensweise |
C. | Juristische Veröffentlichungen in HTML und XML |
I. | Der Standard: HTML und dynamische Erzeugung |
II. | Vor- und Nachteile der reinen HTML-Veröffentlichung |
III. | Die Alternative: Datenhaltung und Veröffentlichung in XML |
1. | Verbindung von Inhalt und Layout |
2. | Transformation und maschinelle Verarbeitung |
3. | Schematisierung |
4. | XML in der juristischen Praxis |
5. | Bedeutung von Metadaten in HTML und XML |
6. | Über XML zum Semantic Web |
7. | Zusammenfassung |
A. Einführung |
Während viele deutsche Juristen dem praktischen Einsatz des World Wide Web (WWW) in der täglichen Arbeit noch mit Zurückhaltung begegnen, schreitet die technische Entwicklung im Online-Bereich bereits weiter voran. Der "Erfinder" des WWW, Tim Berners-Lee[1], sieht die Zukunft des Datennetzes schon seit einigen Jahren[2] in einer Erweiterung, die er als semantisches Web bzw. (im Folgenden so genannt:) Semantic Web bezeichnet. | JurPC Web-Dok. 57/2005, Abs. 1 |
Wer als interessierter Laie die ersten Texte über das Semantic Web liest, wird von seinen Möglichkeiten spontan beeindruckt sein: Es verspricht im Ergebnis neben erfolgreicheren Online-Recherchen die Automatisierung zahlreicher Informations- und Kommunikationsprozesse. Intelligente Agenten- Software soll uns helfen, uns im Informationsdschungel des WWW zurechtzufinden. Doch der Weg hin zu diesen futuristisch anmutenden Szenarien ist leider (noch) weit. Das Semantic Web befindet sich erst im Anfangsstadium, praktisch einsetzbare Ergebnisse und Produkte sind noch rar gesät - und eine Garantie für einen Boom der neuen Technologien gibt es auch nicht. | Abs. 2 |
Warum sollten sich nun gerade wir Juristen mit einer Idee beschäftigen, deren Umsetzung nicht nur schwierig, sondern deren zukünftiger Erfolg zudem ungewiss ist? | Abs. 3 |
Die Antwort lässt sich kurz zusammenfassen: Weil der Weg zum Semantic Web zugleich das Ziel ist. Wer als Jurist das WWW aktiv zur Informationsverarbeitung einsetzt, macht sich um die Speicherung und Strukturierung seiner Daten in der Regel eher wenige Gedanken. Die Datenstandards, die die Grundlagen des Semantic Web bilden, dienen vor allem der flexiblen und sinnvollen Datenhaltung und -strukturierung. Juristen können durch das Verständnis und die Umsetzung dieser Standards Schritt für Schritt ihre Informationsverarbeitung verbessern und schließlich selbst quasi ein Teil des Semantic Web werden. Sie werden sich dann nicht nur besser im Web zurechtfinden, sondern im Semantic Web auch besser zum Recht finden. Dieser Artikel zeigt, welche Denk- und Entwicklungsschritte hierzu notwendig sind, welche Anwendungsmöglichkeiten das Semantic Web insgesamt und gerade für Juristen bietet, und wie jedermann einen Beitrag zum Erfolg der neuen Technologie leisten kann. | Abs. 4 |
B. Vorgehensweise |
"Schritt für Schritt" soll das Semantic Web im juristischen Einsatz hier also erschlossen werden. Doch welche Schritte muss der Jurist auf diesem Weg gehen? | Abs. 5 |
Das elektronische Publizieren juristischer Dokumente, wie z.B. Normenwerke, Gerichtsentscheidungen und Literatur, wird seit der Etablierung des WWW durch die Darstellung der Dokumente im HTML[3]-Format geprägt. Die Speicherung größerer Datenmengen erfolgt zumeist in Datenbanken, aus deren Inhalten die vom Web-Browser darstellbaren HTML-Dateien automatisch erzeugt werden. Dieses Verfahren hat sich in der Praxis vorerst durchgesetzt, weil es einfaches und kostengünstiges Publizieren ermöglicht. Doch bietet es gleichzeitig entscheidende Nachteile: Zwar können die HTML-Dateien von Menschen abgerufen, gelesen und verstanden werden, für die automatisierte Verarbeitung sind sie jedoch regelmäßig nicht ausgelegt. Gerade diese Verarbeitung der Informationen des WWW durch Maschinen[4] wird in der Zukunft eine entscheidende Rolle spielen, da die exponentiell steigende Datenfülle des WWW ohne "intelligente" maschinelle Unterstützung von uns Menschen bereits jetzt kaum mehr zu bewältigen ist. Der Aspekt des "Web der Maschinen" bildet daher auch den Kern der Idee Berners-Lees vom Semantic Web.[5] | Abs. 6 |
Ein erster Schritt auf dem Weg zur Verwirklichung dieser Idee, wenn auch nicht die unbedingte Voraussetzung hierzu, ist die Umstellung der Datenhaltung und -speicherung auf das XML[6]-Format; wichtig ist zumindest die Berücksichtigung und das Verständnis dieses Dokumenten- bzw. Datenstandards. Neben erheblichen Vorteilen in der automatisierten Weiterverarbeitung von XML-Daten vereinfachen diese durch die konsequente Trennung von Inhalt und Darstellung insbesondere das Hinzufügen (sog. Annotation) von Metadaten. Metadaten, also Daten, die (andere) Daten beschreiben, sind letzten Endes erforderlich, um aus Informationen Schlüsse über ihren Bedeutungsgehalt ziehen zu können (um das Web also "semantisch" zu machen). Der erste Teil dieses Artikels beschreibt, welche Vorteile XML gegenüber HTML bietet, weshalb jedoch die hohen Ansprüche des Semantic Web an Metadaten von "reinem" XML nicht erfüllt werden können. | Abs. 7 |
Das WWW in seiner gegenwärtigen Form ist im Prinzip nichts anderes als eine bloße (wenn auch beeindruckend große) Sammlung mittels Hyperlinks verknüpfter HTML-Dokumente. Hieran ändert auch XML zunächst nichts. Das Ziel des Semantic Web besteht im Prinzip darin, aus dieser Dokumentsammlung eine globale, dezentrale und hoch strukturierte Datenbank zu machen. Zur Umsetzung dieser Vorstellung wurden die Metadaten-Sprache RDF[7] sowie Ontologie-Sprachen wie OWL[8] entwickelt, die zum Teil auf XML basieren. Teil 2 der Artikelreihe zeigt die Grundprinzipien dieser Sprachen sowie die Unterschiede zu den in Teil 1 vorgestellten "einfachen" XML-Dokumenten. | Abs. 8 |
Die Veröffentlichung von Informationen mittels der Semantic-Web-Standards wie RDF und OWL führt letztlich dazu, dass im Web gespeicherte Daten sinnvoll maschinell weiter verarbeitet werden können. So wird die oben angesprochene "intelligente" maschinelle Unterstützung durch Maschinen möglich: Suchmaschinen sind bei der Indizierung von Daten nicht mehr wie bisher auf den reinen Dokumententext angewiesen, sondern können zusätzlich den Bedeutungsgehalt dieser Texte verarbeiten. So können mittels RDF und OWL annotierte Dokumente zum einen leichter durchsucht werden. Zum anderen können Programme, sog. Folgerungs- bzw. Inferenzmaschinen (inference engines) aus vorhandenen Daten mittels logischer Folgerungen neue Daten erzeugen. Diese Möglichkeiten, und welche Chancen sich aus ihnen für den juristischen Einsatz bieten, werden im dritten Teil behandelt. | Abs. 9 |
Die Aufsatzreihe versteht sich als theoretische Einführung mit praktischen Beispielen. Sie soll dazu motivieren, eigene Experimente mit juristischen Online-Daten und -Metadaten vorzunehmen. Wer hierzu nach der Lektüre tatsächlich motiviert ist, wird ein Bedürfnis nach weiteren Informationen sowie nach Entwickler- und Anwender-Tools für das Semantic Web haben. Zu diesem Zweck hat der Autor eine begleitende Seite im Jurawiki eingerichtet: http://jurawiki.de/SemanticWeb. Hier wird die folgende Arbeit durch praktische Hinweise zum gegenwärtigen Stand der Forschung und zur Online-Literatur, Links zu Entwicklungswerkzeugen und ersten realisierten Anwendungen ergänzt. Auf dieser Seite können nach dem Wiki-Prinzip auch eigene Anmerkungen zugefügt und Fragen gestellt werden. Sie wird zudem laufend aktualisiert. | Abs. 10 |
C. Juristische Veröffentlichungen in HTML und XML |
Das Semantic Web ist keine "abgehobene" Technologie, sondern bloß eine Reihe technischer Standards, die schon für sich betrachtet und im vergleichsweise kleinen Rahmen die Verarbeitung von Online-Informationen auch für Juristen erleichtern können. Um dies zu verdeutlichen, wird der Weg zum Semantic Web im Folgenden zunächst anhand eines konkreten Anwendungsbeispiels beschritten: der Anwaltshomepage. | Abs. 11 |
Viele Rechtsanwälte sind bereits heute mit einer Kanzlei-Homepage im WWW vertreten. Besonders erfreulich ist die zunehmende Zahl solcher Anwälte, die sich hier nicht auf eine elektronische Kanzleibroschüre beschränken, sondern ihre Homepage zusätzlich durch juristische Fachinformationen aufwerten.[9] Hierdurch zeigen sie ihren Kollegen und (potenziellen) Mandanten, dass sie nicht nur in fachlicher, sondern auch in technischer Hinsicht auf dem Laufenden und außerdem dazu bereit sind, ihr eigenes Wissen auch an Andere weiterzugeben. | Abs. 12 |
Als Beispiel dient uns (der fiktive) Rechtsanwalt Michael Meier aus Berlin. Er ist Fachanwalt für Strafrecht und nutzt seine anwaltliche Homepage (die er selbstredend unter Berücksichtigung der berufsrechtlichen Beschränkungen erstellt hat[10]), um in einer gesonderten Rubrik über die aktuelle Rechtsprechung auf diesem Rechtsgebiet zu informieren. | Abs. 13 |
1. Der Standard: HTML und dynamische Erzeugung |
Meiers Hauptziel besteht also zunächst darin, dass die Nutzer über seine Homepage mit ihrem Web-Browser die entsprechenden Entscheidungstexte abrufen können. Hierzu müssen die angebotenen Dokumente in einem Dateiformat auf einem Web-Server zum Abruf bereitgehalten werden, in dem sie ein Web-Browser erkennen und im gewünschten Layout darstellen kann. Dieses Dateiformat heißt HTML (Abk. für HyperText Markup Language). Das folgende Beispiel zeigt beispielhaft, wie ein aktuelles Urteil des Bundesverfassungsgerichts zur Annahme von Strafverteidigerhonorar als Geldwäsche i.S.v. § 261 StGB[11] in einer HTML-Datei codiert sein könnte: | Abs. 14 |
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"> <html> <head> <title>RA Meier informiert: Urteil des BVerfG v. 30.03.2004 - 2 BvR 1520/01 - 2 BvR 1521/01 - Annahme von Strafverteidigerhonorar als Geldwäsche</title> </head> <!-- KOMMENTAR (erscheint nicht im Browser): Ab hier beginnt der eigentliche Inhalt des Dokuments. Das Urteil wurde an den mit "..." gekennzeichneten Stellen gekürzt, um Platz zu sparen. Es soll nur die Struktur des Dokuments deutlich werden. --> <body> <b>L e i t s ä t z e</b><br> zum Urteil des Zweiten Senats vom 30. März 2004<br> - 2 BvR 1520/01 -<br> - 2 BvR 1521/01 -<br> <ol> <li> <a href="http://bundesrecht.juris.de/bundesrecht/stgb/__261.html">§ 261 Absatz 2 Nummer 1 des Strafgesetzbuchs</a> ist mit dem Grundgesetz vereinbar, soweit Strafverteidiger nur dann mit Strafe bedroht werden, wenn sie im Zeitpunkt der Annahme ihres Honorars sichere Kenntnis von dessen Herkunft hatten. <li> Strafverfolgungsbehörden und Gerichte sind bei der Anwendung des § 261 Absatz 2 Nummer 1 StGB verpflichtet, auf die besondere Stellung des Strafverteidigers schon ab dem Ermittlungsverfahren angemessen Rücksicht zu nehmen. </ol> <p> <b>Im Namen des Volkes</b><br> In den Verfahren über die Verfassungsbeschwerden ... gegen <ol> <li> das <a href="http://www.lg-frankfurt- main.de/entscheidungen/2003_01_15_5-4_KLs_74-92.html">Urteil des Landgerichts Frankfurt am Main vom 15. Januar 2003</a> - 5/4 KLs 74/92 Js 33628.7/96 (St 1/01) -, <li> das <a href="http://www.bgh.de/entscheidungen/2001_07_04_2_StR_513- 00.html">Urteil des Bundesgerichtshofs vom 4. Juli 2001</a> - 2 StR 513/00 -, <li> das <a href="http://www.lg-frankfurt- main.de/entscheidungen/2000_05_04_5-17_KLs_92.html">Urteil des Landgerichts Frankfurt am Main vom 4. Mai 2000</a> - 5/17 KLs 92 Js 33628.7/96 - </ol> hat das Bundesverfassungsgericht ... <!-- KOMMENTAR: Die Online-Adressen, mit denen die o.g. Urteile über den Tag <a href="..."> ... </a> verknüpft sind, sind fiktiv. Sie dienen nur der Veranschaulichung, wie ein online veröffentlichter Urteilstext durch Verlinkung der zitierten Entscheidungen aufgewertet werden kann. --> <p> <b>Gründe:</b> <p> Die Beschwerdeführer sind Rechtsanwälte. Sie wenden sich gegen ihre strafgerichtliche Verurteilung wegen Geldwäsche durch Annahme eines Strafverteidigerhonorars und wegen Begünstigung in Tateinheit mit Geldwäsche im Zusammenhang mit der Entgegennahme freigegebener Sicherheitsleistungen. <p> ... <b>I.</b><br> ... <b>II.</b><br> ... </body> </html> Link auf die obige HTML-Datei | Abs. 15 |
Da der Entwurf einer solchen Datei mit Hilfe eines einfachen Texteditors zwar theoretisch möglich, jedoch reichlich unkomfortabel ist, greifen HTML- Autoren in der Regel auf spezielle HTML-Entwicklungswerkzeuge (wie z.B. Macromedia Dreamweaver, Microsoft Frontpage[12]) zurück. Sie ermöglichen den Entwurf von Web-Inhalten ähnlich wie in einer Textverarbeitung oder - bei anspruchsvolleren Layouts - wie in einem Zeichenprogramm. Je anspruchsvoller das Layout, desto größer ist jedoch auch die Gefahr, dass der eigentliche Dokumenteninhalt in einer zu komplexen HTML-Struktur "untergeht". Schwerer wiegt jedoch, dass jede einzelne HTML-Seite unabhängig von der Art des Editors einzeln gespeichert und bei grundlegenden Änderungen am Layout separat nachbearbeitet werden muss. | Abs. 16 |
Je mehr Urteile der Anwalt auf seiner Website anbietet - und jeder Jurist weiß schließlich, dass es nie nur wenige wichtige Urteile gibt - desto größer wird sein Bedürfnis, nicht für jedes Urteil eine neue HTML-Seite anlegen, ggf. mit anderen Urteilen "verlinken" und abspeichern zu müssen. Um insoweit die wichtigsten Arbeitsabläufe zu automatisieren, bietet sich der Einsatz eines Content-Management-Systems (CMS) an. Dieses funktioniert, grob gesagt, nach folgendem Prinzip: Die Inhalte einer Webseite, also z.B. die Urteilstexte des RA Meier, sind nicht in einzelnen HTML-Dateien gespeichert, sondern als reine Texte oder HTML-Fragmente in einer relationalen Datenbank[13]. Für das Layout der einzelnen Seiten (das ja i.d.R. für jedes Einzeldokument gleich ist) wird eine Vorlage, ein sog. Template, angelegt. Das kann je nach CMS auch unterstützt durch eine graphische Oberfläche, also relativ komfortabel, geschehen. Zudem verwaltet das CMS die Benutzerführung, also die Menüs auf den Webseiten, die Verlinkung der einzelnen Seiten etc. Aus diesen Informationen stellt das CMS schließlich automatisch die gesammelten HTML-Seiten der anwaltlichen Web-Präsenz zusammen. | Abs. 17 |
2. Vor- und Nachteile der reinen HTML-Veröffentlichung |
Wer Daten im WWW veröffentlichen möchte, hat in den meisten Fällen wenig Anlass, darüber nachzudenken, was mit seinen Daten (z.B. den Urteilstexten des RA Meier) über das primäre Ziel der Online-Veröffentlichung hinaus geschehen könnte oder sollte. HTML ist der direkte, einfachste und daher auch zunächst der einleuchtendste Weg, dieses Ziel zu erreichen. Man codiert die Daten unmittelbar so, wie sie im Web-Browser des Nutzers dargestellt werden sollen. | Abs. 18 |
Betrachtet man HTML dagegen nicht bloß unter dem Primärziel der Web-Veröffentlichung, fallen schnell Nachteile des Dateiformats ins Auge. Das Format ist nämlich nur auf die (optische) Darstellung von Dokumenten in Web- Browsern ausgelegt, nicht jedoch für andere Zwecke. Es ist also unflexibel, da der Inhalt eines Dokument immer an die begrenzte Zahl HTML-Tags gebunden ist, diese nur das Layout beschreiben und sich Inhalt und Layout daher nicht trennen lassen. Eine gewisse Trennung wird zwar dadurch möglich (und auch häufig praktiziert), dass man Angaben zum Layout einzelner HTML-Tags in einem sog. Cascaded Stylesheet (CSS) zusammenfasst. Mit CSS lassen sich entweder Tags im Allgemeinen mit Layouts verbinden (z.B. dass der Inhalt zwischen den <body>-Tags immer in einer bestimmten Schriftart gedruckt wird), oder bestimmte Tags lassen sich durch unterschiedliche Klassenangaben verschieden darstellen (z.B. kann eine Liste <ol class="Leitsaetze"> anders dargestellt werden als eine Liste <ol class="Beschwerdegegenstaende">) Jedoch sind auch CSS-Beschreibungen in HTML immer an HTML-Tags und damit ihrerseits an Layout-Angaben gebunden. | Abs. 19 |
Ein weiterer Nachteil, der sich aus der fehlenden Flexibilität von HTML ergibt, ist eine geringe Zukunftssicherheit der Daten - was passiert mit den Daten, wenn HTML eines Tages durch andere Web-Standards abgelöst werden sollte? In diesem Fall müssten die vorhandenen HTML-Daten in die Folgeformate umgewandelt werden - ein technisch aufwändiges Unterfangen. Möchte ein Anwalt seine Urteilstexte also nicht nur zur HTML-Darstellung verwenden, sondern auch zu anderen Zwecken, bietet sich die Speicherung in einem anderen, flexibleren Dateiformat an. | Abs. 20 |
3. Die Alternative: Datenhaltung und Veröffentlichung in XML |
Ein solches Dateiformat ist XML. Es wird seit 1997 vom W3 Consortium[14]entwickelt und seitdem in Wissenschaft und in der Praxis immer stärker unterstützt. XML steht für eXtensible Markup Language und ist also, wie HTML auch, eine sog. Markup-Sprache. Das heißt, Informationen werden anhand bestimmter Markierungen, sog. Tags, markiert und somit auch strukturiert. Eine XML-Datei ist daher auch prinzipiell ähnlich strukturiert wie eine HTML-Datei gleichen Inhalts. Als Beispiel dient die Gerichtsentscheidung aus dem oberen Beispiel als (leicht vereinfachte) XML-Datei: | Abs. 21 |
<xml version="1.0"?> <entscheidung typ="Verfassungsbeschwerde"> <leitsaetze> <leitsatz> <verknuepfung_gesetz adresse="http://bundesrecht.juris.de/bundesrecht/stgb/__261.html">§ 261 Absatz 2 Nummer 1 des Strafgesetzbuchs</verknuepfung_gesetz> ist mit dem Grundgesetz vereinbar, soweit Strafverteidiger nur dann mit Strafe bedroht werden, wenn sie im Zeitpunkt der Annahme ihres Honorars sichere Kenntnis von dessen Herkunft hatten. </leitsatz> <leitsatz> Strafverfolgungsbehörden und Gerichte sind bei der Anwendung des § 261 Absatz 2 Nummer 1 StGB verpflichtet, auf die besondere Stellung des Strafverteidigers schon ab dem Ermittlungsverfahren angemessen Rücksicht zu nehmen. </leitsaetze> <tenor> <einleitung>Im Namen des Volkes</einleitung> In den Verfahren über die Verfassungsbeschwerden ... gegen <beschwerdegegenstand> <urteil> das <verknuepfung_urteil adresse="http://www.lg-frankfurt- main.de/entscheidungen/2003_01_15_5-4_KLs_74-92.html">Urteil des Landgerichts Frankfurt am Main vom 15. Januar 2003</verknuepfung_urteil> - 5/4 KLs 74/92 Js 33628.7/96 (St 1/01) -, </urteil> <urteil> das <verknuepfung_urteil adresse="http://www.bgh.de/entscheidungen/2001_07_04_2_StR_513- 00.html">Urteil des Bundesgerichtshofs vom 4. Juli 2001</verknuepfung_urteil> - 2 StR 513/00 -, </urteil> <urteil> das <verknuepfung_urteil adresse="http://www.lg-frankfurt- main.de/entscheidungen/2000_05_04_5-17_KLs_92.html">Urteil des Landgerichts Frankfurt am Main vom 4. Mai 2000</verknuepfung_urteil> - 5/17 KLs 92 Js 33628.7/96 - </urteil> </beschwerdegegenstand> hat das Bundesverfassungsgericht ... <\tenor> <gruende> <grund> Die Beschwerdeführer sind Rechtsanwälte. Sie wenden sich gegen ihre strafgerichtliche Verurteilung wegen Geldwäsche durch Annahme eines Strafverteidigerhonorars und wegen Begünstigung in Tateinheit mit Geldwäsche im Zusammenhang mit der Entgegennahme freigegebener Sicherheitsleistungen. </grund> <grund> ... </grund> </gruende> </entscheidung> Link auf die obige XML-Datei" | Abs. 22 |
Beim ersten Hinsehen fällt auf, dass der Hauptunterschied zwischen XML und HTML darin liegt, dass man die Tags (wie z.B. <leitsatz>...</leitsatz>) in XML selbst definieren kann. XML wird deshalb auch als Metasprache bezeichnet, also als eine Sprache, aus der man andere Sprachen zur Dokumentbeschreibung "bauen" kann. Auf Grund dieser Flexibilität kann man in XML-Dokumenten zum Ausdruck bringen, was der jeweilige Teil des Dokuments ist, welchen Inhalt er also hat, nicht bloß, wie er aussehen soll. Je nachdem, wie man seine XML-Dateien entwirft, müssen diese also keine Angaben über das Erscheinungsbild (Layout), sondern bloß Strukturangaben über den Inhalt eines Dokuments enthalten. Wenn man eine XML-Datei in einem modernen Web-Browser aufrufen möchte (z.B. über den obigen Link), erscheinen diese daher auch ohne jedes Layout, sondern als reiner Text. Im Microsoft Internet Explorer erscheinen sie inklusive der Tags; die von einem Tag-Paar umschlossenen Blöcke lassen sich wie in einem Verzeichnisbaum ein- und ausklappen.[15] | Abs. 23 |
1. Verbindung von Inhalt und Layout |
Damit ist Rechtsanwalt Meier, der die Urteile auf seiner Homepage zukünftig lieber in XML als in HTML entwerfen[16] und speichern möchte, jedoch wenig geholfen. Sein Hauptziel besteht schließlich weiterhin darin, die in XML strukturierten Inhalte in einem ansehnlichen Layout darzustellen, z.B. für die Darstellung im Web-Browser. | Abs. 24 |
Hierzu gibt es zunächst eine relativ einfache Möglichkeit: Wie HTML- lassen sich auch XML-Dateien wie oben beschrieben mit einem sog. Cascaded Style Sheet (CSS) verknüpfen. Mit CSS lassen sich schließlich nicht nur HTML-Tags, sondern auch die frei definierten XML-Tags mit Layout-Angaben verbinden. Die Inhalte der einzelnen Tags werden dann im Browser[17] so dargestellt, wie sie im Stylesheet beschrieben werden. | Abs. 25 |
2. Transformation und maschinelle Verarbeitung |
Es gibt jedoch noch eine weitere Möglichkeit, eine XML-Datei in ein gewünschtes Layout zu bringen: indem man sie in eine HTML-Datei umwandelt. Dieses Verfahren der Transformation ist mit XML möglich, da sich XML- Dateien besonders gut für die maschinelle Verarbeitung eignen. | Abs. 26 |
Warum ist das so? Weil Maschinen (Programme) möglichst klare und eindeutige Regeln brauchen, wie sie mit Daten umzugehen haben. XML hat klare und eindeutige Syntaxregeln, die strenger sind als in HTML. So kann ein Web-Browser eine HTML-Datei zumeist auch dann korrekt anzeigen, wenn z.B. bestimmte Tag-Klammern nicht geschlossen (durch die entsprechende </>- Abschlussklammer) oder bei Attributen Anführungsstriche nicht gesetzt wurden[18]. Eine XML-Datei, die solche Fehler enthält, ist dagegen weder im Web-Browser abrufbar, noch kann sie von einem Programm, dass sie automatisiert verarbeitet (ein sog. Parser), eingelesen werden. Eine XML- Datei muss also syntaktisch fehlerfrei sein, man nennt das auch wohlgeformt (engl.: well-formed). | Abs. 27 |
Wenn XML-Dateien jedoch wohlgeformt sind, fällt es einem Parser leichter, die Dateiinhalte zu verarbeiten. Diese Möglichkeiten der flexiblen Verarbeitung bestehen zum einen eben in der Transformation einer XML-Datei in andere Dateiformate, wie z.B. HTML, XHTML (das ist im Prinzip HTML, das sich an den strengen XML-Syntaxregeln orientiert), PDF, oder beliebige andere Formate. Zum anderen lässt sich ein XML-Dokument auch in ein anderes XML-Dokument mit anderem Dokumenteninhalt transformieren. So ließe sich z.B. aus unserem Beispiels-Urteil ein Dokument erzeugen, das nur die Urteilsleitsätze ohne Tenor und Entscheidungsgründe enthält. Aus mehreren dieser Kurzfassungen ließe sich ein XML- oder HTML-Dokument mit einer Übersicht der aktuellsten Urteile zusammenstellen. Die Standards, welche diese Transformationen ermöglichen, werden unter dem Namen XSL zusammengefasst und heißen u.a. XSLT, XPath und XSL-FO.[19] | Abs. 28 |
3. Schematisierung |
Neben den strengen Syntaxregeln gibt es noch ein weiteres Opfer, das ein Nutzer erbringen muss, um von der großen Flexibilität von XML profitieren zu können. Möchte RA Meier eine große Zahl von Urteilen in XML speichern und diese Dokumente jeweils mit den gleichen Programmen weiter verarbeiten, muss gewährleistet sein, dass der Dokumentbaum, in dem die Elemente einer XML-Datei angeordnet sind, immer die gleiche Struktur hat. Hierzu kann z.B. gehören, dass in dem Block <leitsaetze> nur <leitsatz>-Tags enthalten sind, oder dass gültiger <beschwerdegegenstand> nur ein <gesetz> oder ein <urteil> sein darf. Das Dokument muss also einheitlich strukturiert sein, damit eine einheitliche Verarbeitung einer Vielzahl gleichartiger Dokumente möglich wird. | Abs. 29 |
Die strukturellen Bedingungen für einen Dokumententyp (wie hier: Gerichtsentscheidungen) muss natürlich derjenige festlegen, der sich den Dokumententyp auch ausgedacht hat. Das kann und sollte er tun, indem er ein XML-Schema definiert. Hierfür kommen die Standards DTD (Document Type Definition) und (die modernere Form) XSD (XML Schema Definition) in Betracht.[20] Ein Schema ist also wie eine Art freiwillige Selbstkontrolle für die eigene Dokumentstruktur: Wenn ein XML-Dokument durch einen entsprechenden Zusatz (ähnlich wie der Zusatz, der ein Stylesheet einbindet) im Dokument an ein Schema gebunden wird, kann es nur maschinell verarbeitet werden, wenn es nicht gegen dieses Schema verstößt. Anderenfalls ist das Dokument nicht gültig oder valide (engl.: valid), und der Nutzer erhält vom ausführenden Programm eine Fehlermeldung - ebenso, wie wenn das Dokument nicht wohlgeformt wäre (s.o.). | Abs. 30 |
4. XML in der juristischen Praxis |
Die durch XML ermöglichte flexible Datenspeicherung und Datenhaltung wurde in den letzten Jahren in der EDV-Praxis zunehmend aufgegriffen und verbreitet. Viele Anwendungsprogramme verarbeiten Daten intern in XML, ohne dass der Nutzer hiervon etwas mitbekommt.[21] Verlage, auch juristische Fachverlage[22], nutzen XML zur Speicherung und Verknüpfung ihrer Daten, um diese als On- und Offline-Produkte in verschiedene Formate transformieren und somit flexibel aufbereiten zu können. Unternehmensinterne und -einheitliche XML-Schemata sorgen hier für eine Einheitlichkeit der Datenstrukturen, welche auch den leichten Datenaustausch zwischen verschiedenen Abteilungen des Verlags fördert. | Abs. 31 |
Weiterhin in den Kinderschuhen steckt dagegen der Einsatz von XML auf dem Gebiet des elektronischen Rechtsverkehrs, z.B. zwischen Gerichten, Behörden, Staats- und Rechtsanwälten. Der auf dem 9. EDV-Gerichtstag in Saarbrücken verabschiedete XML-Standard für Gerichtsentscheidungen[23]konnte insofern, vermutlich mangels auf diesem aufbauender Anwendungen, keine Initialzündung liefern - ebenso wenig wie die unabhängige internationale Initiative LexML[24], die sich dem allgemeinen XML-Einsatz in der Rechtswissenschaft verschrieben hat. Viel versprechender ist da schon das Projekt "XJustiz"[25], das XML-Standards als Basis einer einheitlichen Korrespondenz mit deutschen Gerichten zu etablieren versucht. Auch bei der Verbreitung Web-basierter juristischer Expertensysteme könnte die Speicherung von Wissensbasen im XML-Format Vorteile bringen.[26]Allerdings muss sich auch dieses Prinzip erst noch in der Praxis bewähren. | Abs. 32 |
5. Bedeutung von Metadaten in HTML und XML |
In HTML führt die beschriebene Verbindung von Inhalt und Layout dazu, dass die enthaltenen Daten über den eigentlichen Dokumententext hinaus nicht näher beschrieben werden können. So enthalten die Urteils-Leitsätze im obigen HTML-Beispiel über den Leitsatztext hinaus keine Angaben, aus denen hervorgeht, dass es sich überhaupt um Leitsätze einer Gerichtsentscheidung handelt. Die Leitsätze sind genauso in <ol>- bzw. <li>-Tags eingeschlossen wie die drei als Beschwerdegegenstände aufgeführten Urteile. Wir Menschen können mit solchen "dummen" Daten umgehen, weil wir selbst schlau sind und die Bedeutung der Daten, also hier der Leitsätze, verstehen können. | Abs. 33 |
Sobald wir Menschen jedoch auf die Unterstützung von Maschinen angewiesen sind, z.B. bei Suchanfragen im Web, wünschen wir uns, die Maschinen wären genauso schlau wie wir, oder am besten noch schlauer, um uns genau die Informationen liefern zu können, nach denen wir suchen. Das sind sie jedoch regelmäßig nicht; die Fähigkeit von Programmen, "intelligent" zu handeln, also z.B. einer HTML-Datei "anzusehen", ob und wo sie Urteils-Leitsätze enthält, ist nach wie vor stark begrenzt. Wenn nun die Maschinen nicht in der Lage sind, von sich aus "intelligent" zu handeln, kann die Lösung des Problems darin liegen, dass die Daten ihre Bedeutungen selbst als Daten mit sich führen und sie bloß noch den Maschinen mitteilen müssen. Die Daten gleichen damit von sich aus die "Dummheit" der Maschinen wieder aus. Diese Bedeutungen, die die Daten mit sich führen müssen, werden Metadaten genannt. Metadaten sind selbst Daten, nur eben solche mit dem Zweck, andere (Dokument-)Daten näher zu beschreiben. Je mehr Metadaten ein Dokument enthält, desto "schlauer" ist es (jedenfalls im Prinzip - es kommt natürlich auf die Qualität der Metadaten an). HTML unterstützt zwar grundsätzlich die Anreicherung (sog. Annotation) eines Dokuments durch Metadaten, aber nur in einem begrenzten und mittlerweile nur noch wenig praxisrelevanten Umfang.[27] | Abs. 34 |
XML ist dagegen wegen der Trennung von Inhalt und Darstellung im Prinzip völlig offen für die Anreicherung eines Dokuments durch Metadaten. Ein Dokument kann an beliebiger Stelle beliebig viele Informationen enthalten, die nicht zur Darstellung im Browser bestimmt sind, sondern deren einziger Zweck darin liegt, das Dokument selbst oder bestimmte Teile davon näher zu beschreiben. | Abs. 35 |
Alleine die in XML frei definierbaren Tags sind eine Möglichkeit, Metadaten zu formulieren: Dadurch, dass im obigen Beispiel der Tag für einen Leitsatz <leitsatz> heißt und eben nicht <urteil> wie bei der Aufzählung der Beschwerdegegenstände, kann man ihn immerhin von anderen Elementen eines Dokuments unterscheiden. Das wäre im entsprechenden HTML- Dokument so nicht ohne weiteres möglich.[28] | Abs. 36 |
6. Über XML zum Semantic Web |
Die dargestellte Flexibilität von XML kommt gerade in seiner Offenheit für Metadaten zum Tragen - allerdings sind gerade hier die Möglichkeiten nicht unbegrenzt. Am obigen Beispiel des XML-Tags <leitsatz> wird das deutlich: | Abs. 37 |
Der Tag ist zwar geeignet, einen Dokumentinhalt zu kennzeichnen, aber weniger dazu, die Bedeutung der enthaltenen Daten auszudrücken. Welche Bedeutung hat ein <leitsatz> in Bezug auf das <entscheidung> oder die <gruende> der <entscheidung>? In XML lassen sich die Daten eines Dokuments von vornherein nicht sinnvoll miteinander in Beziehung setzen. Zwar kann ein Mensch diese Beziehung zwischen den Elementen erkennen, aber ein Programm ohne die entsprechende "Intelligenz" nicht.[29] In XML bleiben die Hierarchien und sonstigen Beziehungen, die zwischen einzelnen Elementen eines Dokuments und zwischen verschiedenen Dokumenten bestehen, vergleichsweise flach. | Abs. 38 |
Daher eignet sich XML primär zum Dokumentenentwurf und zur Dokumentspeicherung, weniger jedoch zur Repräsentation allgemeiner Daten jenseits klassischer Dokumente.[30] Der oben beschriebene Grundsatz für Metadaten "je mehr, desto besser" gilt also nicht unbegrenzt: Nicht nur quantitativ, sondern gerade auch qualitativ können in reinem XML formulierte Metadaten ggf. unzureichend sein.[31] | Abs. 39 |
7. Zusammenfassung |
Das Semantic Web ist eine Erweiterung des bestehenden WWW, die besonders "intelligente" Online-Anwendungen ermöglicht. Davon können auch Juristen profitieren. Voraussetzung für die Entwicklung juristischer Semantic-Web- Anwendungen ist zum einen das Verständnis der zu Grunde liegenden Technologien und Standards. Zum anderen müssen möglichst viele Juristen Semantic-Web-taugliche Daten anbieten. Um den Weg hierhin zu ebnen, wurde hier zunächst erklärt, wie Dokumente heutzutage in den meisten Fällen für die Online-Veröffentlichung aufbereitet werden. | Abs. 40 |
Im Vergleich zum etablierten Standard HTML bieten XML-basierte Sprachen bei der Online-Veröffentlichung nicht nur eine größere Flexibilität (die jedoch durch einen größeren Entwicklungsaufwand "erkauft" werden muss), sie erleichtern auch die Anreicherung von Dokumenten mit beschreibenden Zusatzinformationen, den sog. Metadaten. | Abs. 41 |
Die Entwicklung eigener XML-basierter Dokumentstandards führt jedoch zu
Problemen, wenn höhere Ansprüche hinsichtlich der Verarbeitung an diese
Metadaten gestellt werden. Das Semantic Web basiert daher auf Standards,
die von einem stark abstrahierten Datenmodell ausgehen, welches speziell
auf die große Bedeutung der Metadaten und ihrer Verknüpfung ausgelegt ist.
Der nächste Teil des Artikels wird diese Standards, wiederum aus der
Perspektive des juristischen Einsatzes, näher vorstellen.
| JurPC Web-Dok. 57/2005, Abs. 42 |
Fußnoten:[1] http://www.w3.org/People/Berners-Lee/.[2] Die ersten Äußerungen finden sich in Berners-Lees "Semantic Web Roadmap" (1998) (online abrufbar unter: http://www.w3.org/DesignIssues/Semantic.html) sowie in seinem Buch "Der Web-Report" (1999) (engl.: "Weaving The Web"), S. 257 ff. Weitere Hinweise finden sich auf der Seite des World Wide Web Consortiums (W3C) zum Semantic Web (http://www.w3.org/2001/sw). [3] HTML: HyperText Markup Language - mehr dazu in Teil 1 des Artikels. [4] Im Folgenden wird noch des öfteren von "Maschinen" die Rede sein, welche Aufgaben der Informationsverarbeitung übernehmen. Damit sind keine industriellen Maschinen, Roboter o.ä. gemeint, sondern (Software- )Programme, die im WWW automatisiert Informationen verarbeiten. [5] Das Kapitel in Berners-Lees Buch "Der Web-Report" (1999), in dem er das Semantic Web skizziert, heißt daher auch "Computer und das Web" (S. 257 ff.). [6] XML: EXtensible Markup Language - mehr dazu in Teil 1 des Artikels. [7] RDF: Resource Description Framework - mehr dazu in Teil 2 der Bearbeitung. [8] OWL: Web Ontology Language - mehr dazu in Teil 2 der Bearbeitung. [9] Die Anwaltsliste des Juristischen Internet-Projekts Saarbrücken (http://www.jura.uni-sb.de/internet/anwalt.html) nimmt nur solche Anwaltshomepages auf, die sich nicht "lediglich als elektronische Kanzleibroschüren darstellen", sondern "ein nennenswertes Informationsangebot" liefern. [10] Zu den berufs- und sonstigen rechtlichen Beschränkungen für Anwaltshomepages vgl. den Aufsatz von Frank, ALL YOU NEED IS L@W - Die Homepage des Rechtsanwaltes, in K&R 2004, 175. [11] Die Entscheidung (BVerfG, 30.03.2004 - 2 BvR 1520/01 - 2 BvR 1521/01) ist unter http://www.bundesverfassungsgericht.de/entscheidungen/rs20045330_2bvr152001.html online veröffentlicht (Website des Bundesverfassungsgerichts). Den auf der Seite genannten Bedingungen entsprechend, wird hier davon ausgegangen, dass Herr RA Meier beim Gericht die Zustimmung zur Vervielfältigung der Entscheidung zu kommerziellen Zwecken eingeholt hat. Man wird davon ausgehen müssen, dass eine Veröffentlichung auf der Kanzleihomepage auch dann zu kommerziellen Zwecken erfolgt, wenn der Abruf an sich kostenlos ist. [12] Neben diesen etablierten kommerziellen Produkten kommen natürlich auch kostenlos bzw. als freie Software nutzbare Editoren in Frage. Vgl. hierzu http://jurawiki.de/SemanticWeb. [13] Bei relationalen Datenbanken hat sich inzwischen der Standard SQL (Structured Query Language) durchgesetzt. Zur Einführung: http://de.wikipedia.org/wiki/SQL. [14] http://www.w3.org - Das W3 Consortium (W3C) ist eine Institution, die sich mit der Etablierung und Fortentwicklung technischer Web-Standards befasst - wie z.B. auch HTML und XML. Zur Geschichte von XML und der verwandten Standards SGML und HTML vgl. Mintert, Man spricht XML (2004), iX SPECIAL 01/04, S. 6 ff.. [15] In den Mozilla-basierten Browsern (Netscape ab Version 6.0, Mozilla ab Version 1.0, Firefox) werden die Tags des XML-Dokuments nicht mit dargestellt. [16] Wie für HTML gibt es auch für den XML-Entwurf spezielle Editoren. Einige werden auf http://jurawiki.de/SemanticWeb genannt. [17] Die CSS-konforme Darstellung von XML-Dateien funktioniert leider nicht mit älteren Browser-Versionen. Einen hierfür erforderlichen XML-Parser enthält der MS Internet Explorer ab Version 5.0, Netscape ab Version 6.1, Opera ab Version 6.1, Mozilla ab Version 1.0 und Firefox ab Version 0.8. [18] Wenn z.B. ein Hyperlink mit dem Tag [19] Siehe hierzu nur: http://de.wikipedia.org/wiki/XSL - Zu verschiedenen Möglichkeiten der XML-Transformation vgl. auch Bohrer, Entwicklung eines internetgestützten Expertensystems zur Prüfung des Anwendungsbereichs urheberrechtlicher Abkommen (2003), S. 134 ff. (online abrufbar unter: http://www.upress.uni-kassel.de/abstracts_fr/3-89958-024-9.html). [20] Im Gegensatz zum weiterhin stärker verbreiteten "Vorreiter" DTD basiert XSD selbst auf XML. [21] Eine Vorreiterrolle nimmt das frei verfügbare Office-Paket Open Office (http://www.openoffice.org) ein. Das OpenOffice-Dokumentformat ist ein ZIP-Archiv, bestehend aus XML-Daten, den zugehörigen Schemata und Angaben zum Layout. Microsoft bietet in seinem Office-Paket MS Office 2003 (http://www.microsoft.com/germany/ms/office2003/vergleich.htm) mittlerweile auch eine XML-Unterstützung, die auch ausdrücklich als Feature betont wird. [22] Nach Informationen des Autors in Deutschland z.B. der Verlag C.H.Beck, München, und die LexisNexis Deutschland GmbH, Münster. [23] Die Schemata sind abrufbar unter: http://edvgt.jura.uni-sb.de/Tagung00/ak00/xml2000.htm; eine Kommentierung liefern Gantner/Ebenhoch, JurPC Web-Dok. 116/2001 (http://www.jurpc.de/aufsatz/20010116.htm). [24] Für Deutschland: http://www.lexml.de/. Siehe hierzu auch: Muller, JurPC Web-Dok. 19/2002 (http://www.jurpc.de/aufsatz/20020019.htm). [25] http://www.xjustiz.de/. [26] Bohrer, Entwicklung eines internetgestützten Expertensystems zur Prüfung des Anwendungsbereichs urheberrechtlicher Abkommen (2003), S. 131 ff. (online abrufbar unter: http://www.upress.uni-kassel.de/abstracts_fr/3-89958-024-9.html). Siehe hierzu auch Bohrer, JurPC Web-Dok. 270/2004 (http://www.jurpc.de/aufsatz/20040270.htm). [27] Die Indizierung von HTML-Seiten durch Suchmaschinen basierte längere Zeit auf der Auswertung der sog. Meta-Tags (vgl. das Tutorial SelfHTML: http://de.selfhtml.org/html/kopfdaten/meta.htm) - Meta-Tags wurden jedoch schnell von Konkurrenten auf wettbewerbswidrige Weise missbraucht, um sich durch hohe Suchmaschinen-Rankings einen Vorteil gegenüber wirtschaftlichen Konkurrenten zu verschaffen (vgl. zur rechtlichen Beurteilung nur Hoeren, Rechtsfragen des Internet (Stand: Juli 2004), S. 207 ff. - online abrufbar unter: http://www.uni-muenster.de/Jura.itm/hoeren/material/Skript/skript_juli2004.pdf). [28] Natürlich könnte man bei Einbindung eines CSS-Stylesheets die entsprechenden Tags mit unterschiedlichen Stylesheet-Klassen kennzeichnen (<ol class="leitsaetze">...</ol>). Doch sind dies, wie oben schon angedeutet, auch nur Angaben zum Layout, die über den Inhalt des Dokuments keine Aussage treffen. [29] Vgl. zu diesem Problem des Datentransfers zwischen verschiedenen Personen, Anwendungen und Anwendungszwecken Hendler/Berners-Lee/Miller, Integrating Applications on the Semantic Web (2002), online abrufbar unter: http://www.w3.org/2002/07/swint - "The problem is that different databases are built using different database schemas, but these schemas are not made explicit. Thus, an XML tag called something like <CX213> is not readily associated with a field in another database called <Income>." [30] Vgl. Swartz, The Semantic Web (for Web Developers) (2002), online abrufbar unter: http://logicerror.com/semanticWeb-webdev - "XML was designed for documents, not data. Because of this, it has many features (like attributes and entities) that make sense for document-oriented systems, but only cause problems when expressing data." [31] Die Lösung nach Hendler/Berners-Lee/Miller, Integrating Applications on the Semantic Web (2002), online abrufbar unter: http://www.w3.org/2002/07/swint - "A capability beyond that offered by XML-schema is needed if we are to provide mapping capabilities between divergent schemas, or between users who need to use different business vocabularies. It is a truism of computing that to map between dissimilar data structures, a more powerful data representation is needed." |
*
Der Autor ist Diplom-Jurist und Doktorand am Institut für Rechtsinformatik
der Universität des Saarlandes. Im Rahmen seiner Promotion, betreut von
|
[online seit: 13.05.2005 ] |
Zitiervorschlag: Autor, Titel, JurPC Web-Dok., Abs.
|
Zitiervorschlag: Notholt, Jochen, Das Semantic Web: Schritte auf dem Weg zum juristischen Einsatz - JurPC-Web-Dok. 0057/2005 |