Readspeaker Menü

Semantisches Document Engineering Engineering und Web-basiertes Reason-Maintenance

Prof. Beckstein, M. Büttner, H. Peter, Dr. Sack
Ebenso wie die Entwicklung komplexer Software erfordert das rechnergestützte Erstellen, Verarbeiten, Verwalten und zweckgerechte Wiederfinden von komplexen, heterogenen und räumlich verteilten Dokumentbeständen eine zielorientierte Bereitstellung und systematische Verwendung von Prinzipien, Methoden und Werkzeugen für deren arbeitsteilige, ingenieurmäßige Entwicklung und Anwendung. Aufgrund dieser Verwandtschaft mit dem etablierten Gebiet des Software Engineering nennen wir daher die Disziplin, die diese Prinzipien, Methoden und Werkzeuge entwickelt, "Document Engineering". 

Wie im Software Engineering kämpft man beim Document Engineering mit der sog. Semantischen Lücke, also dem bedeutungsbezogenen Unterschied zwischen zwei Beschreibungen eines Objekts, der dadurch entsteht, dass dabei verschiedene Repräsentationsformen gewählt werden. Das Document Engineering erfordert nämlich u.a. eine Abbildung von natürlichsprachlichen Modellen der realen Welt in eine formale, maschinell verarbeitbare Repräsentation. Problematisch wird diese Abbildung, wenn das Ausgangsmodell in einer mächtigeren Sprache formuliert ist als die Zielsprache, da dann bei der Abbildung notwendigerweise Details verloren gehen. Dieser Fall liegt z.B. vor, wenn es sich bei der Ausgangssprache um eine natürliche Sprache handelt und als Zielsprache eine beliebige, rechnerverarbeitbare formale Sprache im Spiel ist. Damit rechnergestützte Anwendungen derartige Dokumente ihrer Funktion gemäß korrekt verarbeiten können, werden die betroffenen Dokumente üblicherweise semantisch annotiert, d. h. explizit um maschinenverarbeitbare Zusatzinformationen angereichert, die für mögliche Anwendungen eindeutig signalisieren, ob und ggf. wie das vorliegende Dokument für den durch die Anwendung verfolgten Zweck genutzt werden kann. 

Schon das Erstellen eines Dokumentenindexes ist eine inhaltlich anspruchsvolle und nicht triviale Annotationsaufgabe. Textabschnitte müssen inhaltlich unter einem Schlagwort zusammengefasst werden und mit anderen Textabschnitten desselben Dokuments in dessen Index zusammengestellt werden. Dabei können einzelne, thematisch zusammengehörige Indexeinträge unter einem gemeinsamen Oberbegriff angeordnet werden, um dessen Auffindbarkeit zu erhöhen. Die Aufgabe des Indexes ist die zielgenaue, schlagwortbasierte Navigation innerhalb eines Dokuments. Ein Dokumentenindex kann als eine spezielle Art der Annotation des zugrunde liegenden Dokumentes betrachtet werden. Graphisch aufbereitet kann diese Annotation als Navigationshilfe durch den Dokumenteninhalt führen und bei der Ableitung (Lernen) von Domain-Ontologien hilfreich sein. 

Ein derart indexiertes Dokument läßt sich im Rahmen eines semantischen Retrievals nutzen. Im Dokumentenindex wird dafür unterschieden zwischen definierenden Indexeinträgen, d.h. Referenzen auf einen Dokumentenabschnitt, der das Index-Schlagwort definiert, und referenzierenden Indexeinträgen, die lediglich einen Abschnitt des Dokuments referenzieren, die sich inhaltlich mit dem Index-Schlagwort befassen, dieses aber nicht definieren oder erklären. Innerhalb des Dokumentenabschnitts eines definierenden Indexeintrags können wieder (referenzierende) Schlagwörter auftauchen, die einer Erklärung/Definition bedürfen, die aber an anderer Stelle eines Dokumenten-Corpus definiert werden. Um eine vollständige Definition eines Index-Schlagworts zu erreichen, müssen rekursiv alle definierenden Indexeinträge zum Dokumentenabschnitt eines definierenden Indexeintrags ermittelt werden. Die sich dabei ergebenden Abhängigkeitsbeziehungen lassen sich durch einfache Regeln formalisieren. Um mithilfe dieser Regeln Schlussfolgerungen ziehen zu können, kann ein automatisches Inferenzverfahren zum Einsatz kommen. In Zusammenarbeit mit Herrn Büttner und Dr. Sack wurde zu diesem Zweck die Möglichkeit der Implementierung eines ATMS (Assumption Based Truth Maintenance System) im Kontext des Semantic Web untersucht. Dazu wurde ein verteilt arbeitendes, web-basiertes ATMS auf Grundlage von OWL (Web Ontology Language), SWRL (Semantic Web Rule Language) und dem JENA-API entwickelt, das neben dem bereits skizzierten Einsatz im Bereich des Document Engineering auch zur semantisch unterstützten Suche in Videodaten angewandt werden soll.