Zum Inhalt springen

Das Semantische Web

Über kurz oder lang ist fast jeder in unserer Branche über das Stichwort "Semantisches Web" gestoßen. Unter Semantik versteht man die Bedeutungslehre der Wörter. Beim semantischen Web geht es also darum, die Information, die in den Abermillionen von Internetseiten enthalten ist, anzureichern und für Maschinen verständlich zu machen. Dadurch lassen sich auch Informationen finden, die anders verschlagwortet oder mit der gesuchten Information verknüpft sind.

Aus diesem Ansatz sind viele praktische Anwendungen entstanden. Etwa das Anbieten zusätzlicher Leistungen wie Mietwagen oder Hotelübernachtungen bei einer Anfrage nach einer Flugverbindung. In ähnlicher Art und Weise lösen manche Firmen Supportanfragen ihrer Kunden.

Wie funktioniert das und gibt es eventuell Methoden oder Technologien, die technische Redakteure für ihre tägliche Arbeit verwenden können? Als Erstes setzt das vom World Wide Web Consortium (W3C) vorangetriebene Semantische Web einen ganz anderen Umgang mit dem Textmaterial voraus. Wenn ein Mensch einen Text liest, ist er aufgrund seiner Intelligenz in der Lage, aus einer Sammlung von Wörtern Informationen zu gewinnen. Er erkennt beispielsweise, dass in einem bestimmten Kontext ein Wort wie "Blatt" zu einem Propeller gehört oder dass "Volkswagen" eine Automarke ist. Wenn man solche Informationen aus einer Vielzahl von Texten extrahieren und verarbeiten möchte, geht es nicht ohne softwaregestützte Lösung. So verführerisch Ausdrücke wie "künstliche Intelligenz" auch immer sind, eine Software denkt naturgemäß nicht. Sie kann nur nach vordefinierten Mustern arbeiten. Deshalb müssen die Texte mit "Intelligenz" angereichert werden. Sonst wäre beispielsweise eine Suche nach allen Artikeln, die im letzten Monat deutsche Automobilmarken behandelten, unvorstellbar.

Die Information, die Texte implizit enthalten, soll demnach maschinenlesbar gemacht werden. Das bedeutet zum einen die Erkennung von Begriffen und deren Anreicherung mit Metainformationen (oder Annotationen) wie semantische Eigenschaften (Beispiel: "Leistung" oder "Gewicht") und synonyme Benennungen. Es bedeutet zum anderen die Erstellung von Beziehungen zwischen diesen Begriffen. Komplexe Modelle beinhalten ferner Ableitungsregeln (wenn "A" diese Eigenschaft hat und zur Gruppe "G" gehört, dann verfügt auch "B" aus derselben Gruppe über diese Gruppeneigenschaft).

Typischerweise erfüllen Ontologien diese Anforderungen. Ontologien bezeichnen in der Informatik Systeme von Begrifflichkeiten und deren Beziehungen zueinander, die sich auf einen bestimmten Themenbereich beziehen. Die Auszeichnung mit Metainformationen geschieht mittels maschinenlesbarer Formate wie dem auf XML basierenden Format RDF (Resource Description Framework). Grundstein eines RDF-Modells ist der Tripel, d. h. eine Definition aus Subjekt + Prädikat + Objekt. Beispiel: Volkswagen (Subjekt) produziert (Prädikat) Autos (Objekt); Autos (Subjekt) sind (Prädikat) Fahrzeuge (Objekt) usw. Mit diesen und ähnlichen Tripeln entsteht bearbeitbares Wissen aus Dokumenten. RDF benutzt für diese Aussagen Referenzen auf eindeutige Objekte, auf sog. URIs (Uniform Resource Identifier) wie etwa "http://cee.odu.edu/mypage.html".

Im Internet ist ferner das Format OWL (Ontology Web Language) verbreitet, das gegenüber RDF weitere Kennzeichnungsmöglichkeiten ermöglicht. OWL unterstützt den Austausch von Regeln zwischen verschiedenen Systemen. Eng mit OWL verbunden ist der RIF-Standard (Rule Interchange Format). RIF beschreibt die logischen Regeln zur Verarbeitung strukturierter Informationen, etwa "WENN der Bundestag seinen Sitz in Berlin hat und WENN Berlin eine Stadt in Deutschland ist, DANN sitzt der Bundestag in Deutschland".

Die wichtigsten Tätigkeiten beim Aufbau eines semantischen Webs bestehen also darin, (1) Begriffe zu einem Themengebiet zu erkennen, (2) diese in Ontologien aufzuarbeiten und (3) Abfragemechanismen zu entwickeln. SPARQL ist die Abfragesprache für das Semantische Web.

 Für diese verschiedenen Tätigkeiten stehen Werkzeuge zur Verfügung, von denen mehrere zum Open Source Bereich gehören. Einige interessante Adressen oder Tools sind:

  • Swoogle: http://swoogle.umbc.edu/
  • Protégé: http://protege.stanford.edu/
  • The OWL API: http://owlapi.sourceforge.net/

Was könnte man von den Ansätzen des Semantischen Webs in die technische Redaktion übernehmen, um die technische Dokumentation anzureichern? In einem ersten  Schritt definiert man ein Hauptziel wie die Optimierung der Bedienung einer Software oder der Wartung einer Maschine. Man extrahiert anschließend entsprechende Schlüsselbegriffe und Benennungen. Dazu gehören auch Synonyme (z. B. "Potenziometer" / "Drehknopf"), wie sie Benutzer u. U. verwenden. Abhängig davon, in welcher Umgebung (XML-basiertes Redaktionssystem, Word-Dokument usw.) man arbeitet, gibt es unterschiedliche Methoden und Mittel, um diese Benennungen zu kennzeichnen. Zwischen diesen Benennungen lassen sich dann nach dem Tripel-Konzept des RDF-Modells (siehe oben) unterschiedliche Relationen definieren, etwa wie "Temperaturfühler steuert Ventil". XML-basierte Redaktionssysteme erlauben beispielsweise die Verwendung selbstdefinierter Tags in der Informationsstruktur (DTD). Manche Informationsvorlagen wie DITA oder das 1999 vom VDMA initiierte Mumasy lassen sich zu diesem Zweck erweitern. Auch Word-Nutzer können Index- und Verweisfunktionen verwenden. 

Das Semantische Web mit seiner Übertragung auf die technische Dokumentation zeigt mehr denn je die Chancen, die eine systematische Terminologiearbeit Unternehmen bietet. Terminologie ist als Verhikel des Wissens der Grundstein für "intelligente" Dokumentationen bzw. Daten und öffnet die Tür zu weiteren Systemen (z. B. Expertensystemen) und Leistungen. Insofern ist es aus Management-Sicht eine kluge und vorausschauende Entscheidung, rechtzeitig in den Aufbau einer Firmenterminologie zu investieren.

 

Kommentare