10.03.2020

Das Semantische Web

Home › Technologien, KI und Digitalisierung › Das Semantische Web

Über kurz oder lang ist fast jeder in unserer Branche über das Stichwort „Semantisches Web“ gestoßen. Unter Semantik versteht man die Bedeutungslehre der Wörter. Beim semantischen Web geht es also darum, die Information, die in den Abermillionen von Internetseiten enthalten ist, anzureichern und für Maschinen verständlich zu machen. Dadurch lassen sich auch Informationen finden, die anders verschlagwortet oder mit der gesuchten Information verknüpft sind.

Das semantische Web und sein praktischer Nutzen

Aus diesem Ansatz sind viele praktische Anwendungen entstanden. Etwa das Anbieten zusätzlicher Leistungen wie Mietwagen oder Hotelübernachtungen bei einer Anfrage nach einer Flugverbindung. In ähnlicher Art und Weise lösen manche Firmen Supportanfragen ihrer Kunden.

Wie funktioniert das und gibt es eventuell Methoden oder Technologien, die technische Redakteure für ihre tägliche Arbeit verwenden können? Als Erstes setzt das vom World Wide Web Consortium (W3C) vorangetriebene Semantische Web einen ganz anderen Umgang mit dem Textmaterial voraus. Wenn ein Mensch einen Text liest, ist er aufgrund seiner Intelligenz in der Lage, aus einer Sammlung von Wörtern Informationen zu gewinnen. Er erkennt beispielsweise, dass in einem bestimmten Kontext ein Wort wie „Blatt“ zu einem Propeller gehört oder dass „Volkswagen“ eine Automarke ist. Wenn man solche Informationen aus einer Vielzahl von Texten extrahieren und verarbeiten möchte, geht es nicht ohne softwaregestützte Lösung. So verführerisch Ausdrücke wie „künstliche Intelligenz“ auch immer sind, eine Software denkt naturgemäß nicht. Sie kann nur nach vordefinierten Mustern arbeiten. Deshalb müssen die Texte mit „Intelligenz“ angereichert werden. Sonst wäre beispielsweise eine Suche nach allen Artikeln, die im letzten Monat deutsche Automobilmarken behandelten, unvorstellbar.

Implizite Informationen strukturieren und maschinenlesbar machen

Bei der technischen Redaktion wird es immer wichtiger, dass Textinformationen nicht nur verstanden, sondern auch maschinenlesbar und verarbeitbar gemacht werden. Dieser Prozess umfasst zwei Hauptaspekte:

Erkennung und Anreicherung von Begriffen: Hier geht es darum, Schlüsselbegriffe in Texten zu identifizieren und sie mit zusätzlichen Informationen anzureichern. Dabei kann es sich um semantische Eigenschaften handeln, wie z. B. bei den Begriffen “Leistung” oder “Gewicht”, da diese Begriffe in der Regel nicht sehr präzise sind. Diese semantischen Eigenschaften beschreiben die Bedeutung oder den Kontext eines Begriffs genauer. Auch das Hinzufügen von synonymen Benennungen fällt in diesen Bereich. Dadurch wird die Vielfalt der sprachlichen Ausdrücke, die denselben Sachverhalt beschreiben, erfasst.
Beziehungen zwischen den Begriffen herstellen: In diesem Schritt werden die ermittelten Begriffe vernetzt, um ihre Verbindungen und Abhängigkeiten zu verdeutlichen. Beispielsweise könnte eine Verbindung zwischen “Motorleistung” und “Kraftstoffverbrauch” hergestellt werden. Dies geschieht z. B. sehr gut im Wissensmodul des Terminologieverwaltungssystems LookUp, das nun auch den Export nach RDF unterstützt.

Darüber hinaus werden Ableitungsregeln in komplexere semantische Modelle wie Ontologien eingebaut. Diese Regeln beschreiben, wie die Eigenschaften eines Elements auf ein anderes übertragen werden können, und zwar auf der Grundlage der Zugehörigkeit zu einer Gruppe oder ähnlicher Merkmale. Ein Beispiel wäre: Wenn ein Objekt A aus der Gruppe G eine bestimmte Eigenschaft besitzt, kann man davon ausgehen, dass ein anderes Objekt B aus derselben Gruppe diese Eigenschaft ebenfalls besitzt. Diese Methoden ermöglichen es, Texte nicht nur als eine Sammlung von Wörtern, sondern als ein vernetztes Informationssystem zu betrachten, das von Maschinen analysiert und genutzt werden kann.

Typischerweise erfüllen Ontologien diese Anforderungen. Ontologien bezeichnen in der Informatik Systeme von Begrifflichkeiten und deren Beziehungen zueinander, die sich auf einen bestimmten Themenbereich beziehen. Die Auszeichnung mit Metainformationen geschieht mittels maschinenlesbarer Formate wie dem auf XML basierenden Format RDF (Resource Description Framework). Grundstein eines RDF-Modells ist der Tripel, d. h. eine Definition aus Subjekt + Prädikat + Objekt. Beispiel: Volkswagen (Subjekt) produziert (Prädikat) Autos (Objekt); Autos (Subjekt) sind (Prädikat) Fahrzeuge (Objekt) usw. Mit diesen und ähnlichen Tripeln entsteht bearbeitbares Wissen aus Dokumenten. RDF benutzt für diese Aussagen Referenzen auf eindeutige Objekte, auf sog. URIs (Uniform Resource Identifier) wie etwa „http://cee.odu.edu/mypage.html“. Tripel sind die Basis des Wissensmoduls von LookUp, des wissenbasierten Terminologiemanagementsystems der D.O.G. GmbH.

Im Internet ist ferner das Format OWL (Ontology Web Language) verbreitet, das gegenüber RDF weitere Kennzeichnungsmöglichkeiten ermöglicht. OWL unterstützt den Austausch von Regeln zwischen verschiedenen Systemen. Eng mit OWL verbunden ist der RIF-Standard (Rule Interchange Format). RIF beschreibt die logischen Regeln zur Verarbeitung strukturierter Informationen, etwa „WENN der Bundestag seinen Sitz in Berlin hat und WENN Berlin eine Stadt in Deutschland ist, DANN sitzt der Bundestag in Deutschland“.

Die wichtigsten Tätigkeiten beim Aufbau eines semantischen Webs bestehen also darin, (1) Begriffe zu einem Themengebiet zu erkennen, (2) diese in Ontologien aufzuarbeiten und (3) Abfragemechanismen zu entwickeln. SPARQL ist die Abfragesprache für das Semantische Web.

Für diese verschiedenen Tätigkeiten stehen Werkzeuge zur Verfügung, von denen mehrere zum Open Source Bereich gehören. Einige interessante Adressen oder Tools sind:

Swoogle: http://swoogle.umbc.edu/
Protégé: http://protege.stanford.edu/
The OWL API: http://owlapi.sourceforge.net/

Nutzungsmöglichkeiten in der technischen Redaktion

Was könnte man von den Ansätzen des Semantischen Webs in die technische Redaktion übernehmen, um die technische Dokumentation anzureichern? In einem ersten Schritt definiert man ein Hauptziel wie die Optimierung der Bedienung einer Software oder der Wartung einer Maschine. Man extrahiert anschließend entsprechende Schlüsselbegriffe und Benennungen. Dazu gehören auch Synonyme (z. B. „Potenziometer“ / „Drehknopf„), wie sie Benutzer u. U. verwenden. Abhängig davon, in welcher Umgebung (XML-basiertes Redaktionssystem, Word-Dokument usw.) man arbeitet, gibt es unterschiedliche Methoden und Mittel, um diese Benennungen zu kennzeichnen. Zwischen diesen Benennungen lassen sich dann nach dem Tripel-Konzept des RDF-Modells (siehe oben) unterschiedliche Relationen definieren, etwa wie „Temperaturfühler steuert Ventil“. XML-basierte Redaktionssysteme erlauben beispielsweise die Verwendung selbstdefinierter Tags in der Informationsstruktur (DTD). Manche Informationsvorlagen wie DITA (Darwin Information Typing Architecture) oder das 1999 vom VDMA initiierte Mumasy lassen sich zu diesem Zweck erweitern. Auch Word-Nutzer können Index- und Verweisfunktionen verwenden.

Das semantische Web und seine Anwendung in der technischen Dokumentation unterstreichen die zahlreichen Möglichkeiten, die eine strukturierte Terminologiearbeit den Unternehmen bietet. Terminologie als Wissensträger bildet die Grundlage für „intelligente“ Dokumentationen und Daten. Diese wiederum eröffnen den Zugang zu fortschrittlicheren Systemen, z. B. Expertensystemen, und zu neuen Dienstleistungen. Aus Sicht des Managements ist es daher eine weitsichtige und strategisch kluge Entscheidung, frühzeitig in den Aufbau einer firmeneigenen Terminologie zu investieren. Mit dieser Entscheidung sichern die Unternehmen nicht nur ihre Wettbewerbsfähigkeit, sondern legen auch den Grundstein für eine effiziente und zukunftsorientierte Informationsverarbeitung.