Zum Inhalt springen

Kategorie: Terminologie



Softwareterminologie

Was zur Terminologie gehört oder nicht, sorgt immer wieder für Gesprächsstoff. Am Ende weisen aber viele Firmenterminologien gemeinsame Merkmale auf. Sie enthalten meistens Fachbegriffe (wie „Kapazitiver Differenzdrucksensor“), rechtlich relevante Ausdrücke (u.a. Signalwörter wie „Gefahr“) und manchmal auch Produktnamen.

Wenn es aber um Softwareterminologie geht, herrscht die größte Unsicherheit. Offensichtlich fällt es vielen schwer, ein Wort wie "Öffnen" als Terminologie zu bezeichnen. Gehört es trotzdem zur Softwareterminologie? Auch taucht die Frage auf, ob die Einträge in einem Softwarewörterbuch wie sonst üblich auf die Grundform reduziert werden müssen: Soll man "Programmeinstellungen" oder "Programmeinstellung" aufnehmen?

Entwickler, Autoren und Übersetzer können kaum auf Terminologie verzichten. Entwickler brauchen Terminologie, um während des gesamten Lebenszyklus eines Softwareproduktes Texte einheitlich in die Oberfläche einzusetzen. Die Entwicklung eines Softwareproduktes läuft oft über mehrere Jahre. Es kommen regelmäßig neue Releases, die neue Funktionen enthalten oder vorhandene Funktionen optimieren. An der Entwicklung arbeiten unterschiedliche Programmierer, die nicht selten die Texte in einer fremden Sprache (meist Englisch) verfassen. Ohne Terminologieverwaltung ist das Benennen neuer Funktionen oder Oberflächenelemente (auch GUI-Elemente = "Graphical User Interface" genannt) reine Glückssache. Außerdem dient eine mehrsprachige Softwareterminologie dazu, dass Entwickler, die Englisch nicht als Muttersprache haben, korrekte englische Benennungen verwenden.

Autoren und Übersetzer brauchen Terminologie, um die Übereinstimmung zwischen Dokumentation und Oberfläche zu gewährleisten. Es gibt nichts Schlimmeres und Verwirrendes als eine Anleitung, die GUI-Elemente beschreibt, die in der Oberfläche gar nicht erscheinen.

Was gehört also zu einer Softwareterminologie? Hier muss man zuerst zwischen GUI-Elementen wie Schaltflächen, Listenfeldern, Dialogüberschriften oder Feldbezeichnungen auf der einen Seite und Meldungen bzw. längeren satzartigen Oberflächentexten auf der anderen Seite unterscheiden. GUI-Elemente gehören zum Wörterbuch, während Meldungen und Texte zum Translation-Memory gehören. Als GUI-Texte gelten alle Texte, die in Menüs und Dialogen einer Software erscheinen. Es können durchaus Termini sein, die man als klassische Termini bezeichnen könnte (etwa „VBA-Projektobjektmodell“). Dazu kommen jegliche Ausdrücke, die eine Software verwenden kann und oft zur Alltagssprache gehören: Adjektive („neues“), Phrasen („ Hyperlinks anstelle von Seitenzahlen“) oder Verben („Öffnen“). Man mag sich die Frage stellen, ob ein Wort wie "neues" zu einem Wörterbuch gehört. Der Grund ist, dass der Autor bzw. Übersetzer gewährleisten muss, dass in der Dokumentation tatsächlich "neues" und nicht "neu" bzw. "neuer" vorkommt. Oft steht in der Originalsprache der Software (meist Englisch) eine Wortform, die in vielen Sprachen unterschiedlich flektiert werden kann, je nachdem was für ein Genus (männlich, weiblich, …) das Bezugswort hat. Da der Übersetzer bei der Übersetzung von Softwarestrings leider nicht immer den Kontext hat, kommt der Hinweis von der Terminologie. Auch bei allgemeinen Handlungsverben hilft die Softwareterminologie dem Übersetzer, bei Sprachen, die eine präzisere Formulierung erfordern, die passende Übersetzung zu finden. So kann das englische Verb "select" im Deutschen als "auswählen" (bei Listenelementen), als "aktivieren" (bei Kontrollkästchen) oder als "markieren" (bei Text) übersetzt werden.

Eine Besonderheit der Softwareterminologie ist, dass sie im Gegensatz zu der klassischen Terminologie nicht immer einheitlich eingesetzt bzw. übersetzt werden kann. Das hat bei manchen Programmiersprachen (wie bei C#) damit zu tun, dass in manchen Situationen der Text eine bestimmte Länge nicht überschreiten darf.

Es ist immer hilfreich, im Terminologieverwaltungssystem Attribute zu erfassen, die für die korrekte Verwendung einer Benennung wichtig sind. Es geht zuerst einmal um den Objekttyp (Schaltfläche, Feldbezeichnung, Menüelement usw.). Man wird ja unter Umständen einen String unterschiedlich einsetzen, je nachdem, ob er in einen Dialogtitel („Abbrechen der Installation“) oder in einer Schaltfläche („Abbrechen“) erscheint. Weitere Informationen wie Wortart, Genus, Numerus können ebenfalls für eine korrekte Übersetzung von großer Bedeutung sein. So ist es bei mehreren englischen Wörtern schwer zu erkennen, ob es sich um ein Verb oder ein Substantiv handelt. Auch bei Substantiven wie „Fehler“ kann es nützlich sein zu wissen, ob es sich um die Singular- oder Pluralform handelt, besonders wenn andere GUI-Elemente sich darauf beziehen. Ferner können Informationen nützlich sein, die den Kontext vom String identifizieren können, etwa eine Dialog-ID oder eine String-ID. Im Einzelfall kann ein Attribut wie „Zu Übersetzen (JA/NEIN)“ helfen, die richtige Entscheidung zu treffen.

Die Strings werden so erfasst, wie sie in der Oberfläche erscheinen. Sie werden nicht auf die Grundform reduziert. Befehle wie „Beenden“, die normalerweise klein geschrieben sind, werden auf Schaltflächen bzw. in Menüeinträgen großgeschrieben. Diskussionen gibt es darüber, ob es Sinn macht, bei der Erfassung Shortcuts zu berücksichtigen. Shortcuts sind Tastenkombinationen, mit denen ein Befehl ausgeführt werden kann. Beispiel „Strg + S“ für den Befehl „Speichern“. Der String erhält zusätzlich das kaufmännische Und-Zeichen ("&") vor dem betreffenden Buchsta ben („&Speichern“). Es ist jedoch nicht erforderlich, diese Version zu erfassen, da Softwarelokalisierungsprogramme Shortcuts prüfen. Ähnliches gilt für die drei Punkte nach einem Befehl („Speichern…“), die dem Benutzer anzeigen, dass sich ein Dialog öffnen wird.

Eine der größten Herausforderungen liegt in der Prüfung der eingesetzten Terminologie. Besonders bei umfangreichen Terminologien und Texten kommen softwaregestützte Terminologieprüfverfahren zum Einsatz. Es handelt sich dabei um eigenständige Qualitätssicherungsprogramme oder um in Redaktions- oder Übersetzungssystemen integrierte Prüfmodule. Da aber auch sehr viele Wörter der Alltagssprache in der Softwareterminologie erfasst sind, werfen diese Programme eine relativ hohe Zahl an Falschmeldungen ab. Sie sind nur mit einem sehr großen Zeitaufwand abzuarbeiten.

Wie lässt sich das vermeiden? Man sollte die Prüfung möglichst nur auf die Terminologietreffer beschränken, die tatsächlich Einträge der Softwareoberfläche sind. Das ist möglich, wenn diese Einträge in den Ausgangstexten entsprechend gekennzeichnet sind, etwa durch eine eigene besondere Formatierung oder durch Tags in XML-Dateien. Einige Programme wie ErrorSpy ermöglichen sogar das automatische Korrigieren von Softwarestrings, wenn diese eindeutig und entsprechend gekennzeichnet sind.

Genauso wie die Softwarelokalisierung ist der Aufbau einer Softwareterminologie eine Kunst für sich. Diese Aufgabe richtig zu beherrschen trägt entscheidend zur Qualität der übersetzten Softwaredokumentation und des Produktes bei.

Nutzerorientierte Terminologie

Sie müssen nur den Nippel durch die Lasche zieh'n“, wer kennt diesen Satz aus einem Lied von Mike Krüger nicht? Er illustriert, wie Kommunikation außerhalb des Unternehmens eigenen Regeln unterworfen ist. Jeder benutzt seine eigene Sprache und beherrscht nicht immer die fachspezifische Sprache, die ein Unternehmen festgelegt hat. Ein Besuch von Diskussionsforen für die Reparatur von Autos oder für den Kauf von mobilen Geräten macht deutlich, wie vielfältig und kreativ die deutsche Sprache sein kann. Von „Drehknopf“ für „Potentiometer“ bis „Dingens“ für „Durchflussregler“ scheint die Fantasie der Nutzer keine Grenzen zu kennen. Kann es sich ein Unternehmen, dessen Vertrieb oder technischer Support leisten, diese Sprache zu ignorieren?

Um Alternativbenennungen zu sammeln, könnte man theoretisch jedes einzelne Fachwort in einem Synonymwörterbuch nachschlagen. Das gibt aber keinen Hinweis über ihre tatsächliche Verwendung durch einzelne Nutzergruppen. Die Herausforderung liegt darin, die Sprache des Marktes zu identifizieren und zu erfassen, um sie mit den eigenen Benennungen für Produkte und Leistungen zu verbinden. Und dies gleichzeitig in mehreren Sprachen. Wie lässt sich das mit einem vertretbaren Aufwand durchführen? Welche Quellen gibt es dazu? Was ist mit den Fremdsprachen? Reicht dafür eine einfache Übersetzung?

Die Lösungen sehen sicherlich von Fall zu Fall unterschiedlich aus. Im Grunde besteht aber die Vorgehensweise aus folgenden Schritten: Zuallererst grenzt man die Zielgruppen ein, die man erreichen möchte. Das ist die Basis für relevante Informationsquellen. Man extrahiert dann aus diesen Quellen Synonyme zu firmeneigenen Benennungen. Als letzten Schritt reichert man diese Alternativbenennungen mit semantischen und organisatorischen Informationen an. Dadurch können bestimmte Prozesse oder bestimmte Applikationen sie gezielt benutzen.

Firmeninterne Quellen wie Berichte vom Technischen Support, Korrespondenz mit Kunden, Anfragen oder Ausschreibungsunterlagen liefern bereits einiges an Material für die Extraktionsarbeit. Ferner kommen dazu diverse Publikationen, Kataloge, Websites, Fachartikel oder Fachbücher von Verbänden, Hochschulen und anerkannten Experten. Amtliche Quellen wie Normen, Richtlinien, Gesetze eignen sich ebenfalls für diesen Zweck. Auch Wettbewerber setzen u. a. Alternativbenennungen ein, die bei der eigenen Kommunikation mit Externen vorkommen können. Schließlich kommt ein Teil der unzähligen Blogs, Facebook-Beiträge oder anderen relevanten Foren und Diskussionsgruppen infrage.

Es wäre eine Sisyphusarbeit, alle diese Quellen ausführlich zu untersuchen und auszuwerten. Sie sind auch nicht gleich relevant. Für eine systematische Suche nach Synonymen eignet sich das Bootstrapping-Verfahren. Es nutzt die Tatsache, dass Wörter nie allein erscheinen, sondern immer in einem Kontext eingebettet sind. Das Prinzip besteht darin, eine kleine Menge an Stichwörtern festzulegen, die sozusagen als Köder oder Initialzündung fungieren, um Texte und danach Kontexte zu identifizieren, die sich mit einem bestimmten Thema befassen. Diese Köder (englische Fachterminologie: „seeds“) gibt man in Kombination von 2-3 Wörtern als Suchbegriffe in einer Suchmaschine bzw. Suchapplikation für Dokumente wie dtSearch (www.dtsearch.com) ein. Beispiel: Eine Suche nach „Transformator – Wicklung – Magnetfeld“, bringt Kontexte hervor, die auch Synonyme zu „Transformator“ wie "Trafo" und " Stromwandler" enthalten. Das Bootstrapping-Verfahren erfolgt meistens iterativ, d. h. die in einem ersten Lauf extrahierten Synonyme dienen dazu, weitere Synonyme oder neue Begriffe zu identifizieren.

Wer auf regelmäßiger Basis die Nutzersprache extrahieren möchte, kann das Verfahren teilweise automatisieren. Dies ermöglichen einige wenige Tools wie das kostenlose BootCaT (http://bootcat.sslmit.unibo.it/) und das professionelle kostenpflichtige WebBootCaT (www.sketchengine.co.uk). Sie liefern bereinigte relevante Korpora und Listen von Termkandidaten mit Kontext und Häufigkeitsangaben, die evaluiert werden müssen.

Hat man als Erstes eine Liste von Alternativbenennungen in Deutsch gefunden, so geht es dann um das Festlegen von Synonymen in weiteren Sprachen. Man kann nicht davon ausgehen, dass es ausreichen würde, diese deutschen Wörter zu übersetzen. Erstens sind Fremdsprachen kein Spiegelbild der deutschen Sprache (ein deutsches Wort kann mehrere Entsprechungen in der Fremdsprache haben und umgekehrt). Und zweitens gibt eine Übersetzung keine Auskunft darüber, wie intensiv Benutzer sie im Ausland tatsächlich verwenden. Man müsste also theoretisch in allen Sprachen genauso vorgehen wie in der deutschen Sprache, was aus Kostengründen nicht immer umsetzbar ist. Übersetzungsdienstleister oder Auslandsniederlassungen können trotzdem helfen, für einige Schlüsselbegriffe die geläufigen Synonyme in ihren Sprachen zu ermitteln.

Die identifizierten Synonyme werden in den zentralen Terminologiebestand mit den firmeneigenen Benennungen in gemeinsamen Begriffen zusammengefasst. Um sie richtig einzusetzen, sind entsprechende Verwendungsattribute notwendig, die die Situation klar abgrenzen, in denen sie anstelle der offiziellen Firmenterminologie zum Einsatz kommen. Das ist u. a. für Qualitätssicherungsprogramme für Dokumentationen oder Übersetzungen wichtig. Es können Attribute wie die Nutzergruppe (Unternehmen oder Kunde, Behörde, Lieferant) sein.

Die neu gewonnenen Termini kommen überall in der Kommunikation mit Nutzern zum Einsatz:

  • In der Technischen Dokumentation können sie ergänzend zur eigenen Benennung für die Suche nach Informationen im Stichwortverzeichnis erscheinen.
  • Sie können helfen, die Webpräsenz des Unternehmens mehrsprachig zu optimieren. Die Aufnahme von alternativen Benennungen in Metadaten, in semantischen Feldern trägt zu besseren Treffquoten bei der Internetsuche bei.
  • Die Arbeit des Technischen Supports profitiert vom Einsatz von nutzerorientierten Benennungen, da Kunden sich bei Fragen in der Regel nicht immer an der Firmenterminologie orientieren, sondern ihre eigene Sprache einsetzen.
  • Als Abfallprodukt der Extraktion können Zusammenhänge zwischen Begriffen gewonnen werden. Damit kann man Produkte bzw. Dienstleistungen bündeln. Das lässt sich mithilfe von Ontologien bewerkstelligen. Beispiel: Wenn aus dem Bootstrapping-Verfahren ein Zusammenhang zwischen "Ventil", "Steuerung" und "Software" hervorgeht, erhält der Nutzer entsprechende Paketangebote bei seiner Suche nach einem dieser Begriffe im Internet.

Die Terminologie von morgen kann sich nicht leisten, die individuellen Sprachen der unterschiedlichen Nutzergruppen zu ignorieren. Unternehmen brauchen ein flexibles terminologisches Instrument, mit dem sie jederzeit und situationsgerecht klar kommunizieren. Das können am besten begriffsorientierte Terminologiedatenbanken, die über Attribute den Einsatz der jeweiligen Benennungen steuern. Damit steht der Informationsgewinnung und dem Informationsaustausch nichts mehr im Wege. Erfahrene Übersetzungsdienstleister können ihren Beitrag dazu leisten.

 

Intelligente Terminologie und Informationsverarbeitung

Wie oft und wie lange suchen Sie täglich nach Informationen? Ziemlich oft, wenn man vielen Studien glauben darf. Je nach Analyse verbringen Angestellte zwischen 1 und 2 Stunden am Tag mit der Suche nach Informationen. Und die Suche ist bei weitem nicht immer erfolgreich. Erst nach dem 3. oder 4. Versuch erhält die Hälfte der Suchenden im Schnitt eine Antwort auf ihre Fragen[1].

Angesichts dieser Zahlen kann man nur darüber staunen, dass Unternehmen sich nicht intensiver mit der Verbesserung der Suche und Vermittlung von Informationen beschäftigen. Schließlich dreht sich in der heutigen digitalen Welt sehr viel um Wissen und Informationen. Nach Adam Riese geht es auch um viel Geld, denn diese 1-2 Stunden Informationssuche am Tag bedeuten 15-20% darauf verwendete Arbeitszeit, also relativ hohe Kosten, die sich durchaus reduzieren lassen. Umgekehrt kostet das Nicht-Finden von Informationen auch bares Geld. Jedes Unternehmen möchte, dass seine Kunden und Partner bequem und ohne Verzögerungen seine Produkte und Leistungen verstehen und finden.

Paradoxerweise wird es, je mehr Informationen wir produzieren, auch immer schwieriger sie zu finden. Es gibt sicherlich mehrere Schrauben, an denen man drehen kann, um Informationen besser zu gestalten, aber ein wichtiger Faktor, an dem niemand vorbeikommt, ist die Terminologie. Kernbaustein des Wissens sind die Termini, die zur Informationssuche, zum Wissensaustausch und zum Wissensaufbau verwendet werden. Viele Unternehmen sind sich dessen bewusst und bauen deswegen ihre Terminologie auf.

Noch wenig bekannt ist die Entwicklung intelligenter Terminologien, die allen Informationsspezialisten ganz neue Möglichkeiten eröffnen. Diese Art von Terminologien gibt es seit einigen Jahren unter verschiedenen Namen wie „intelligente Terminologien“, „wissensbasierte Terminologien“, „Ontoterminologien“, „Termontologien“, um nur einige zu nennen. Über Relationen verbinden sie die erfassten Begriffe in semantischen Netzwerken.

Heute sind begriffsbasierte Terminologiedatenbanken, wie sie Redaktionsabteilungen oder Language Services Provider (LSP) verwalten, weit verbreitet. Sie gehen von einem abstrakten Begriff aus und sammeln für jede Sprache jeweils alle Benennungen (Wörter, Abkürzungen oder Wortgruppen), die diesen Begriff bezeichnen.

Begriffsorientierte Terminologiebestände sind in vielen Fällen hilfreich. Z.B. bei der Suche nach Definition und Übersetzung eines Wortes wie Avalkredit oder Békésy-Audiometrie. Jedoch macht jeder ab und an die Erfahrung, dass in bestimmten Situationen die Angaben aus einem Terminologieeintrag für das Verständnis oder die Übersetzung eines Textes nicht ausreichen.

Wie ist beispielsweise das Wort Behälter trotz korrekter Definition zu verstehen? Ohne den Behälter zu sehen oder eine detaillierte Beschreibung des Gegenstands zu haben, kann man nicht wissen was für ein Behälter gemeint ist. Es kann sich um eine Box für die Beförderung von Paketen oder um einen Flüssigkeitstank handeln. Entsprechend wird die Übersetzung sehr unterschiedlich ausfallen. Aber wenn der Begriff „Behälter“ mit anderen Begriffen in Verbindung steht, wird vieles klarer. Beispielsweise im folgenden Satz: "Sobald der Behälter leer ist, macht die Maschine keinen Kaffee mehr, bis frische Bohnen nachgefüllt sind."

Die meisten heutigen Terminologiedatenbanken bieten keinen Mechanismus, um auf typische Nutzungssituationen zu reagieren. Auch tun sie sich schwer, dem Benutzer bei der Entscheidung zwischen alternativen Übersetzungen (übersetze ich Schwein nun mit pork oder mit pig?) zu helfen.

Faktoren wie der Kontext, der Zweck einer Information (welche Merkmale eines Begriffs sind relevant?) oder die verschiedenartigen sprachlichen Sichten der Realität beeinflussen Terminologie und Wissen.

Intelligente Terminologien haben sich von den Prozessen im menschlichen Gehirn inspirieren lassen, das Wissen in Neuronennetzen speichert. In Anlehnung an Ontologien verwenden intelligente Terminologien Relationen zwischen Begriffen und können diese nutzen, um typische Verwendungskontexte zu modellieren.

Dank dieser Relationen bedeuten intelligente Terminologien einen Paradigmenwechsel für alle, die Informationen suchen oder vermitteln. Die hinterlegten Relationen verbunden mit allen Vorzügen der mehrsprachigen begriffsbasierten Terminologiearbeit erlauben ganz neue Methoden der Informationsverarbeitung.

Relationen helfen beispielsweise, Fragen wie die folgenden zu beantworten:  

  • Welche Teile muss ich abschrauben, um an den Sensor zu kommen?
  • Was kann die Ursache für den Ausfall des Bauelementes sein?

Relationen wie „Ist_Teil_von“ oder „Beeinflusst“ liefern die Elemente für eine Antwort auf diese Fragen. Sie tragen zur Lösung von Aufgaben bei wie:

  • Zusätzliches (d.h. implizites) Wissen über Relationen gewinnen
  • Vorhandenes Wissen als semantisches Netzwerk speichern
  • Überprüfung der korrekten Verwendung von Begriffen oder Übersetzungen im Kontext
  • Unterstützung von Übersetzern oder Redakteuren bei der Recherche

Es gibt unterschiedliche Wege, diese Aufgaben in der Praxis zu lösen. Eine erste Möglichkeit besteht darin, in XML-basierten Dokumenten Relationen zwischen Begriffen als Metadaten zu hinterlegen. Mit Hilfe dieser Metadaten können Anwendungen wie Chatbots oder Smart Assistenten verbundene Informationen erkennen und Handlungen ausführen, z.B. einem Nutzer, der nach einer Flugverbindung sucht, vernetzte Produkte wie Mietwagen oder Hotels anbieten.

Ferner können Annotationstools Informationen auf der Basis von Attributen und Relationen in Dokumenten hervorheben, die für den Benutzer wichtig sind. Beispiele: Alle Benennungen in einer Anleitung markieren, die eine Gefahrenquelle beschreiben oder alle Benennungen hervorheben, die Komponenten eines bestimmten Subsystems sind. Das kann z.B. ErrorSpy für Autoren, ein Word-Add-on von DOG.

Ein weiterer Ansatz ist die Kontextprüfung unter Nutzung von Relationen. Viele Benennungen lassen sich je nach Kontext unterschiedlich auslegen. Dabei kann es sich um reine Homonyme handeln (Anlage, Rahmen) oder um Oberbegriffe wie Leistung. Hier können Tools wie ErrorSpy z.B. erkennen, dass die englische Übersetzung von Leistung mit power in einem bestimmten Kontext nicht passt, weil es sich um die Leistung eines Ladegeräts handelt. Hier passt kontextbedingt die Übersetzung capacity besser.

Aber eine Suche in der Terminologiedatenbank selbst hilft auch Redakteuren oder Übersetzern bei ihrer Arbeit. Die Visualisierung von Relationen zwischen Begriffen (oder Benennungen) liefert z.B. dem Übersetzer den passenden Hinweis für das Verständnis eines Begriffs oder für die richtige Übersetzung im Kontext (Spannvorrichtung wird mit tensioning device und nicht mit clamping device übersetzt, weil es eine Relation zu Riemen gibt).

Es ist eine Herausforderung, semantische Beziehungen zwischen Begriffen aufzubauen, da dies Zeit und fundierte Fachkenntnisse erfordert. Durch die Mitarbeit aller am Aufbau einer Firmenterminologie beteiligten Spezialisten (Techniker, Redakteure, Übersetzer…), kann die Arbeit auf mehreren Schultern verteilt werden. Das Ergebnis steht sowohl Menschen als auch Maschinen zur Verfügung, was im Zeitalter von KI und Internet 4.0 immer wichtiger wird.

Intelligente Terminologien sind noch relativ neu. Bestehende Lösungen unterscheiden sich in der Vielfalt der Beziehungen, die sie modellieren, und in den Methoden, mit denen sie diese umsetzen. Es gibt noch kein Standardformat für den Datenaustausch intelligenter Terminologien. Der TBX-Standard (TermBase eXchange) kann keine Beziehungen darstellen und das RDF-basierte SKOS-Vokabular kann nur für manche Typen von Beziehungen verwendet werden.

Es bleibt einiges zu tun, aber das Spannende ist, dass intelligente Terminologien schon Realität sind und dass sie die Paradigmen der Terminologiearbeit verändern. Sie verbinden die Best Practices der Terminologiearbeit mit den Ansätzen von Ontologien und schließen die Lücke zwischen Terminologie und Wissen. Sie ebnen den Weg für völlig neue Dienstleistungsmöglichkeiten für Sprachspezialisten und helfen gleichzeitig Redakteuren und Übersetzern, ihre Arbeit effizienter zu gestalten.

[1] Hierzu gibt es sehr unterschiedliche Aussagen und Quellen. Z. B. Zahlen der www.aiig.org oder von http://www.bwd-it.com/various-survey-statistics-workers-spend-too-much-time-searching-for-information

Definitionen erstellen

Was ist ein “Spiel“? Dieses bekannte Beispiel von Wittgenstein [1] zeigt sehr gut, wie wir täglich Wörter und Begriffe verwenden und davon ausgehen, dass alle einvernehmlich dasselbe darunter verstehen. Wenn man das Spiel mit dem “Spiel“ fortsetzt, entdeckt man auf einmal mit Schrecken, dass der Spielraum (wieder ein Wort mit “Spiel“) für Missverständnisse sehr groß ist. Und er macht vor dem Bereich Technische Dokumentation und Übersetzungen nicht halt.

Zum einen kommen dort anspruchsvolle Fachbegriffe wie “Inkohlungsgrad“ zum Einsatz, die ein Laie ohne Insiderkenntnisse oder gute Fachkenntnisse nicht verstehen kann. Das schließt auch Wörter aus dem Firmenjargon wie “Jägerschalter“ ein, die sich über Jahre in der Unternehmenssprache etabliert haben. Zum anderen gibt es aber auch die zahlreichen unscheinbaren Wörter, von denen viele annehmen, dass sie zu einfach sind, um erklärt werden zu müssen: “Leistung“ oder “Schalter“. Gerade solche Begriffe bilden bei der Bedienung eines Geräts oder bei der Übersetzung von Anleitungen eine erhebliche Fehlerquelle, weil sie viel Interpretationsspielraum zulassen.

Abhilfe soll die Terminologiearbeit leisten. Üblich ist in der Dokumentationsbranche eine begriffsorientierte Terminologie, bei der nicht die Benennung, sondern der Begriff im Mittelpunkt steht. Für jeden Begriff (=Bedeutung) sammeln Terminologen die Benennungen, die diesen Begriff darstellen: “Auto“, “Automobil“, “Personenkraftwagen“, “Pkw“ usw. Dasselbe in Grün gilt für die Fremdsprachen. Manchmal ist jedoch der Begriff nicht in allen Sprachen deckungsgleich definiert. Die Terminologie soll diese Unterschiede in den betreffenden Sprachen berücksichtigen. Als Beispiel dient der deutsche Schweinbegriff, der im Englischen als “pork“ (beim Metzger) oder als “pig“ (lebendiges Tier) bekannt ist. In diesem Fall spricht man von Teiläquivalenz.

Aber woher weiß man, was ein Begriff bedeutet? Die spontane Antwort lautet oft: “Durch die Definition“. Das stimmt auch, aber nicht uneingeschränkt, wie wir sehen werden. Zuerst einmal stellt sich die Frage, wie man eine Definition formuliert und welche Eigenschaften des Begriffs man dabei hervorhebt. Terminologiebestände sind voller Definitionen, die nicht weiterhelfen: Halter = “Hält etwas fest“.

Wer eine Definition erstellen möchte, sollte versuchen, ein einheitliches Muster zu verwenden, damit alle Definitionen konsistent sind. Das Grundmuster sieht wie folgt aus:

(der Begriff ist ein) Oberbegriff + relevante Merkmale.  

Beispiel: (ein Mobiltelefon ist ein) tragbares Telefon, das über Funk mit dem Telefonnetz kommuniziert. (Wikipedia)

Um die Merkmale herauszuarbeiten, muss der Fachmann die Eigenschaften seines Begriffs auswählen, die für die Arbeit mit dem Begriff notwendig sind und diesen Begriff von verwandten Begriffen abgrenzen. Welche Merkmale relevant sind, hängt vom Thema und von der Aufgabe ab. Ein Ingenieur, ein Jurist oder ein Verkäufer legen auf unterschiedliche Produktmerkmale Wert, ohne dass es sich um einen anderen Begriff handelt. In größeren Organisationen, in denen Terminologie von verschiedenen Nutzergruppen verwendet wird, ist daher die Auswahl der Merkmale für die Begriffsdefinition ein Kompromiss, der vom Terminologiekreis ausgearbeitet wird.

Neben der reinen Definition sind auch die Quelle der Definition und möglichst eine Abbildung wichtig und nützlich. Ferner kann die Zuordnung zu einem Klassifikationssystem helfen, den Begriff besser zu verstehen.

Wir formulieren nur eine Definition pro Begriff und können sie nach Bedarf übersetzen. Falls eine Sprache den Begriff etwas anders auslegt, werden diese Informationen für die jeweilige Sprache als Kommentar erfasst. Nur so lassen sich globale Terminologiebestände aufbauen.

Trotz einheitlicher Definition gibt es jedoch verschiedene typische Verwendungssituationen für den Begriff: ein “Hammer“ als Arbeitsmittel oder als Produkt im Verkaufssortiment. Wie geht man mit dieser Situation um, ohne eine Vielzahl an Definitionen zu produzieren? Es erscheint ein bisschen wie die Quadratur des Kreises.

Diese Verwendungssituationen nennt man Frames (oder typischer Kontext), und es ist Aufgabe des Terminologen, sie zu erfassen und zu modellieren. Er kann sie mithilfe von (1) Kommentarfeldern, (2) Attributen und (3) Benennungsrelationen dokumentieren. So wird das englische Äquivalent “pig“ aus unserem obigen Begriff “Schwein“ mit den Begriffen “Metzger“ und “Restaurant“ verknüpft. KI-gesteuerte Prüfsoftware wie ErrorSpy benutzen die hinterlegten Relationen, um die richtige, d. h. kontextgerechte Übersetzung zu prüfen.

Gute Definitionen zu erstellen ist eine anspruchsvolle Arbeit, und diese Arbeit muss gelernt werden. Aber es lohnt sich. Wer das Thema vertiefen möchte, ist herzlichen eingeladen an unseren D.O.G.-Seminaren (Terminologie für Einsteiger und Terminologie für Fortgeschrittene) teilzunehmen. (Siehe unser Seminarprogramm auf: https://www.dog-gmbh.de/de/dienstleistungen/schulung-und-beratung/)

[1] Wittgenstein, Ludwig (1953). Philosophical Investigations. G. E. M. Anscombe and R. Rhees

(eds.), G. E. M. Anscombe (trans.), Oxford: Blackwell.

Internet der Dinge braucht Terminologie

"Hey Siri, schalte das Licht ein" … Das Internet der Dinge (IoT) macht sich in vielen Unternehmen wie auch in der Gesellschaft zunehmend breit. Vom Smart Home bis zur Smart Factory oder zu Smart Cities sind Geräte und Maschine miteinander vernetzt und arbeiten selbständig zusammen. Dienste steuern diese Prozesse und liefern bzw. reagieren auf Informationen. Im Jahr 2018 waren 7 Milliarden Geräte im IoT angeschlossen, und diese Zahl soll bis 2020 auf 10 Milliarden und bis 2025 auf 22 Milliarden ansteigen[1].

Technisch gesehen arbeiten Sensoren, RFID-Chips, GPS-Empfänger und Algorithmen im Hintergrund, erkennen die Umgebung und treffen Entscheidungen. Die zu lösenden Aufgaben können sehr komplex sein und mehrere Themen umfassen, wie es bei Smart City-Projekten der Fall sein kann. Die Darstellung und der Austausch der von diesen Geräten und Diensten generierten Informationen sind eine zentrale Herausforderung für das Internet der Dinge, denn diese Informationen sind heterogen und werden regelmäßig aktualisiert und erweitert.

Da es weltweit noch keine von allen Akteuren akzeptierten Informationsstandards gibt, kommt es zu Kommunikationsschwierigkeiten und -konflikten. Daher arbeiten in vielen Ländern und Regionen nicht wenige Arbeitsgruppen und Komitees daran, Standards, Protokolle und Schnittstellen zu definieren, damit die „Dinge“ miteinander sprechen können. Dazu gibt es mehrere Projekte, die von Staaten gefördert oder auch von Branchen gesteuert werden.

Ein Beispiel für Standardisierung liefern die Hersteller von Sensoren, die im Rahmen des Internets der Dinge eine herausragende Rolle spielen. Sie haben in gemeinsamer Arbeit die Semantic Sensor Network (SSN)-Ontologie aufgebaut, die zur Beschreibung von Sensoren und deren Anwendung dient.

In Deutschland ist u.a. die Richtlinie VDI/VDE 2193 "Sprache für I4.0-Komponenten - Struktur von Nachrichten" hervorzuheben, die den "semantisch interoperablen Austausch von Informationen" zwischen I4.0-Komponenten regeln will.

Was sind es für Informationen, die Objekte aus dem Internet der Dinge untereinander austauschen müssen? Zum einen gibt es natürlich numerische Daten wie Messwerte, Temperaturen, Geschwindigkeiten usw., die Computersysteme problemlos verarbeiten können. Aber das IoT braucht auch Informationen, um diese Zahlendaten zu interpretieren oder um Geräte und Softwarekomponenten zu identifizieren. Dafür reichen Sensorrohdaten nicht. So sind beispielsweise Kontextinformationen nötig. Und solche Informationen basieren auf natürlicher Sprache. Es können zum einen Daten sein, die den Internet-Objekten helfen, Daten zu interpretieren oder Ressourcen zu finden (die z.B. melden, dass die vom Sensor gelieferte Zahl ein Temperaturwert ist) oder einen Kontext zu erkennen (z.B. die Art des Gebäudes, in dem sich der Sensor befindet).

Intelligentere Daten kommen ebenfalls ins Spiel, denn die im IoT angeschlossen Geräte haben unterschiedliche Fähigkeiten. Mit Hilfe von semantisch angereicherten Beschreibungen können intelligentere Systeme Dienste und Informationen in natürlicher Sprache bieten bzw. nutzen. Die semantische Anreicherung ist die Voraussetzung für die Interpretation der Daten mit Logik und Schlussfolgerungen (sog. Inferenz), die höherwertige Dienste verwenden.

Im Gegensatz zu reinen Zahlen, sind diese auf Sprache basierenden Daten nicht ohne weiteres verständlich und einheitlich. Stichwort „semantische Interoperabilität“.

Wie Gerd Hoppe, Manager bei Beckhoff Automation, unterstreicht: „ Wir müssen zudem eine Metasprache entwickeln, eine Taxonomie und Ontologie beziehungsweise eine Begriffswelt, die es erlaubt, die Herstellung eines Produktes so zu beschreiben, dass sich diese Informationen weltweit an vielen verschiedenen Maschinen nutzen lassen.“[2]

Wie sind diese Daten aufgebaut und wie sind sie semantisch kompatibel? In vielen Fällen sind es Ontologien, die die jeweiligen Dienste und Domänen der IoT-Objekte beschreiben. Ontologien stellen das Wissen über einen bestimmten Bereich in maschinenlesbarer Form dar. Sie verwenden dabei Klassen, Instanzen und Eigenschaften. Damit können sie bspw. Relationen modellieren wie:

  • QuadSensor SubClassOf HumiditySensor
  • QuadSensor belongsTo ElectricalSystem

Nach diesem Prinzip aufgebaute Ontologien versorgen IoT-Objekte (Geräte und Dienste) mit den erforderlichen Kontextinformationen. Klassen bzw. Instanzen sowie Relationen (Eigenschaften) sind im Rahmen des IoT die Bezeichnungen, nach denen automatische Softwareagenten suchen. Wer sich für solche Ontologien interessiert, kann die Sammlung von über 500 verschiedenen Ontologien für das IoT anschauen.[3]

Der Haken bei vielen dieser Ontologien ist aber, dass sie untereinander nicht immer kompatibel sind. Unterschiedliche Hersteller benennen dieselben „Dinge“ unterschiedlich oder sie verwenden dieselben Benennungen für unterschiedliche Dinge. Kann man z. B. davon ausgehen, dass alle Ontologien, die eine Klasse „Building“ haben, denselben Kontext für den Einsatz eines Geräts meinen?

Nicht nur werden Klassen bzw. Instanzen unterschiedlich benannt und strukturiert, sie verwenden manchmal unterschiedliche Sprachen und meist fehlen fremdsprachliche Äquivalente.

Hier kommt Terminologie ins Spiel, wie sie Redakteuren und Übersetzern bekannt ist. Terminologie ist sehr wohl geeignet, die sprachlichen Schwächen von Ontologien zu kompensieren. Terminologien gehen von einem Begriff aus und fassen alle relevanten möglichen Benennungen für diesen Begriff zusammen. Die Benennungen sind in mehreren Sprachen verfügbar.

Wie haben bisher IoT-Spezialisten Ontologien aufgebaut? Meistens haben Domainspezialisten diese Aufgabe übernommen, und sich dabei mehr auf die sachlichen und weniger auf die sprachlichen Aspekte konzentriert. Der Aufbau von Klassen (eigentlich Begriffen) und Relationen war lange ein besonderes Merkmal von Ontologien. Inzwischen gibt es intelligente Terminologien am Markt, die wie unser Terminologieverwaltungssystem LookUp ebenfalls Relationen zwischen Begriffen darstellen können. Daher bieten solche Terminologien den idealen Ansatz, IoT-gerechte und semantisch angereicherte Ontologien aufzubauen. Dies erfolgt sozusagen als Crowdsourcing-Aufgabe an die eigenen Mitarbeiter.

Firmen, die bereits derartige Terminologien aufgebaut haben, haben einen klaren Zeitvorteil, wenn sie IoT-Projekte im Kooperationsverbund mit anderen Herstellern und Partnern implementieren möchten. Die Grundlage für einen reibungslosen Austausch semantischer Informationen ist dann bereits vorhanden. Ein weiteres Argument, das für die systematische Terminologiearbeit im Unternehmen spricht!

[1] https://iot-analytics.com/state-of-the-iot-update-q1-q2-2018-number-of-iot-devices-now-7b/

[2]Round-Table-Gespräch zu Industrie 4.0. November 2013 in: https://industrieanzeiger.industrie.de/allgemein/gesucht-eine-sprache-fuer-fertigungsanweisungen/

[3]https://lov4iot.appspot.com/?p=ontologies. Zugriff: 27.06.2019

Terminologiemanagement

Wer gerade mit Terminologiearbeit anfängt, hat es nicht leicht: Benennung, Name, Konzept, Ausdruck, Bezeichnung, Begriff, Begriffskonzept, Terminus, Vokabular, Wort, Eintrag, ... Wie soll man das auseinanderhalten? Es sind alles Wörter, die zuerst mehr für Verwirrung als für Klarheit sorgen. Da Terminologiearbeit eigentlich die Zusammenarbeit von Leuten aus unterschiedlichen Bereichen voraussetzt, sind Pannen vorprogrammiert, solange die sogenannte Terminologie der Terminologie nicht von allen gleich verstanden und verwendet wird. Wie soll man also die wichtigsten Begriffe verstehen und benennen?

Einen Terminologieeintrag kann man sich wie die ineinander verschachtelten russischen Matrjoschka-Puppen vorstellen. Eine erste größere Puppe beinhaltet noch zwei weitere. Jede Puppe steht für einen bestimmten Informationsinhalt.

Die erste größere Puppe steht für den Begriff. Ein Begriff ist das, was eigentlich unabhängig von der Sprache oder vom einzelnen verwendeten Wort gemeint ist. Egal ob man Programm, Anwendung, Software oder Tool sagt, gemeint ist dieselbe Vorstellung eines Programms, das auf einem Rechner ausgeführt wird und Daten verarbeitet. Da Menschen Wörter brauchen, um über Begriffe zu reden, fällt es vielen sehr schwer, Begriffe und Wörter (eigentlich "Benennungen") auseinanderzuhalten. Es sind aber unterschiedliche „Dinge“. In der Terminologiebranche hat man sich auf das Wort Begriff als Bezeichnung geeinigt. Synonyme wie Konzept, Begriffskonzept sollten also nicht verwendet werden.

Bei Terminologieeinträgen, wie man sie aus professionellen Terminologiebeständen kennt, gibt es Informationen und Attribute, die unterschiedlichen Ebenen (unseren unterschiedlichen Matrjoschka-Puppen) zugeordnet sind. Auf Begriffsebene werden Informationen erfasst, die unabhängig von der Sprache und von der einzelnen Benennung gelten. Typische Beispiele dafür sind Definitionen oder Abbildungen.

Die nächstgrößere Puppe steht für die Sprache. Die meisten international agierenden Firmen und Organisationen bauen mehrsprachige Terminologien auf. Was für die deutsche Sprache gilt, gilt auch für Fremdsprachen. Das heißt, für einen Begriff können durchaus mehrere Wörter verwendet werden. So heißt unser gutes altes deutsches Handy im Englischen mobile phone, cell phone, cellular phone oder mobile telephone. In der Alltagssprache vieler Terminologen heißen diese fremdsprachigen Benennungen Übersetzungen. Wenn man regelmäßig übersetzt oder Übersetzungen beauftragt, ist die Verwendung des Wortes Übersetzung naheliegend und praktisch. Nach der reinen Terminologielehre jedoch sollte man nicht von Übersetzungen, sondern von Äquivalenten (akademisches Wort für "gleichwertiger Ausdruck") sprechen. Es bleibt jedem überlassen, was er für seine tägliche Arbeit verwenden möchte. Hauptsache, man legt sich auf eine einheitliche Benennung fest.

Was für die Begriffsebene gilt, gilt auch für die Sprachebene: Sie umfasst Informationen, die für alle Benennungen einer Sprache gelten. Es können Abbildungen sein, zum Beispiel wenn ein Produkt in unterschiedlichen Ländern ein unterschiedliches Aussehen hat (z. B. eine Steckdose). Es können auch Informationen für die sprachspezifische Auslegung des Begriffs sein. So mag der Begriff Frühstück überall ähnlich definiert sein, aber dessen Inhalt unterscheidet sich je nach Sprache und Kultur.

Die kleinste Puppe in unserer Sammlung steht für die Benennung.  Die Benennung ist das Wort oder eine Wortgruppe (im Englischen „phrase“), die einen Begriff bezeichnet. Man kann sich die Benennung als Etikett vorstellen, das den Namen eines Produkts nennt. Wie Etiketten auf Marmeladengläsern im Supermarkt können mehrere Wörter für dasselbe Produkt stehen: Ob Marmelade oder Konfitüre, gemeint ist dasselbe. Wenn mehr als eine Benennung für einen Begriff stehen, spricht man von Synonymen. Wenn die Synonyme nicht ganz deckungsgleich sind, spricht man von Quasi-Synonymen. Ein Beispiel dafür sind die Wörter Gefahr und Risiko. Dasselbe gilt für die Fremdsprachen. So wird unser deutsches Schwein im Englischen je nach Kontext mit pork oder pig übersetzt. Das Wort Benennung kennt mehrere Synonyme: Wort, Bezeichnung, Ausdruck. Auch hier haben sich die Terminologen auf Benennung geeinigt. Andere Alternativen sollen daher vermieden werden.

Was manche Anwender durcheinander bringt, sind Homonyme. Hier hat man für eine Benennung mehrere Bedeutungen: Läufer als Sportler oder als Bettvorlage. Das ist eine Situation, die viele aus ihrer Schulzeit kennen: Im Duden steht ein Wort und seine vielen Bedeutungen. Das nennt man benennungsorientierte Terminologie. Was für den Alltag im Privatleben durchaus nützlich ist, ist für den professionellen Einsatz als technischer Redakteur oder Übersetzer problematisch. Hier geht es vorwiegend darum, je Begriff möglichst nur eine standardisierte Benennung einzusetzen. Daher sind begriffsorientierte Terminologien sehr sinnvoll und effizient, denn sie helfen, aus der Auswahl alternativer Benennungen den Einsatz der richtigen zu steuern.

Vor allem bei der Zusammenarbeit mit Nicht-Terminologen kann es sich als sehr nützlich erweisen, vorab die wesentlichen Begriffe der Terminologiebranche zu erläutern. Die neueste Version der Norm DIN 2342 (Begriffe der Terminologielehre) liefert dazu ausführliche Definitionen und Erläuterungen.

Wissen: Der neue Rohstoff

"Wissen ist Macht". Dieses geflügelte Wort formulierte der englische Philosoph Francis Bacon vor etwas mehr als 400 Jahren. Für Unternehmen sind fachkundige Informationen und Wissen ein entscheidender Wettbewerbsfaktor. Wer Entwicklungen am Markt schneller erkennt oder alle Wissensstrukturen innerhalb seines Unternehmens perfekt vernetzt, hat definitiv die Nase vorn. Das ist der Grund, warum im Zeitalter von künstlicher Intelligenz und vom Internet der Dinge Unternehmen zunehmend den Aufbau und die Verwaltung von Wissen zum Bestandteil ihrer Strategie machen. 

Wissen zu identifizieren und zu organisieren ist eine große Herausforderung und benötigt viele Ressourcen. Das eigene Wissen ist verstreut in Ordnern, Dateien und in den Köpfen zahlreicher Mitarbeiter. Dazu kommen die Unmengen an Daten, die täglich das Internet oder verschiedene Quellen generieren. In dieser Form ist Wissen ein Rohstoff. Wie lässt er sich zu brauchbarem Wissen veredeln? 

In den letzten Jahren sind bei der automatischen bzw. halbautomatischen Wissensextraktion und -organisation dank künstlicher Intelligenz und Lernalgorithmen große Fortschritte erzielt worden. Die entscheidende Frage für Wissensarbeiter wie Redakteure und Übersetzer ist, welchen Beitrag sie beim Aufbau von Wissen leisten können. Vor allem bei der Verarbeitung von Informationen in natürlicher Sprache können Redakteure oder Übersetzer mitwirken. Und mit natürlicher Sprache ist nicht nur Deutsch, sondern sind auch die üblichen Handelssprachen gemeint.

Zuerst ist es wichtig zu verstehen, was ein Unternehmen eigentlich unter Wissen versteht. Wissen besteht aus Informationen, die strukturiert verfügbar und mit Metadaten (Daten über die Daten) angereichert sind. Damit können nicht nur Menschen das vorhandene Wissen nutzen. Vor allem Programme können es für unterschiedliche Unternehmensprojekte verwenden. Einige Beispiele solcher möglichen Anwendungen sind:

  1.  Analyse der Wahrnehmung des Unternehmens in der Öffentlichkeit, z. B. in sozialen Medien, um schneller auf bestimmte Entwicklungen zu reagieren (Sentiment Analysis). 
  2. Optimierung der Kundenbetreuung durch automatische Beantwortung von Fragen in Deutsch oder Fremdsprachen (Smart Assistenten, Chatbots. Beispiel: Lufthansa mit Mildred oder Sixt mit seinem Jobbot).
  3. Empfehlungssystem für Endkunden bei ihrer Suche nach Produkten oder Leistungen. 

Der Aufbau von Wissen ist Teamarbeit, bei der unterschiedliche Spezialisten mitwirken: Ingenieure, Computerlinguisten oder Data Science Spezialisten und einige mehr. Die besondere Kompetenz von Redakteuren liegt darin, dass sie ständig mit Wissensvermittlung zu tun haben. Sie haben ein breites Wissen über Unternehmensprodukte und haben auch ein gutes Netz an Informationsquellen aufgebaut. Fachübersetzer haben vor allem ein gutes linguistisches Knowhow. Sie sind in der Lage, sprach- oder kulturbedingte Unterschiede bei der Organisation von Wissen zu erkennen und zu dokumentieren. Beispiel: Kraftfahrzeuge, die in den USA oder in Japan anders klassifiziert sind als in Deutschland. 

Inwiefern ist das für Wissensprojekte von Interesse? Um das nachzuvollziehen, müssen wir grob verstehen, wie Wissen extrahiert und verfügbar gemacht wird. Am Anfang stehen größere Mengen an Daten in natürlicher Sprache zur Verfügung: Sammlungen von Texten, Webseiten, Beiträgen aus sozialen Medien, etc. Diese Mengen sind zu groß, um sie in einem vernünftigen Zeit- und Kostenrahmen manuell auszuwerten. Künstliche Intelligenz, Verfahren der Computerlinguistik und maschinelles Lernen erkennen Wissenselemente und machen sie sichtbar. 

In einem ersten Schritt ist die Verarbeitung der natürlichen Sprache stark statistisch, wenn bereits andere Aspekte (z. B. Syntax) zum Tragen kommen. Damit kann ein System irgendwann lernen, dass zum Thema "Auto" Elemente wie "Lenkrad", "Sitz", "Gaspedal", "Blinker" und "Rückspiegel" gehören. Es wird außerdem einen besonderen Zusammenhang zwischen "Blinker" und "Rückspiegel" erkennen und diese Begriffe vielleicht einer Kategorie "Sicherheit" zuweisen. Dieses Wissen wurde u. U. nirgendwo ausdrücklich als Wissen formuliert. Wissensspezialisten werten diese Informationen aus, um daraus computerlesbares Wissen zu erzeugen, etwa in Form von Ontologien.

Damit ist der Punkt erreicht, an dem Redakteure oder Übersetzer dazu beitragen können, Lernverfahren und Methoden der Wissensorganisation nachhaltig zu verbessern. Sie können bereits im Vorfeld semantische Informationen bereitstellen, die diese Verfahren deutlich präziser, schneller und effizienter machen. Seit einigen Jahren entstehen vermehrt Terminologiebestände, die Redakteure oder Übersetzer für ihre tägliche Arbeit anlegen. Bei einigen Großunternehmen erreicht die Zahl der erfassten Termini beeindruckende Größenordnungen, wie bei SAP mit ca. 245.000 Begriffen und 4,6 Millionen Terminologieeinträgen in 48 Sprachen1. Während die meisten Wissensspezialisten diese Bestände bisher wenig beachtet haben, stellt die erfasste Terminologie eine große Chance für die Wissensarbeit dar. Um auf unser Autobeispiel zurückzukommen, stehen in einer professionell aufgebauten Terminologiedatenbank unter dem Begriff "Rückspiegel" neben der Definition und der Benennung "Rückspiegel" auch Synonyme wie "Innenspiegel" oder Fremdsprachenbenennungen wie "rearview mirror" oder "interior mirror". Ähnlich bei "Blinker" mit Synonymen wie "Fahrtrichtungsanzeiger". Es sind qualitativ hochwertige und validierte Informationen, mit denen Lernverfahren für die Wissensextraktion optimiert und beschleunigt werden können. Als weiterer Effekt sind dadurch geringere Mengen an Trainingsdaten erforderlich, um gute Lernergebnisse zu erzielen. 

Seit wenigen Jahren können manche Terminologieverwaltungssysteme, wie das von D.O.G. entwickelte LookUp, Relationen zwischen den Begriffen darstellen. Das sind weitere nützliche Elemente, auf die Wissensexperten zurückgreifen können. Mit Relationen wie "A ist Teil von B" oder "A ist Voraussetzung für B" liefern wissenshaltige Terminologiesysteme geprüfte Informationen, die sonst anderswo noch mühsam aufgebaut werden müssen. Das schafft bei Wissensprojekten einen wertvollen Zeitvorsprung.

Schließlich können mithilfe von Terminologiedaten Wissensbestände wie Ontologien oder annotierte Dokumente deutlich präziser ausgetauscht werden. Ihre Schwäche ist ja, dass sie oft sprachlich wenig aufbereitet sind. Der Zugang zu oder der Austausch von Informationen erfolgt bisher oft nur über die hinterlegten Klassenbezeichnungen. Das ist natürlich ein Problem, wenn die menschliche oder maschinelle Suche andere Bezeichnungen verwendet. Ferner sind Ontologien meistens in nur einer Sprache definiert. 

Künstliche Intelligenz, Big Data, Wissensextraktion und Wissensmanagement sind die Bereiche, die in den nächsten Jahren sehr schnell wachsen werden. Dafür braucht man Ressourcen und gute Trainingsdaten. Das eröffnet neue Chancen für Terminologen, Redakteure und Übersetzer, die über Jahre und mit viel Fleiß Terminologien aufgebaut haben.


1 Mark Childress. Terminology Management at SAP. Präsentation bei der Frühjahrsschule der FH Anhalt in Köthen. März 2018.

Terminologie: Wie nützlich sind Nomenklaturen?

Seit Jahrtausenden versucht der Mensch, alles zu klassifizieren. Es gibt laut Jonathan Swift in Gullivers Reisen die Menschen, die ein gekochtes Ei am spitzen oder am stumpfen Ende aufschlagen, es gibt den Metallbohrer und den Holzbohrer, usw. Es ist daher nachvollziehbar, dass sich Terminologen für dieses Thema interessieren und versuchen, Termini in eine bestimmte Nomenklatur einzuordnen. Ist das eine gute Idee und ist diese Idee in einem internationalen Umfeld leicht umzusetzen? Das möchten wir hier kurz prüfen.

Um beim Beispiel des Bohrers zu bleiben, wäre es die Aufgabe des Terminologen festzulegen, dass es einen Oberbegriff "Bohrer" gibt und dass dieser Oberbegriff verschiedene Unterbegriffe wie "Metallbohrer" oder "Universalbohrer" umfasst und dass diese Unterbegriffe gegebenenfalls weitere Unterkategorien wie "HSS-Co-Metallbohrer (mit Cobaltlegierung)" oder "HSS-TiN-Metallbohrer (mit Titannitrit)" enthalten.

Was beim ersten Hinsehen logisch und einfach erscheint und für das Verständnis einzelner Begriffe sicherlich eine große Unterstützung bietet, ist bei näherer Betrachtung nicht immer leicht umzusetzen. Die erste Frage, die sich stellt, lautet: Welches Klassifikationssystem (Nomenklatur) nehmen wir? In manchen Situationen gibt es ja weltweit anerkannte Klassifikationssysteme wie etwa beim eCl@ss- Standard zum digitalen Austausch von Produktstammdaten. Aber das ist bei weitem nicht immer der Fall. Bestimmte Nomenklaturen gelten nur für einzelne Länder oder Regionen. Das ist z. B. bei der Klassifikation von Krankheiten der Fall, die in den USA bzw. in der EU oder in Japan unterschiedlich gegliedert sind. Nicht umsonst arbeiten weltweit viele Ausschüsse oder Arbeitsgruppen daran, Nomenklaturen zu harmonisieren.

Auch die vielen Landesnormen wie DIN (Deutsche Industrienormen), AFNOR (Frankreich) oder BSI (Großbritannien) klassifizieren keineswegs Produkte einheitlich. Dabei spielen auch die nationalen Gesetze eine Rolle, die bestimmte Begriffe (etwa in Bezug auf die Versteuerung der Produkte) anders definieren und auslegen.

Schließlich gibt es auch viele Situationen, in denen es einem Ingenieur, Terminologen oder Marketingverantwortlichen freigestellt bleibt, wie er Produkte oder Komponenten klassifiziert.

Ob aus einem festen Bestand anerkannter Klassifikationen oder aus frei definierten Nomenklaturen, festgelegte Klassifikationssysteme bringen einige Probleme mit sich. Zuerst einmal entsprechen Klassifikationen nicht immer dem aktuellen Stand der Technik. Technologien entwickeln sich weiter, Produkte können sehr schnell ganz neue Funktionen erhalten und dadurch in neue Kategorien fallen bzw. mehreren Kategorien angehören. Wir leben in einer Zeit raschen technologischen Wandels und neue Technologien wie Künstliche Intelligenz werden althergebrachte Klassifikationssysteme auf den Kopf stellen. Wie lange wird z. B. ein Industrieroboter noch als "automatisch gesteuerter, frei programmierbarer Mehrzweck-Manipulator" (DIN EN ISO 10218-1:2012-01) gelten?

Des Weiteren ist es speziell in Bezug auf die Terminologiearbeit von großer Bedeutung, Terminologien global aufzubauen. Das bedeutet konkret, dass keine Sprache die Organisation der Begriffe einseitig bestimmt, sondern dass sowohl der deutsche als auch der amerikanische oder griechische Nutzer sich mit den angebotenen Definitionen und Klassifikationen zurechtfindet. Es wird oft unterschätzt, wie stark Sprachen und lokale Gegebenheiten diese Faktoren beeinflussen. Verschiedene Sichtweisen für dieselbe Realität findet man immer wieder in der Technik, aber auch auf anderen Gebieten (Recht, Wirtschaft, Gesundheitswesen, usw.), sodass es besonders schwer ist, eine einheitliche universelle Klassifikation festzulegen.

Als weiterer Faktor gilt, dass Terminologien in der Regel nicht für eine einzelne Benutzergruppe, sondern auch für möglichst viele Nutzer bestimmt sind, seien es unterschiedliche Abteilungen eines Unternehmens wie Vertrieb, Entwicklung oder Produktion oder externe Nutzer wie Kunden oder Lieferanten. Hier spielt im Hinblick auf die Klassifikation der Begriffe das Nutzungsszenario des Einzelnen eine große Rolle. Wer z. B. im Supermarkt seine Einkäufe tätigt, wird sich immer wieder wundern, warum die Tomatensauce nicht bei den anderen Konserven, sondern neben Pastaprodukten aufgestellt ist. Hier steht eine verkaufsfördernde Klassifikation im Vordergrund. Der Redakteur blickt auch nicht zwangsläufig mit denselben Augen auf Produkte wie der Produktentwickler. Für ihn stehen Sicherheitsaspekte und die Vermittlung von Informationen über die Bedienung und Wartung des Produktes im Vordergrund, nicht die Bestellung von Produktionsmaterial oder bestimmte Produktionsabläufe.

Sobald die Terminologiearbeit mehr als eine klar abgegrenzte Benutzergruppe erreichen soll, bilden feste Nomenklaturen in vielen Fällen bei der Terminologieanreicherung eher ein Hindernis. Sie sind nicht sehr flexibel, zwingen die Klassifikation einer bestimmten Benutzergruppe auf und sind aufgrund sprachlicher oder kultureller Faktoren oft international problematisch.

Daher bieten Terminologien, die mehr auf individuelle Relationen zwischen Begriffen bauen, eine größere Flexibilität. Sie lassen z. B. zu, dass ein Begriff mehrere Oberbegriffe hat oder dass weitere assoziative Beziehungen wie "Ist_Teil_Von", "Beeinflusst" oder "Wird_Verkauft_Mit" Begriffe miteinander verbinden. So bleibt die Organisation der Terminologie flexibel, sie kann die Ziele und Bedürfnisse einzelner Benutzergruppen einbeziehen und berücksichtigt besser die Unterschiede zwischen Sprachen und Ländern.

Suchen und Finden im Internet

Für Wissensmitarbeiter wie es Redakteure und Übersetzer sind, ist es besonders wichtig, schnell und zuverlässig gute Informationen zu finden. Kaum jemand startet heute ohne Google-Suche. In vielen Fällen erhält man mit entsprechenden Suchtechniken die benötigte Antwort oder Übersetzung in einer akzeptablen Zeit. Es bleibt jedoch die Frage, ob Google eventuell noch bessere Informationen vorenthalten hat bzw. wo man sonst suchen könnte, wenn die Ergebnisse nicht zufriedenstellend sind.

Google hat als Mainstream-Suchmaschine einen großen Einfluss auf das, was Menschen an Informationen erhalten und verwendet inzwischen mit der RankBrain-Komponente Verfahren der künstlichen Intelligenz. Besonders wenn man nach innovativen oder sensiblen Informationen sucht, ist es daher ratsam, nach weiteren Quellen zu suchen.

Google selbst bietet neben seinem standardmäßigen Browser spezielle Suchmaschinen an. Eine hat sich auf akademische Publikationen und Fachartikel spezialisiert und ist sehr nützlich, wenn man wissenschaftliche Literatur sucht: Google Scholar (scholar.google.de, scholar.google.com). Ergänzend kommt dazu die spezielle Suche nach Büchern mit Google Books (books.google.de, books.google.com). Hier findet man neben Büchern, die man kommerziell erwerben kann, eine Vielzahl von eingescannten Büchern aus öffentlichen Bibliotheken, bei denen es sich oft um ältere Publikationen handelt. Ein Teil dieser Bücher lässt sich als PDF-Datei herunterladen.

Ein Dienst wie Slideshare (de.slideshare.net) gehört zu der Kategorie der Bookmarking-Websites und bietet Links zu Publikationen, Präsentationen und weiteren Dokumenten zu einem gewünschten Thema.

Es gibt mehrere Tausend Suchmaschinen auf der Welt, welche teils die durch Google indizierten Seiten, teils eigene Indizierungsverfahren verwenden. Besonders interessant sind natürlich dabei die Maschinen, die selbst das Internet nach Content durchforsten. Eine dieser Suchmaschinen ist beispielsweise Qwant. Qwant ist interessant, weil es eine in Europa und mit EU-Unterstützung entwickelte Suchmaschine ist (www.qwant.com).

Einige dieser alternativen Suchmaschinen bieten anonymes Surfen, d. h., dass die Suche und die Suchergebnisse nicht archiviert und für Dritte nicht zugänglich sind. Eine der am weitesten verbreiteten ist DuckDuckGo (www.duckduckgo.com).

Wer sich auf bestimmte Themen oder Länder spezialisiert, kann Suchmaschinen verwenden, die sich explizit damit befassen. Es gibt Suchmaschinen, die Informationen zu spezifischen Ländern oder Regionen indizieren, während sich andere mit Themen wie Programmieren oder Wirtschaft befassen. So ergibt die Suche nach einem medizinischen Thema bei der Suchmaschine PubMed (www.ncbi.nlm.nih.gov/pubmed) interessante alternative Informationen zu Google.
Einige Suchmaschinen haben sich auf die Suche nach Bildern spezialisiert. Eine der bekanntesten heißt Flickr (www.flickr.com). Weitere sind die bekannten Instagram- und Pinterest-Seiten (www.instagram.com bzw. www.pinterest.de).

Eine weitere Kategorie von Suchmaschinen bilden die Metasuchmaschinen, d. h. dass sie den gesuchten Ausdruck an eine Reihe von Suchmaschinen schicken und die Ergebnisse in einer gemeinsamen Oberfläche darstellen. Es gibt globale Metasuchmaschinen wie Search (www.search.com), oder dogpile (www.dogpile.com), aber auch welche, die in Deutschland, wie MetaGer (www.metager.de), oder in der Schweiz, wie eTools (www.etools.ch), entwickelt worden sind.

Ferner gibt es solche, die man als semantische Suchmaschinen benennt. Es sind Suchmaschinen, die nicht exakt nach einem Ausdruck, sondern eher nach einer Bedeutung suchen. Dafür benutzen sie Quellen, die semantisch aufbereitet worden sind, d. h. in welchen weiterführende Informationen wie Quellen, Relationen zu anderen Begriffen, Sachgebiete und noch einiges mehr hinterlegt sind. Leider sind manche dieser Maschinen auf Eingaben in Englisch beschränkt. Einige der Suchmaschinen sind: Swoogle (http://swoogle.umbc.edu/2006/), WolframAlpha (www.wolframalpha.com) oder Semager in deutscher Sprache (www.semager.de).

Internetbasierte Wissensdatenbanken wie DBpedia (http://wiki.dbpedia.org/) sind weitere nützliche Informationsquellen. Das Wissen von DBpedia basiert auf Wikipedia und auf weiteren Wissensbeständen über Linked Open Data. DBpedia lässt sich sogar mithilfe eines Chatbots durchsuchen. Man kann eine Frage eingeben und wird dann zu passenden Beiträgen weitergeleitet.

Für technisch versierte Internauten besteht noch die Möglichkeit, direkt auf Ontologien zuzugreifen. Unter Ontologien versteht man maschinenlesbare Wissensbestände über ein Thema ("Domain"), die man mithilfe von Tools wie das Open Source Programm Protégé (https://protege.stanford.edu/) durchsuchen kann. Da Ontologien XML-basierte Dateiformate wie OWL und RDF verwenden, kann eine gezielte Suche in Google nach Dateien in diesem Format (mit dem Ausdruck "filetype: OWL" bzw. RDF) zu Ontologien führen, die man notfalls in einem Texteditor öffnen und "lesen" kann.

Schließlich lässt sich auch über YouTube oder über soziale Netze nach Informationen suchen. So kann man über Twitter bestimmte Stichwörter eingeben und erhält Links zu entsprechenden Artikeln, Produkten oder Präsentationen.

Sicherlich haben wir hier nicht alle Möglichkeiten geschildert und dargestellt, um nach alternativen Informationsquellen zu Google im Internet zu suchen, aber diese Tipps sind ein guter erster Schritt. Wie immer bleibt am Ende die Auswahl und Entscheidung über die bessere Information beim Menschen, und das ist auch gut so.

Bildquelle: http://winfwiki.wi-fom.de/index.php/Analyse_der_Suchmaschine_Wolfram_Alpha; Stand: 19.09.2017

Terminologiequalität aufrechterhalten

Wie oft wird über die Bäume aber nicht über den Wald nachgedacht? Mit der Terminologie ist es nicht anders. Im Terminologieleitfaden stehen gute und sinnvolle Regeln für die Schreibweise deutscher Komposita, für das Erstellen von Definitionen oder für die Festle­gung von Verwendungsattributen. Was jedoch oft fehlt, sind Regeln und Methoden für die Sicherung der Qualität und Konsistenz des Terminologiebestands insgesamt.

In der Aufbauphase einer Firmenterminologie spielen sprachliche oder technische Kriterien für die Erfassung einzelner Begriffe oder Be­nennungen die Hauptrolle. Nach einer Weile treten sie allerdings in den Hintergrund, so­bald die Hauptbeteiligten an der Terminolo­giearbeit die Basisregeln verinnerlicht haben. Mit dem Anwachsen des Terminologiebe­stands und mit der Erweiterung der Nutzer­gruppen treten dafür andere ganzheitliche Problempunkte in den Vordergrund, die mehr die innere Konsistenz der Daten, die konkre­ten Verwendungssituationen und die Zielgrup­pengerechtigkeit der Terminologie betreffen. Im Einzelnen geht es um folgende Aspekte:

  1. Erkennung von Synonymen, Homonymen und von neuen bzw. veralteten Bedeutungen.
  2. Sicherstellung der Benennungskonsistenz. 3. Multilingualer Abgleich der Begriffe und Begriffssysteme.
  3. Einheitliche Handhabung, Vollständigkeit und Widerspruchslosigkeit der verschie­denen Datenfelder.
  4. Zielgruppengerechte und zweckmäßige Metadaten und Ansichten.

Wenn eine gewisse kritische Masse an Be­griffen und Benennungen erreicht ist, wächst gleichzeitig die Chance, dass dabei unerkannt Synonyme oder Homonyme in die Terminolo­giedatenbank aufgenommen wurden. Leicht abweichende Schreibvarianten oder morpho­logische Varianten wie "Dichtungsring" und "Dichtring" sind noch relativ leicht zu erkennen. Schwieriger wird es, wenn es sich um komplett unterschiedliche Benennungen handelt, die man allerdings mithilfe öffentlich zugänglicher Wörterbücher noch identifizieren kann. Und ganz schwierig ist es letztendlich, wenn nur Kenntnisse des Unternehmensjargons oder detailliertes Produktwissen das Erkennen ei­nes Synonyms ermöglichen. Woher soll z. B. ein Terminologe wissen, dass für einen bestimmten Automobilhersteller die Benennungen "Erste- Hilfe-Set" und "Verbandtasche" synonym sind?

In ähnlicher Weise ist das Aufspüren von Homo-nymen nicht immer einfach. Das Grundprinzip begriffsorientierter Terminologien besteht darin, dass ein Begriff eine Grundbedeutung darstellt. Durch den regelmäßigen Einsatz und die Er­weiterung eines Terminologiebestands kommt es aber immer wieder vor, dass der gedachte Begriff eigentlich zwei oder mehr Bedeutungen abdeckt. "Aufnahme" wird auf einmal nicht mehr ausschließlich für das aufnehmende Ma­schinenteil eines Werkstücks, sondern auch im Sinne eines Aufzeichungsvorgangs verwendet. In solchen Situationen soll der Terminologie­kreis die Begriffe trennen und nach Möglichkeit Alternativbenennungen für einen der getrenn­ten Begriffe suchen. Diese Entwicklung beein­flusst ebenfalls die Verknüpfung zwischen Be­griffen, die regelmäßig überprüft werden muss.

Es gibt leider kein Patentrezept für das au­tomatische Aufdecken unerkannter Syno­nyme bzw. Homonyme. Die Untersuchung vorhandener Datenbestände aus Redakti­onssystemen oder Translation-Memorys kann manchmal mithilfe einer Konsistenzanalyse deutscher Sätze bzw. deren Übersetzungen Hinweise liefern. Ebenfalls kann es nützlich sein, Benennungslisten nach deren Endun­gen zu sortieren ("Schlepperventil" und "Trak­torventil" haben dieselbe Endung) oder nach Homonymen in Fremdsprachen zu suchen (EN: "brush" für DE: "Pinsel" und "Bürste"). Verwendungsstatistiken können veraltete Be­nennungen oder Begriffe ausfindig machen, besonders wenn sie zeitraumbezogen sind.

Mit der wachsenden Anzahl an Benennungen im Deutschen wie in den Fremdsprachen steigt das Risiko von sprachlichen und semantischen Inkonsistenzen. Während beispielsweise in einer Terminologie Komposita die Entfernung immer mit "Abstand" ("Abstandring") angeben, taucht auf einmal die Benennung "Distanzsen­sor" auf. Ähnliches gilt für die Fremdsprachen.

Bei mehrsprachigen Begriffssystemen ist es nicht außergewöhnlich, dass eine Sprache den Begriff etwas breiter oder enger auslegt. Manche Sprachen setzen für die Vermittlung von Informatio­nen mehr auf den Kontext während andere mehr in die einzelnen Begriffe packen. So kann man aus einem einzelnen chinesischen Wort nicht erkennen, ob es sich um Einzahl oder Mehrzahl handelt. In vielen Fällen enthalten Terminologien keine Information darüber, worin die Begriffsun­terschiede liegen, was in manchen Situationen eine entscheidende Rolle spielen kann.

Viele Terminologiebestände behandeln Attri­bute und Metadaten stiefmütterlich, weil Zeit und Budget fehlen, um sie ordentlich zu befül­len und zu pflegen. Wichtig sind in erster Linie Aspekte, die den korrekten Einsatz der Ter­minologie unterstützen. Wenn beispielsweise Synonyme für einen Begriff vorkommen, dann braucht der Nutzer Verwendungsattribute, um entscheiden zu können, welche Variante er ein­setzen soll. Auch die Widerspruchslosigkeit der Attribute ist wichtig. Eine Benennung darf nicht gleichzeitig den Status "nicht geprüft" und die Verwendung "erlaubt" haben. Ferner gehört zur Datenpflege, dass dieselben Informationsty­pen einheitlich behandelt und richtig zugeord­net werden. Ein weiterer Punkt ist das Prüfen der Attribute auf formale Fehler (z. B. abwei­chende Schreibweisen oder Varianten wie "Ver­boten", "verboten", "forbidden", "deprecated"), die durch den Import von Listen neuer Termini in eine Datenbank vorkommen können.

Schließlich soll die Qualitätskontrolle sicher­stellen, dass die Metadaten Informationen be­rücksichtigen, die für neue Nutzergruppen rele­vant sind. Mit dem Erfolg und der Verbreitung der Terminologiearbeit kommen neue Anwen­der hinzu, die eigene Anforderungen an die Ter­minologie haben und sie für bestimmte Zwecke einsetzen möchten, etwa für den Vertrieb oder für den technischen Support. Da diese Infor­mationen in der ersten Aufbauphase einer Fir­menterminologie nicht vorhanden waren, muss man sie im Nachhinein einpflegen. Das kann auch dazu führen, dass neue Attributfelder be­nötigt werden. Weil mit der Zeit die Anzahl der Sprachen und Informationen in einem Termino­logiebestand überhand nehmen können, ist es gleichzeitig empfehlenswert zu überlegen, ob alle Nutzer wirklich alle Informationen sehen müssen. Daraus können Gruppenansichten entstehen, eine Funktion, die aber nicht alle Terminologieverwaltungssysteme anbieten.

Sehr hilfreich für die Gesamtpflege eines Terminologiebestands ist die Möglichkeit, die Daten nach anderen Applikationen wie Excel zu exportieren, um mithilfe von Funktionen, Makros und Filtern Problemfälle zu entde­cken und zu korrigieren. Nur wenige Termino­logieverwaltungssysteme, wie das von D.O.G. entwickelte Terminologieverwaltungssystem LookUp, unterstützen den fehlerfreien Ab­gleich und Reimport aktualisierter Daten.

Wir leben in einer Zeit, in der Redakteure und Übersetzer Inhalte zunehmend wiederverwen­den. Um Zeit und Kosten zu sparen, werden nicht selten diese Inhalte unbesehen wie­derverwendet. Wenn die darin vorkommende Terminologie unzureichend geprüft ist, kann es leicht geschehen, dass die Daten fehler­hafte oder missverständliche Informationen enthalten. Man ist daher gut beraten, die hier skizzierten Aspekte der Terminologiepflege nicht dem Zufall zu überlassen und in einen Standardprozess einzubinden.