Terminologieextraktion mit Excel und Word

Ein Leitfaden für Technische Redakteure und Übersetzer

Kaum jemand wird in Frage stellen, dass Terminologiearbeit einen wichtigen Beitrag zur Qualität der Kommunikation im technischen Bereich leistet. Es ist jedoch nicht immer einfach, die notwendigen Ressourcen und Werkzeuge zu finden, um diese Aufgabe effektiv zu bewältigen. Daher suchen viele nach einer einfachen, pragmatischen Lösung.

Die hier vorgestellte Methode mag nicht ideal sein, aber sie liefert schnelle und brauchbare Ergebnisse. Sie basiert auf gängigen Microsoft Office Anwendungen, was sie besonders zugänglich macht.

Extraktion von Termkandidaten aus Texten

Oftmals möchten wir für eine bestimmte Arbeit die wichtigsten Termini aus einem Text extrahieren. Dies kann beim Erlernen neuen Wissens oder beim Schreiben eines Artikels nützlich sein, und insbesondere auch bei Übersetzungsprojekten.

Eine vollautomatische Terminologieextraktion bleibt für Redakteure oder Übersetzer ein utopisches Ziel. Texte sind sehr komplexe Systeme und bergen zahlreiche linguistische Herausforderungen. Diese umfassen die Erkennung der Grundformen von Termini und unregelmäßigen Pluralformen („Förderband“/“Förderbänder“), die Zerlegung von zusammengesetzten Wörtern („Mess- und Regeltechnik“), die Identifizierung fester Wortgruppen („speicherprogrammierbare Steuerung“) oder die Erkennung von Synonymen („Abstandring“/“Distanzring“).

Daher besteht für uns die Herausforderung darin, eine Lösung zu finden, die ohne großen Aufwand und ohne spezielle Tools umsetzbar ist. Hier bietet sich die Kombination von Microsoft Word und Excel an.

Erste Schritte: Textvorbereitung in Word

Unser erstes Ziel besteht darin, aus einem vorliegenden Textdokument in Word-Format eine Liste von Wörtern zu extrahieren, die als unsere Termkandidaten gelten. Dafür benötigen wir zunächst den reinen Textinhalt, ohne Formatierung, Tabellen oder Grafiken.

Um dies zu erreichen, speichern Sie Ihr Word-Dokument als Textdatei (*.txt) ab. Damit wird der reine Text, frei von jeglicher Formatierung, beibehalten. Schließen Sie das Dokument und öffnen Sie es erneut, um den formatfreien Text zu sehen.

Jetzt wollen wir eine reine Wortliste generieren. Dazu ersetzen wir alle Leerzeichen durch Absatzmarken. Hierfür nutzen wir die Suchen- und Ersetzen-Funktion von Word: Drücken Sie “Strg+H“, geben Sie im Feld “Suchen nach” ein Leerzeichen ein und im Feld “Ersetzen durch” “^p” (ohne Anführungszeichen). Klicken Sie dann auf “Alle ersetzen“. Sie sehen dann alle Wörter untereinander.

Wortliste erstellen und bereinigen in Excel

Nachdem wir unsere Liste von Termkandidaten erstellt haben, kopieren wir sie in eine leere Excel-Tabelle. Verwenden Sie dazu “Strg + A” (um alles zu markieren) und dann “Strg + C” (um zu kopieren). Wechseln Sie zu Excel, klicken Sie auf die erste Zelle der Spalte A und drücken Sie “Strg + V” (um einzufügen).

Der nächste Schritt ist die Bereinigung und Sortierung unserer Liste. Um dies zu tun, markieren Sie die Spalte A, klicken Sie auf den Reiter “Daten” und wählen Sie die Option “Von A bis Z sortieren“. Um Duplikate zu entfernen, markieren Sie erneut die Spalte A, wählen Sie “Daten” > “Duplikate entfernen” und klicken Sie auf “OK“.

Stoppwörter aussortieren

Es gibt Wörter, die inhaltlich wenig aussagekräftig sind und daher aus unserer Liste entfernt werden sollten. Diese als “Stoppwörter” bezeichneten Wörter umfassen häufig gebrauchte Wörter wie “und“, “oder“, “während“, etc. Sie können Listen von Stoppwörtern online finden und diese in die Spalte C Ihrer Excel-Tabelle einfügen.

Um Stoppwörter aus Ihrer Wortliste zu entfernen, können Sie die Funktion “VERGLEICH” verwenden. Geben Sie in der ersten Zelle der Spalte B die Formel “=VERGLEICH(A1;$C$1:$C$100;0)” (wenn Ihre Stoppwörter sich zwischen der Zelle C1 und C100 befinden) ein und kopieren Sie diese in die gesamte Spalte B. Alle Einträge in Spalte A, die in Spalte C vorkommen, erhalten jetzt eine Ziffer. Alle anderen Einträge werden mit “#NV” markiert.

Sie können sich das Leben leichter machen, indem Sie diesen Bereich benennen. Markieren Sie hierfür den Bereich, der die Stoppwörter enthält (z.B. $C$1:$C$100). Gehen Sie anschließend in den Reiter “Formeln” und wählen Sie die Option „Namen definieren“. Geben Sie dem Bereich einen Namen, z.B. “STOPPWOERTER”. Diesen Namen können Sie nun in Ihren Funktionen verwenden.

Um die Stoppwörter zu entfernen, sortieren Sie die Tabelle basierend auf Spalte B. Wählen Sie alle Zellen mit Zahlen und löschen Sie sie, indem Sie “Strg + –” (Minus) drücken.

Wortvarianten reduzieren

Unser nächster Schritt besteht darin, Wortvarianten zu reduzieren. Dies ist besonders relevant für Sprachen wie Deutsch, die über zahlreiche Wortformen verfügen.

Geben Sie in der ersten Zelle der Spalte B die Formel “=RECHTS(A1;2)” ein, um die letzten beiden Buchstaben jedes Wortes zu erhalten. Kopieren Sie diese Formel in die gesamte Spalte B und sortieren Sie die Tabelle erneut, diesmal basierend auf Spalte B.

Löschen Sie erneut alle Duplikate in Spalte A und markieren Sie die verbleibenden Einträge, die Sie als relevant erachten. Fügen Sie ein Symbol, z.B. eine Raute (#), in Spalte C neben jedem Wort ein, das Sie behalten möchten.

Dynamische Erweiterung der Stoppwörter-Liste

Um den Extraktionsprozess effizienter zu gestalten, können Sie Ihre Stoppwortliste laufend mit Wortkandidaten erweitern, die nicht zur Terminologie hinzugefügt werden sollen. Außerdem können bereits bekannte Termini ebenfalls auf dieser Liste aufgenommen werden.

Mit jedem Update der Stoppwortliste wird das Extraktionswerkzeug präziser. Es verbleiben bei der nächsten Extraktion deutlich mehr “interessante” Wörter, die noch nicht erfasst wurden.

Mehr-Wort-Termini extrahieren

Für bestimmte Sprachen wie Englisch oder Spanisch ist es oft notwendig, Wortgruppen von zwei oder drei Wörtern zu extrahieren. Sie können ähnlich vorgehen wie mit der Ein-Wort-Liste. Zur Umsetzung kopieren Sie die Wortliste aus der Word-Datei drei Mal in Excel und setzen sie in abgestuften Schritten, beginnend bei A3, B2 und C1, nebeneinander. Dies simuliert die Abfolge von drei aufeinanderfolgenden Wörtern im Originaltext.

Um die unerwünschten Terminologie-Kandidaten auszusortieren, können Sie ähnlich vorgehen wie bei der Ein-Wort-Liste, jedoch mit speziellen Stoppwörtern für den Anfang oder das Ende der Wortgruppe.

Wir hoffen, dass dieser Leitfaden Ihnen dabei hilft, Ihre Terminologiearbeit effizienter zu gestalten. Es ist wichtig zu beachten, dass dies eine grundlegende Methode ist und dass es viele weitere fortgeschrittene Tools und Methoden gibt, die in zukünftigen Artikeln vorgestellt werden.

Zum Schluss: Terminologie verwalten

Sobald Sie regelmäßig Terminologie extrahieren, können Sie sich fragen, wie Sie die extrahierten Termini am besten speichern. Für eine Weile können Sie die Terminologiedaten sicherlich sehr bequem in einer großen Excel-Tabelle sammeln, aber für den professionellen Einsatz empfehlen wir die Nutzung spezialisierter Tools wie LookUp, die Sie auch auf unserer Website testen können.

Nach oben scrollen