Wie funktioniert Named Entity Recognition?
Named Entity Recognition ist eine Teildisziplin des Natural Language Processing (NLP), im Deutschen der Computerlinguistik, und beschäftigt sich mit der automatischen Erkennung von Eigennamen in natürlichen Texten.
INFO
Als natürlicher Text gilt ein Text, der von Menschen untereinander zur Kommunikation genutzt wird – wie beispielsweise dieser Artikel. In Abgrenzung dazu stehen maschinengeschriebene Texte oder Texte, die Menschen für Maschinen schreiben, wie Programmiercode.
Die NER filtert natürliche Texte auf Entitäten. Als Entitäten werden Wörter oder Wortabfolgen verstanden, mit denen sich ein Eigenname präzise bestimmen lässt: „Erika Musterfrau“ gilt dabei genauso als Entität wie „Brandenburger Tor“.
In dem Satz „Das Brandenburger Tor wurde in den Jahren 1789 bis 1793 erbaut“ finden sich die zwei Beispiel-Entitäten Ort und Datum. Ob sich die Markierung nur auf die Entitäten selbst oder auch auf vorangehende beziehungsweise folgende Wörter erstreckt, ist abhängig vom jeweiligen Modell.
Neben der reinen Erkennung dieser Informationsschnipsel lässt sich über ein NER-Modell die Entität kategorisieren. Wie die Kategorisierungen konkret aussehen, legen Sie vorab fest. Häufige Kategorien einer Named Entity Recognition umfassen:
- Eigennamen von Personen: Diese Kategorie umfasst Personennamen in allen Varianten, etwa „Erika Musterfrau“ und „Queen Elizabeth II“.
- Eigennamen von Organisationen: In diese Kategorien fallen etwa Unternehmensnamen („Google“), aber auch Bildungseinrichtungen („Humboldt-Universität zu Berlin“).
- Eigennamen von Marken: Auch die Erkennung von Markennamen (zum Beispiel „Coca-Cola“, „iPhone“) kann zu den Aufgaben eines NER-Modells gehören.
- Eigennamen von Kunstwerken: Das Ziel von Eigennamenerkennung können auch Kunstwerke, seien es Malereien („Der Schrei“), Tonaufnahmen („Yellow Submarine“), Filme („Citizen Kane“), Bücher („Stolz und Vorurteil“) oder alle anderen Kunstformen wie Theaterstücke und Bildende Künste sein.
- Daten und Uhrzeiten: Gerade Daten tauchen in vielen unterschiedlichen Schreibungen auf: „im Jahr 1990“, „am 1. April 1990“, „vor zwei Stunden“ und „um 15:30 Uhr“ sind Angaben, die eine zeitliche Verortung ermöglichen.
- Orte: Auch Ortsnamen weisen eine große Bandbreite auf („Central Park“, „Zugspitze“, „Kurfürstendamm 225“).
Daneben sind eine Vielzahl weiterer Kategorien denkbar, etwa historische Ereignisse und wissenschaftliche Paper. Daher gibt es auch unter den NER-Modellen ganz unterschiedliche Ausführungen. Auch wenn die Funktionsweise dieser Modelle immer eine ähnliche ist, unterscheiden sie sich je nach ihrem Einsatzzweck stark in ihrer Ausrichtung.
Einsatzmöglichkeiten für NER in der Praxis
Die Eigennamenerkennung lohnt sich besonders für große Textmengen, die auf bestimmte Informationen durchsucht werden sollen. In diesen Fällen kann der Algorithmus seine ganze Stärke ausspielen. Diese Informationen können in den Texten selbst markiert, in neuen Texten zusammengefasst oder direkt durch eine KI weiterverarbeitet werden.
INFO
Achtung: Die Named Entity Recognition trifft keine Aussagen über den Wahrheitsgehalt ihrer Ergebnisse, sondern gibt lediglich Informationen aus den Texten wieder, auf die sie angewendet wurde.
Es gibt daher viele Anwendungsbereiche, in denen Named Entity Recognition zu großen Zeitersparnissen führen kann. Exemplarisch seien hier vier Einsatzmöglichkeiten in der Praxis vorgestellt.
- Kundensupport erleichtern: Bei einem großen Supportaufkommen auf vielen Kanälen unterstützt NER dabei, die Anfragen zu sortieren und zu filtern, sodass sie automatisch den jeweiligen Spezialisten zugeordnet werden. Das verkürzt die Bearbeitungszeit wichtiger Tickets und entlastet die Mitarbeiter.
- Online-Suche verbessern: Named Entity Recognition kann viele informationsorientierte Anfragen zielgerichtet beantworten, indem es die Antworten etwa aus Online-Enzyklopädien extrahiert.
- Trends erkennen: Durch kontinuierliche Analysen von Online-Zeitungen oder -Magazinen bietet Ihnen ein entsprechendes NER-Modell die Möglichkeit, beispielsweise Artikelthemen zu klassifizieren und damit Trends frühzeitig zu entdecken.
- Wissenschaftliches Arbeiten vereinfachen: Named Entity Recognition erleichtert die Suche in historischen Dokumenten und anderen großen Textkorpora. Durch Zusammenfassungen der Inhalte und Taggen wichtiger Themen finden Sie schneller die Texte, die zu Ihrer wissenschaftlichen Arbeit passen. Ein Beispiel dafür ist das Projekt Europeana Newspapers, das sich auf vergangene Zeitungsartikel spezialisiert hat.
Trainingsdaten und Machine Learning: So trainieren Sie ein NER-Modell
Bevor ein neues Modell mit Named Entity Recognition zum Einsatz kommt, muss es trainiert werden. Wie wir selbst viele Jahre Erfahrung benötigen, um die Informationen aus einem Zeitungsartikel ohne großes Nachdenken verarbeiten zu können, ist auch ein Algorithmus darauf angewiesen, mit möglichst vielen Präzedenzfällen gefüttert zu werden, damit er verlässliche Muster daraus ableiten kann. Dies lässt sich mittels eines großen Trainingskorpus und über Machine Learning erreichen.
Zwei Faktoren sind für das Training eines neuen NER-Modells ausschlaggebend, damit es später im Einsatz bestmögliche Ergebnisse erzielt:
- Hochwertige Datensätze: Es ist naheliegend, dass die Datensätze für ein NER-Modell so weit wie möglich mit dem späteren Einsatz übereinstimmen sollte. Wenn Sie die Eigennamenerkennung im Kundensupport nutzen, sollten Sie beispielsweise als Trainingsdaten Ihre eigenen Supporttickets wählen. Außerdem sollte die Anzahl der Datensätze ausreichend sein, um den Algorithmus auf möglichst viele Situationen vorzubereiten. Weitere Tipps für die Auswahl der Trainingsdaten finden Sie in unserem Guide für hochwertige Trainingsdaten.
- Professionelle Aufarbeitung: Abschließend annotieren Sie die Datensätze, um dem Algorithmus das richtige Verständnis vorzugeben. Da es sich meist um große Textkonvolute handelt, die aufwendig markiert werden müssen, empfiehlt es sich, diesen Arbeitsschritt auf die Crowd auszulagern. Wir unterstützen Sie bei diesem Vorhaben und sorgen mit ihrer Qualitätskontrolle für eine maximale Güte Ihrer Trainingsdaten.