11.10.2021,
Sebastian Frenzel

Crowdsourcing für eine optimale Entwicklung von Sprachsteuerung

Programme und Anwendungen, die sich mit Sprachsteuerung bedienen lassen, halten zunehmend Einzug in unser Leben: Sie erleichtern die Bedienung von Smartphone und Laptop, sind Teil von Smart-Home-Anwendungen oder leiten uns durch ein Telefonat, bevor wir zu einem auf unser Problem spezialisierten Mitarbeiter durchgestellt werden.

Umso ärgerlicher, wenn die Spracherkennung nur ungenügend funktioniert – wenn der Sprachassistent uns nicht versteht, weil wir mit einem Akzent sprechen, Sprachprobleme haben oder ganz einfach, weil wir weiblich sind.

Probleme in der Spracherkennung können mehrere Ursachen haben:

Der Künstlichen Intelligenz (KI) des Sprachassistenten standen nicht genügend Trainingsdaten zur Verfügung.
Die Trainingsdaten waren nicht divers genug, berücksichtigen also nicht alle Bevölkerungsgruppen.
Der Programmiercode der Künstlichen Intelligenz berücksichtigt die Diversität von Stimmen nicht ausreichend.

Aber wieso muss eine Sprachsteuerung überhaupt trainiert werden? Wir geben einen Einblick in das System dahinter und nennen drei Einsatzgebiete für Crowdsourcing in der Entwicklung, damit der Sprachassistent später so arbeitet, wie von Ihnen beabsichtigt.

Die drei Säulen der Spracherkennung

Hinter einer Sprachsteuerung steckt eine Künstliche Intelligenz, die unsere Äußerungen erfassen und sinnvoll darauf reagieren sollen. Vereinfacht lässt sich die Funktionsweise in drei Bereiche aufgliedern, die nacheinander ablaufen:

1. Texterfassung

An erster Stelle steht die Erfassung einer Lautäußerung. Wie dies geschieht, hat große Auswirkungen auf die anschließende Identifizierung von Wörtern und Texten. Je nachdem, wie unsere Laute aufgenommen werden (etwa über das Telefon oder ein Mikrofon an Smartphone oder einem anderen Gerät), ergeben sich unterschiedliche Anforderungen an die anschließende Identifizierung der Laute.

Wenn wir in ein Telefon sprechen, erreichen unser Gegenüber beispielsweise nicht alle Tonfrequenzen. Im Extremfall – zum Beispiel einer schlechten Verbindung – fehlen einzelne Wort- oder sogar Satzteile. Für diesen Fall der eingeschränkten Verständlichkeit, die selbst uns Menschen teilweise vor Herausforderungen stellt, muss die Sprach-KI gründlich vorbereitet werden, sodass sie eventuell auftretende Wortlücken selbst befüllen kann.

2. Textverständnis

Eine KI muss von Grund auf lernen, aus welchen Gesetzmäßigkeiten eine Sprache besteht, wie häufige Redewendungen lauten und wie die Intention hinter unseren Spracheingaben aussieht. Bei einer Frage, die mit einem einfachen „Ja“ oder „Nein“ beantwortet werden kann, ist dies noch verhältnismäßig einfach – bei offenen Fragen oder Befehlen, die wir unseren alltäglichen Helfern wie Siri, Alexa, Google Assistant und Co. stellen, ist dafür weit größerer Aufwand nötig.

Erschwert wird die Erkennung dadurch, dass sich unsere Stimmen ganz unterschiedlich anhören: Ob wir jung oder alt, weiblich oder männlich sind, hat Auswirkungen zum Beispiel auf unsere Stimmhöhe. Außerdem sprechen wir unterschiedliche Dialekte und Akzente und nutzen unterschiedliche Phonationstypen. Im Falle ausgeklügelter Sprachassistenten kann sogar die Anforderung hinzukommen, dass die KI unterschiedliche Stimmungen und Emotionen wahrnimmt, etwa um Ironie und Sarkasmus erkennen zu können.

Damit dies funktioniert, benötigt die KI einen großen Pool an Anschauungsmaterial. Aus diesen sogenannten Trainingsdaten bildet die KI mittels maschinellem Lernen Muster – sie lernt anhand vieler verschiedener Stimmen, wie wir sprechen und was wir mit unseren Äußerungen ausdrücken.

3. Handlung ableiten

Wenn wir mit einem Sprachassistenten kommunizieren, verfolgen wir damit ein Ziel. Sobald das Programm unsere Intention herausgefiltert hat, muss es daraus noch die richtige Reaktion ableiten. Diese kann ganz unterschiedlich aussehen. Mittlerweile sind die Einsatzgebiete, bei denen uns Sprachassistenten weiterhelfen können, vielfältig. Zu den häufigsten Anwendungsbereichen gehören:

Vorqualifizierung in einem Call-Center
Spracheingaben, zum Beispiel in einem Navigationsgerät
Informationen erhalten, zum Beispiel die Öffnungszeiten eines Restaurants
Sprachliche Eingaben ausführen, zum Beispiel eine Nummer wählen oder ein Produkt bestellen

Die technischen Fortschritte, die in den letzten Jahren in der Sprachsteuerung gemacht wurden, sind beeindruckend. So können Sprachassistenten mittlerweile unter anderem blinde Personen durch für sie fremde Umgebungen leiten oder unsere Worte simultan in andere Sprachen übersetzen.

Um diesen Professionalitätsgrad zu erreichen, ist ein gutes Training der KI ausschlaggebend. Mittels Crowdsourcing können sie in verschiedenen drei verschiedenen Bereichen den Grundstein für eine professionelle Sprachsteuerung legen.

Crowdsourcing für vielfältige Trainingsdaten

Damit die Anwendung der Sprachsteuerung reibungslos funktioniert, benötigt die Sprach-KI vorab möglichst viele Trainingsdaten, die den späteren Spracheingaben im Betrieb entsprechen. Durch maschinelles Lernen leitet sich die Künstliche Intelligenz daraus ihre eigenen Gesetzmäßigkeiten ab. Je genauer die Trainingsdaten auf den späteren Einsatz der KI zugeschnitten sind und je mehr unterschiedliche Stimmen in der Datenbank vertreten sind, desto verlässlicher sind die Ergebnisse des Machine Learning.

Die optimale Lösung für eine große Menge Trainingsdaten exakt nach Ihren Anforderungen lautet Crowdsourcing. Mit der Crowd stehen Ihnen tausende Personen unterschiedlichen Alters und Geschlechts zur Verfügung, die von Ihnen vorgegebene Beispielsätze einsprechen und Ihrer KI zur Verfügung stellen.

Info: So sehen die Arbeitsabläufe bei Crowd Guru aus

Das Gesamtvolumen Ihres Auftrags wird von Crowd Guru auf kleine, handliche Pakete aufgeteilt und unseren Freelancern, den Gurus, zur Verfügung gestellt, die sich für das Projekt angemeldet haben. So benötigt jeder Guru nur wenig Zeit zur Bearbeitung seines Pakets und Ihr Auftrag kann schnell abgeschlossen werden. Außerdem erhalten Gurus mit Ihnen vorab vereinbarte Zusatzanweisungen, etwa zur Aufnahmesituation oder zu Wiederholungen (damit beispielsweise die Sätze zu jeder Tageszeit oder mit unterschiedlichen Stimmungen eingesprochen werden). Die fertigen Pakete schicken die Gurus über die Plattform an das Qualitätsmanagement von Crowd Guru, das die Daten daraufhin prüft, dass sie Ihren Anforderungen genau entsprechen. So stellt Crowd Guru die gleichbleibend hohe Qualität aller Einsendungen sicher.

Crowdsourcing zur Klassifizierung der Trainingsdaten

Eine große Datenbank ist der erste Schritt im Training der KI. Allerdings benötigt sie für die vorhandenen Daten besonders zu Anfang eine Interpretationshilfe – ihr muss mitgeteilt werden, was sie in den Sprachaufnahmen überhaupt hört. Auch diese Aufgabe kann von der Crowd übernommen werden: Die Gurus klassifizieren und taggen tausende von Aufnahmen nach Ihren Vorgaben, um eine ideale Grundlage für das maschinelle Lernen zu schaffen.

Crowdsourcing für die passende Stimme des Sprachassistenten

Crowdsourcing eignet sich aber nicht nur dazu, Trainingsdaten für maschinelles Lernen zu erstellen. Die Crowd liefert auch wertvolle Erhebungen dafür, mit welcher Stimme ein Sprachassistent spricht, um möglichst angenehm und vertrauenerweckend zu klingen. Dazu werden einer repräsentativen Anzahl von Gurus unterschiedliche Stimmen vorgelegt, die sie zum Beispiel in Bezug auf Verständlichkeit, Natürlichkeit und Integration von Anglizismen bewerten sollen. So erhalten Sie schnell und unkompliziert unabhängige Meinungen aus einer breiten Bevölkerungsschicht oder Ihrem Zielpublikum.

Crowd Guru ist ein langjähriger Spezialist für Crowdsourcing und erfahren in den Themen rund um Spracherkennung und Sprachassistenten. Kontaktieren Sie uns, um mit uns gemeinsam die optimale Lösung zu finden!

Sebastian Frenzel

Alle Beiträge von Sebastian Frenzel

Crowdsourcing für eine optimale Entwicklung von Sprachsteuerung

Die drei Säulen der Spracherkennung

1. Texterfassung

2. Textverständnis

3. Handlung ableiten

Crowdsourcing für vielfältige Trainingsdaten

Info: So sehen die Arbeitsabläufe bei Crowd Guru aus

Crowdsourcing zur Klassifizierung der Trainingsdaten

Crowdsourcing für die passende Stimme des Sprachassistenten

Sebastian Frenzel

Sie möchten ein

Angebot anfordern

Beratungsgespräch vereinbaren

Angebot anfordern

Beratungsgespräch

Crowdsourcing für eine optimale Entwicklung von Sprachsteuerung

Die drei Säulen der Spracherkennung

1. Texterfassung

2. Textverständnis

3. Handlung ableiten

Crowdsourcing für vielfältige Trainingsdaten

Info: So sehen die Arbeitsabläufe bei Crowd Guru aus

Crowdsourcing zur Klassifizierung der Trainingsdaten

Crowdsourcing für die passende Stimme des Sprachassistenten

Sebastian Frenzel

Wie können wir Sie unterstützen?

Sie möchten ein

Angebot anfordern

Beratungsgespräch vereinbaren

Angebot anfordern

Beratungsgespräch