Künstliche Intelligenzen (KI), die hinzulernen, klangen noch vor wenigen Jahrzehnten nach Science-Fiction; Mittlerweile lösen sie aber schon immer komplexere Aufgaben. So steht etwa das autonome Fahren kurz vor seinem Durchbruch und Google leitet aus wenigen Suchbegriffen unsere eigentliche Suchintention ab. Auch Machine Learning (maschinelles Lernen) als Teilgebiet von KI ist eine Schlüsseltechnologie für die Zukunft, denn die meisten KIs bauen inzwischen auf Machine Learning Lernen auf.

Die Grundlage des Machine Learning ist ein riesiger Erfahrungsschatz, der es einem System ermöglicht, möglichst viele Situationen zu meistern, die im Einsatz auf sie warten – sowohl vorhersehbare als auch unvorhersehbare. Daher sind die Menge und Qualität der Trainingsdaten, mit der die KI gefüttert wird, von entscheidender Bedeutung. Was Sie bei der Auswahl und Klassifizierung der Datensätze beachten sollten, erfahren Sie in unserem folgenden Guide.

Wie sehen Trainingsdaten für Machine Learning aus?

Trainingsdaten für maschinelles Lernen beinhalten Beispiele, auf deren Basis die KI später eigenständig Muster und Zusammenhänge erkennen soll. Im ersten Schritt werden Datensätze erhoben und anschließend für die KI klassifiziert, um ihr die Einordnung der Daten zu ermöglichen.

In folgenden Bereichen kommt Machine Learning heutzutage zum Einsatz:

Je nach Aufgabe der KI kann die Komplexität der Datensätze unterschiedlich ausfallen, von einfachen Ja-/Nein-Abfragen bis hin zu mehreren Differenzierungsgraden – etwa Farben, Mimik/Gestik und Bewegungen.

Anhand eines Projekts für autonomes Fahren lässt sich beispielhaft verdeutlichen, worauf bei der Erstellung und Interpretation von Datensätzen für maschinelles Lernen geachtet werden muss:

  1. Wie „sieht“ die KI? Wertet sie im späteren Einsatz Fotos oder Videos (oder eine Kombination) aus, um die gelernten Muster anzuwenden? Aus welchen Perspektiven betrachtet das System den Straßenverkehr? Welche Auflösung haben die entsprechenden Kameras?
  2. Auf dieser Basis wird nun Material zu sämtlichen Situationen gesammelt, die auftreten können: unterschiedliche Sichtverhältnisse, unterschiedliche Umgebungen, Verhalten anderer Verkehrsteilnehmer usw.
  3. Dieser Datenpool wird nun manuell bearbeitet und klassifiziert: Manuelle Markierungen auf Fotos/Videos geben der KI Orientierung, um beispielsweise Farben und Formen zuordnen zu können: Was ist eine Ampel? Was ist ein Fußgänger? Wie können andere Fahrzeuge aussehen?
  4. Auf der Grundlage dieses Datenpools findet ein Abgleich mit weiteren Test- und Validierungsdaten statt, um eine sogenannte „Überanpassung“ an die Trainingsdaten zu verhindern.
Segmentiertes Bild mit Label Beschriftung
Machine Learning / Algorithmustraining aus der Crowd – Intelligente Bildsegmentierungen für autonomes Fahren

Was sind Faktoren für hochwertige Trainingsdaten?

Das System wird dann zu einem Erfolg, wenn es aus den gelernten Inhalten auch in neuen Situationen die richtigen Schlüsse zieht. Um im Beispiel des autonomen Fahrens zu bleiben, können die Trainingsdaten selbstverständlich nicht auf jede Situation im Verkehr vorbereiten, außerdem nicht auf jedes einzelne Aussehen eines Fußgängers oder jedes zukünftige Automodell. Bei entsprechenden vielen und gut aufbereiteten Datensätzen reicht der Erfahrungsschatz der KI jedoch aus, um bisherige Muster auf Neues anzuwenden – so, wie wir Menschen auch in Sekundenbruchteilen aufgrund unseres Wissens eine neue Situation einschätzen können.

Die Datensätze für Machine Learning sollten daher auf folgende Punkte überprüft werden:

Um nicht auf vorhandene Datensätze angewiesen zu sein, die womöglich zu ganz anderen Zwecken angefertigt wurden, sollten Sie in Erwägung ziehen, die Trainingsdaten selbst in Auftrag zu geben. So haben Sie die volle Kontrolle über alle erfassten Daten und können den Qualitätsfaktor entscheidend beeinflussen.

Crowdworker mit der Erstellung hochwertiger Trainingsdaten beauftragen

Trainingsdaten selbst beauftragen – ist das nicht zu teuer und zeitaufwendig? Nicht, wenn Sie auf die Vorteile des Crowdsourcings zurückgreifen und Crowdworker einsetzen.

Folgende Arbeiten bieten sich an, von der Crowd übernommen zu werden:

Damit sich die Crowdworker an die Arbeit machen können, geben Sie Folgendes vor:

Der Erfolg des maschinellen Lernens hängt entscheidend von der Auswahl der Datensätze ab. Investieren Sie Zeit und Energie bereits an dieser Stelle, um später auf langwierige und kostspielige Korrekturen verzichten zu können!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert