Wie KI Arbeit schafft – eine Einführung in die Bildannotation

  Wir schrieben das Jahr 2015. Denis Sverdlov, CEO des Autoherstellers Kinetik, kündigte gemeinsam mit der Formel E Rennserie eine neue Art von Rennen an. In diesen Rennen, so führte er aus, würde es keine Berühmtheiten wie Lewis Hamilton oder dominierenden Autohersteller oder Teams wie Ferrari oder McLaren geben. Stattdessen würden 20 baugleiche Autos die... Read more »
Ohne Vorarbeit durch Annotation ist dieses Auto blind.

Ohne Vorarbeit durch Bildannotation ist dieses Auto blind.

 

Wir schrieben das Jahr 2015. Denis Sverdlov, CEO des Autoherstellers Kinetik, kündigte gemeinsam mit der Formel E Rennserie eine neue Art von Rennen an. In diesen Rennen, so führte er aus, würde es keine Berühmtheiten wie Lewis Hamilton oder dominierenden Autohersteller oder Teams wie Ferrari oder McLaren geben. Stattdessen würden 20 baugleiche Autos die Rennen austragen. Am Steuer: niemand.

Ganz recht, so wie Kennedy im Jahr 1961 ankündigte, dass die USA mit einem neuen Weltraumprogramm eine neue Ära der Menschheitsgeschichte einläuten würde, so versprach auch die Ankündigung von Sverdlov eine radikale Neuerung in der Welt der Autorennen. Fahrerlose Fahrzeuge würden die Rennen unter sich ausmachen; möge die beste KI gewinnen. Dies würde einen Paradigmenwechsel für die Industrie und die gesamte Menschheit einläuten.

Sverdlov kündigte das sogenannte „Roborace“ für das folgende Jahr an. Und auch wenn dieser Termin zu optimistisch gewählt war, soll es bald so weit sein, dass Automobilgeschichte geschrieben wird. Anhand dieses Bildes lässt sich ablesen, mit wie vielen Emotionen die Entwicklung von künstlicher Intelligenz verbunden ist.

Einerseits gibt es da Geschäftsleute wie Denis Sverdlov, die den unaufhaltsamen Fortschritt in der Entwicklung beschwören. Auf der anderen Seite gibt es immer wieder Rückschläge und Unfälle, welche aufzeigen, dass der Fortschritt kein Selbstläufer ist. Auch dies ist Teil der Geschichte von künstlicher Intelligenz.

Entgegen weitläufiger Meinung ist ihre Entwicklung kein einziger Quantensprung, sondern besteht aus kleinen Schritten, die gelegentlich von einem Stolpern unterbrochen werden. Kaum ein Aspekt der langwierigen Entwicklung macht dies so deutlich wie der Bereich der Bildannotation.

Eine einfach Form der Bildannotation: Hier werden nur Fahrzeuge und Fahrbahn markiert.

Eine einfach Form der Bildannotation: Hier werden nur Fahrzeuge und Fahrbahn markiert.

Eine Armee aus Annotierern

Wer nach den Worten „Künstliche Intelligenz“ googelt, findet eine Vielzahl von Schreckensszenarien über ihre Auswirkungen auf den Arbeitsmarkt. In fast jedem Bereich sollen große Mengen an Arbeitsplätzen (wenn nicht sogar alle) der Entwicklung zum Opfer fallen.

Obwohl in diesen Szenarien durchaus ein wahrer Kern steckt, vernachlässigen sie häufig eine wichtige Tatsache: die Entwicklung von künstlicher Intelligenz, etwa zur Lenkung von Kraftfahrzeugen, erfordert menschliche Arbeit – und zwar jede Menge. Bedenken wir für einen Moment, was die KI eines selbst gesteuerten Fahrzeuges alles leisten muss.

Sie muss ihre Umgebung in widrigsten Situationen interpretieren können und mit den Interpretationen die richtigen Lenkmanöver einleiten. Ob die Fahrt in der Nacht, in dichtem Nebel, Regen oder Schneefall stattfindet, darf die Qualität der Fahrleistung nicht mindern. Zahlreiche Objekte in der Umgebung müssen korrekt erkannt und in die Berechnungen miteinbezogen werden.

Selbst augenscheinlich einfach zu erkennende Objekte wie ein Mensch können die KI vor unerwartete Schwierigkeiten stellen. Nimmt sie etwa Menschen anhand ihrer Beine war, kann ein langer Rock die Erkennung erheblich verkomplizieren.

Aus diesem Grund sind Menschen für die Entwicklung künstlicher Intelligenz unablässig und werden es auch in absehbarer Zeit bleiben. Sie müssen für jedes Szenario die notwendige Vorarbeit leisten und die darin befindlichen Objekte korrekt labeln, damit die Software aus diesen Informationen lernen kann.

Verschiedene Methoden der Bildannotation: Road Lines, Bounding Boxes, Cubes und Full Segmentation (von links oben)

Verschiedene Methoden der Bildannotation: Road Lines, Bounding Boxes, Cubes und Full Segmentation (von links oben)

 

In der Entwicklung selbst gesteuerter Kraftfahrzeuge wird Fortschritt in Kilometern gemessen. Jeder dieser Kilometer muss händisch in auswertbare Daten übertragen werden. Selbst kurze Strecken erzeugen mehrere Gigabyte Daten, sodass diese nicht mehr drahtlos übertragen werden können. Ironischerweise werden bei dieser Entwicklung fortschrittlichster Technik die entstandenen Daten ganz altmodisch auf Festplatten und per Kurier überbracht.

Bedenkt man, dass Tesla weit über hundert Millionen Kilometer ausgewertet hat, wird klar, wie viel Datenauswertung notwendig ist, damit KI funktioniert. Kurz- bis mittelfristig werden hierdurch zahlreiche Jobs entstehen. David Liu, CEO von Plus.ai, erklärte in einem Interview in der Financial Times, dass „Hunderttausende, vielleicht sogar Millionen von Stunden Datenmaterial“ benötigt werden, damit selbst gelenkte Fahrzeuge unbegrenzt fahren können. Dies würde „die Arbeit von Hunderttausenden Menschen benötigen“.

Wie funktioniert Bildannotation?

Für die Bildannotation werden verschiedene Verfahren angewendet, die mit unterschiedlich hohem Aufwand verbunden sind und Daten von unterschiedlicher Präzision erzeugen. Dabei ist es wichtig, das korrekte Verfahren zu wählen, denn während ein zu ungenaues Verfahren nicht die notwendigen Daten für den Lernprozess der KI liefert, ist ein zu hochwertiges Verfahren mit einem langsameren Entwicklungsprozess und erhöhten Kosten verbunden.

Die einfachste Methode ist die der sogenannten „Road Lines“. Hier werden die Markierungen auf der Straße markiert und geben der KI klare, gut kontrastierte Anweisungen für das Fahrverhalten. Dies mag für selbst gelenkte Fahrzeuge auf Teststrecken oder in Lagerhallen ausreichend sein, jedoch nicht für den Straßenverkehr.

Die im normalen Straßenverkehr bevorzugte Variante sind die „Bounding Boxes“. Hier werden um die Objekte, die von der KI erkannt werden sollen, zweidimensionale Kästen gezogen. Menschen, Autos, Straßenschilder und anderes werden so für die KI klar erkennbar zugeordnet.

Einen Schritt weiter geht das Verfahren der „Cubes“, bei denen die Kästen durch dreidimensionale Quader ersetzt werden. Dies ist für schnell fahrende Autos oder Drohnen nützlich.

Soll das Maximum an Daten für die KI zur Verfügung gestellt werden, so wird das Verfahren der „Full Segmentation“ gewählt. Hier wird jeder Pixel des zu annotierenden Bildes einer bestimmten Kategorie zugeordnet. In der Praxis wird das Bild mit halbtransparenten, den jeweiligen Kategorien zugeordneten Farben übermalt. Diese Methode ist gleichzeitig auch die arbeitsintensivste

Die Ergebnisse zeigt diese Demonstration des Tesla Autopilot 2.0.

Please accept YouTube cookies to play this video. By accepting you will be accessing content from YouTube, a service provided by an external third party.

YouTube privacy policy

If you accept this notice, your choice will be saved and the page will refresh.

 

Das folgende Beispiel zeigt eine simulierte Umgebungsansicht von Waymo, das derzeit als führend im Bereich „Autonomes Fahren“ gilt.

Please accept YouTube cookies to play this video. By accepting you will be accessing content from YouTube, a service provided by an external third party.

YouTube privacy policy

If you accept this notice, your choice will be saved and the page will refresh.

Die richtige Methode für die richtige Aufgabe wählen

Wenn es darum geht, die korrekte Methode für die Bildannotation zu wählen, muss zuerst die Überlegung stattfinden, welche Daten die KI für ihren Lernprozess benötigt. Jede weitere Information macht den Lernvorgang zwar präziser, ist jedoch auch mit größerem Aufwand während der Vorbereitung und der Berechnung verbunden.

Auch die entstandenen Kosten der Bildannotation steigen proportional mit der Präzision. In dem eingangs erwähnten Beispiel der Rennwagen wären wahrscheinlich Cubes die Methode der Wahl, denn sie würden der KI die notwendigen Informationen für die schnelle Bewegung auf der Rennstrecke zur Verfügung stellen, die bei Bounding Boxes zu kurz kommen würden.

Doch ganz gleich, welche Methoden gewählt werden, für jede von ihnen werden wahre Armeen von Menschen benötigt, um sie auszuführen. Die Arbeit mit Crowd-Dienstleistern wie etwa Crowd Guru kann hier die notwendige Arbeitsleistung schnell, günstig und mit gleichbleibend hoher Qualität liefern.

Schlagwörter: , , , , , , , ,