Neuronale Netze und KI bergen unschätzbare Potenziale. Mit Data Poisoning haben Hacker jedoch ein Verfahren entwickelt, das künstliche Intelligenzen gezielt manipulieren kann. Die Resultate der Berechnungen von Künstlichen Intelligenzen können durch diese Art der Manipulation nutzlos gemacht oder für die Zwecke der Angreifer sogar gänzlich umfunktioniert werden. Es gibt allerdings wirkungsvolle Möglichkeiten, mit denen Sie Ihre Systeme schützen können. Dazu zählen in erster Linie ein vorausschauendes Machine Learning und hochwertige KI-Trainingsdaten. Dadurch verliert Data Poisoning schnell seine Brisanz.
Angriffspunkt für Hacker: Die Manipulation von KI-Trainingsdaten
Bevor Sie neuronale Netze und KI wunschgemäß nutzen können, ist ein entsprechendes Machine Learning erforderlich. Dabei lernen die künstlichen Intelligenzen anhand von Beispielen die richtigen Entscheidungen zu treffen. Doch gerade bei den hierfür erforderlichen KI-Trainingsdaten liegt eine Schwachstelle, die Angreifer sehr gerne ausnutzen: Open Source-Daten. Ob KI-Systeme mit Tausenden Bildern geschult werden oder mit anderen Datenquellen – Hacker müssen lediglich manipulierte Dateien in die öffentlich zugänglichen Datenbanken einschleusen und schon lernt Ihre KI etwas Falsches. Plötzlich wird aus einem Datenpool, mit dem Sie die digitalen Fähigkeiten Ihres Unternehmens oder Ihrer Produkte voranbringen möchten, eine unerschöpfliche Quelle von Problemen. Welche Probleme das im Einzelnen sein können? Data Poisoning ist universell einsetzbar. Daher kann eine KI, die Bilder im Internet als kinderfreundlich oder als für Kinder ungeeignet kategorisiert, ebenso betroffen sein wie Systeme, die autonomes Fahren ermöglichen sollen. Und gerade bei dem letzten Beispiel wird es besonders gefährlich: Schließlich lassen sich Bilder von Ampelanlagen im Trainingsszenario so manipulieren, dass Algorithmen der Künstlichen Intelligenz eine rote Ampel im realen Straßenverkehr als grün wahrnehmen.
Wieso sind KI und neuronale Netze so anfällig für Data Poisoning?
Die Anfälligkeit für Data Poisoning liegt in der digitalen Natur von Computern und damit selbstverständlich auch in der Entscheidungsfindung von KI und neuronalen Netzen. Ihr Computer kennt nur mathematisch eindeutige Entscheidungen: Nullen oder Einsen, ein „Ja“ oder ein „Nein“. Damit einher geht eine Präzision, die den menschlichen Fähigkeiten scheinbar weit voraus ist. Menschen treffen Abwägungsentscheidungen, übersehen Feinheiten und entscheiden sich für das, was ihnen – ihren Erfahrungswerten zufolge – am wahrscheinlichsten erscheint. Doch gerade diese mathematische Präzision macht eine KI anfällig für Data Poisoning. Wie Sie sich das am anschaulichsten vorstellen können? Denken Sie an ein Bild von einem wunderschönen Blumenstrauß, das als digitales Foto in einer Open Source-Datenbank oder in Ihrer eigenen Datenbank hinterlegt ist. Nun soll dieses Foto von einer KI kategorisiert werden, die familienfreundliche Bilder recherchiert und anschließend für ein Familienportal verfügbar macht. Das allerdings wird nicht geschehen, denn ein Angreifer hat zuvor ein für das menschliche Auge nicht wahrnehmbares Messer in diesem Bild versteckt. Menschen sehen lediglich ein leichtes Bildrauschen und ein wenig Unschärfe. Doch Ihre KI lernt: Schöne Blumensträuße bergen Gefahren. Sie entscheidet sich fortan für andere Bilder oder meidet Blumen sogar ganz. Dafür reichen nur wenige weitere manipulierte Bilder. Sie sehen also, wie schnell fehlerhafte Resultate bei der Arbeit oder bei der Verarbeitung von KI-Trainingsdaten durch künstliche Intelligenzen entstehen können.
Schützen Sie KI und neuronale Netze vor Data Poisoning
Es gibt vielfältige Möglichkeiten, sich vor Data Poisoning zu schützen. Bei einem bereits vorhandenen Datenbestand müssen Sie besonderen Wert auf die Sicherheit der gesamten Datenlieferkette legen – von der Qualität der Rohdaten über die Datenübertragung bis hin zu Speicherung und Aufbereitung. Natürlich ist es schwierig, die Sicherheit von Daten sicherzustellen, die Sie nicht selbst generiert haben. Hier bleibt immer ein Restrisiko vorhanden.
Es gibt noch eine andere Möglichkeit: Sie lassen aktuelle und maßgeschneiderte Trainingsdaten für Ihre KI anfertigen. Hier ist insbesondere Crowdsourcing in der Lage, aktuelle Datenbestände von hoher Qualität zu generieren, die zukunftsweisendes Machine Learning möglich machen. So umgehen Sie die Gefahr, Ihre KI mit strategisch geschickt veränderten Rohdaten falsch zu trainieren. Schließlich kann eine herkömmliche Umprogrammierung sehr kostenintensiv ausfallen. Und als erfahrene Crowdsourcing-Spezialisten können wir bestätigen, dass die Produktion von Daten durch die Crowd sowohl schnell vonstattengeht als auch absolut bedarfsgerecht möglich ist. Mit einem per Crowdsourcing gewonnenen Datenbestand lassen sich zudem Ergebnisse erzielen, die an die menschlichen Bedürfnisse besonders gut angepasst sind. Warum das so ist, liegt auf der Hand: Die Daten sind von der Crowd, also von echten Menschen gewonnen worden. Wenn Sie den Verdacht haben, dass bereits von Ihnen für eine KI-Programmierung verwendete (Bild-)Daten manipuliert wurden, kann Crowdsourcing zudem eine schnelle und effektive Kontrolle ermöglichen.
Fazit
Data Poisoning ist eine Angriffsform, die auf die gezielte Manipulation von KI-Trainingsdaten setzt und sinnvolles Machine Learning erschwert. Im ungünstigsten Fall dienen KI und neuronale Netze nach einem erfolgreichen Angriff primär den Interessen der imvolvierten Hacker. Und so ein Vorgang kann teuer werden. Schließlich macht die Verarbeitung großer Datenmengen oftmals erhebliche finanzielle Mittel erforderlich – schon alleine im Bereich der Personalkosten. Es ist also immer seltener die beste Wahl, auf ungeschützte Datenquellen – etwa Open Source-Datenbanken – zurückzugreifen. In jedem Fall sind Kontrolle und Evaluierung der jeweiligen Rohdaten eine Maßnahme, der Sie große Aufmerksamkeit schenken sollten, um unerwünschte Resultate beim Anlernen Ihrer künstlichen Intelligenz zu vermeiden.
Sofern Sie gezielte Manipulationen von vornherein eingrenzen möchten, ist der Rückgriff auf die Fähigkeiten der Crowd ausgesprochen sinnvoll. So verfügen wir als Crowdsourcing-Agentur beispielsweise nicht nur über die erforderliche Manpower. Auch unsere digitale Infrastruktur und unsere Kontrollmechanismen machen ein besonders hohes Maß an Sicherheit möglich. Hochwertige KI-Trainingsdaten gehören für uns zur Selbstverständlichkeit. Welche Wahl Sie für Ihre KI und Ihre neuronalen Netze auch immer treffen – Datenqualität und Datensicherheit spielen eine zunehmend wichtige Rolle für Ihre digitale Infrastruktur. Wenn Sie das bei Ihren unternehmerischen Entscheidungen beherzigen, hat Data Poisoning keine Chance Sie auszubremsen.