Interview: KI und IT-Security - zwischen Hype und Realität

Künstliche Intelligenz und Maschine Learning halten Einzug in IT-Security-Lösungen. Was die Verfahren bereits können und was sie künftig leisten können, erklärt Raffael Marty von Sophos im Interview.

von pd/jst 18.07.2017 08:27

Raffael Marty, ist seit 2016 Vizepräsident für Sicherheitsanalytik beim IT-Security-Unternehmen Sophos Raffael Marty, ist seit 2016 Vizepräsident für Sicherheitsanalytik beim IT-Security-Unternehmen Sophos © pd

Werden mit Hilfe von künstlicher Intelligenz bald Routineaufgaben von IT-Sicherheitsexperten ersetzt? Im Interview erklärt Raffael Marty, seit 2016 Vizepräsident für Sicherheitsanalytik beim IT-Security-Unternehmen Sophos, wie das gelingen könnte.

Künstliche Intelligenz (KI) und Datenanalytik spielen eine essenzielle Rolle in unserem Alltag. Welche Entwicklungen sind besonders wichtig?

Raffael Marty: Alles beginnt mit Daten. In den vergangenen Jahren wurden riesige Datenmengen gesammelt. Dann wurde die Methode «Deep Learning» entwickelt, und damit entstanden neue Möglichkeiten zur Analyse dieser grossen Datensätze, zum Beispiel mithilfe innovativer Bilderkennung und Klanganalyse. Diese Entwicklungen haben die ganze Branche wirklich gestärkt. Aber meiner Meinung nach gibt es viel Hype und Missverständnis rund um Machine Learning (ML) und Künstliche Intelligenz. Jeder spricht davon, dass Maschinen lernen, aber was die meisten Leute damit meinen, ist lediglich Statistik – und mit KI meinen sie eigentlich ML.

Wie heisst das nun konkret für den IT-Security-Bereich?

Marty: Wir haben erhebliche Fortschritte bei der Malware-Klassifizierung gemacht. Zum Beispiel verwenden Forscher ML, um Millionen von Datei-Samples zu analysieren und Eigenschaften von Malware sehr genau zu bestimmen. Aber diese Klassifikationen funktionieren immer noch nur mit sehr spezifischen Problemen und Datensätzen. Die Anwendung des gleichen Ansatzes für andere Bereiche, wie Netzwerkverkehr, ist sehr schwer. Das Problem beginnt mit der Erhebung von Trainingsdaten. Es ist fast unmöglich, einen sauberen Datensatz zu bekommen, der eindeutig zwischen gutem und schlechtem Netzwerkverkehr unterscheidet. Und dann wird es immer schwieriger. Maschinen können wunderbar statistische Ausreisser identifizieren. Aber ohne Domänenwissen ist es schwer, tatsächliche Sicherheitsrisikos festzustellen. Die Überbrückung dieser Lücke kann nicht durch einen einzelnen Algorithmus erfolgen; es geht darum, Expertenwissen zu sammeln und zu kodifizieren.

Warum kann das System so schwer erkennen, ob die Anomalie als gut oder schlecht eingestuft werden muss?

Marty: Weil das System keine Kenntnis von dem breiteren Kontext hat: Wer sind die Benutzer, die diese Maschinen kontrollieren? Was sind die Rollen dieser Maschinen? So könnte eine Veränderung noch als normal erklärt werden, obwohl der Algorithmus dort korrekterweise eine statistische Anomalie sieht.

Ein Problem tritt also auf, wenn es nicht genug kontextuelle Informationen gibt?

Marty: Genau. Wir konzentrieren uns zu sehr auf die Daten und Algorithmen, die wir bereits haben. Aber was den Unternehmen meist fehlt, ist der Kontext. Was für eine Maschine ist das überhaupt? Was darf darauf installiert und ausgeführt werden? Das klingt nicht zu kompliziert, aber die Schwierigkeit liegt darin, diese Daten in einem Unternehmen zu sammeln und zu verstehen, was die Norm sein sollte. Dieser Aspekt wird zu oft ignoriert.

Dieser Mangel an kontextuellen Informationen verhindert, dass die Ingenieure mehr Anwendungsfälle für KI finden und somit die Cyber-Sicherheit verbessern. Welche fortgeschrittenen Anwendungsfälle würden Sie denn finden?

Marty: Anwendungsfälle auf dem Gebiet der Malware-Klassifizierung sind grundsätzlich fortgeschritten. Wenn man sich eine Datei oder ein Binärprogramm ansieht, möchte man im Prinzip feststellen, ob es sich um Malware oder eine normale Datei handelt. Aktuelle Algorithmen können das sehr gut bestimmen. Das sieht man auch an den Produkten auf dem Markt: Sophos nutzt zum Beispiel Deep Learning, um Malware auf Endgeräten zu klassifizieren. Aber es ist schwierig, Deep Learning und andere Klassifizierungsalgorithmen jenseits der Malware-Bestimmung zu verwenden, da es keine guten Trainings-Datensätze gibt und die Algorithmen nicht ohne Trainingsdaten lernen können. Aber grundsätzlich ist das auch der falsche Fokus. Ich sehe zu viele Unternehmen, die mehr oder weniger zufällig ein paar Algorithmen für Machine Learning auswählen, um sie auf ein Sicherheitsproblem anzuwenden. Sie müssen stattdessen von dem konkreten Problem ausgehen. Erst dann können sie definieren, welche Daten sie benötigen, und den Algorithmus finden, der das Problem lösen wird. Wahrscheinlich wird es nicht einmal maschinelles Lernen sein, sondern einfache Statistiken oder regelbasierte Systeme.

Nächste Seite: Ein Blick in die Zukunft



Wo erwarten Sie in den kommenden Jahren grosse Fortschritte?

Marty: Früher führte ich eine Consulting-Firma, die mit multinationalen Unternehmen zusammenarbeitete. Eines der Probleme, die wir ständig vorfanden, war die Alarm-Triage. Dies ist der Prozess, bei dem ein Level-1-Analytiker der Sicherheitsstelle einen Stream von Alarmen durchläuft, um manuell zu identifizieren, welche davon tatsächlich auf Probleme hinweisen und welche nicht. Ein paar Startups versuchen momentan, diesen Prozess mit künstlicher Intelligenz zu automatisieren, damit das System diese Entscheidungen selbst treffen kann. Das interessiert mich wirklich – die Rendite ist unglaublich überzeugend. So könnte Level-1-Analyse in den nächsten drei oder vier Jahren unnötig werden: Maschinen würden dann tun, was sie gut können, und Analytiker hätten mehr Zeit für anspruchsvollere Arbeit.

Wie wird das Ganze dann aussehen?

Marty: Heute ist Sicherheit eine Entweder-Oder-Entscheidung. Entweder ist etwas schlecht und wir blockieren es, oder es scheint okay und wir erlauben es. In Zukunft werden wir eine Verfeinerung, eine Graduierung sehen – zum Beispiel, wenn es Ungewissheit darüber gibt, ob ein System bereits gehackt wurde oder nicht. Durch Beobachtung des ungewöhnlichen Verhaltens einer Maschine oder eines Benutzers können Risikoprofile entwickelt werden. Das Risikoprofil wird dann für dynamische strategische Entscheidungen verwendet. Zum Beispiel könnte eine Firewall fragen: Wie hoch ist das Risiko-Niveau dieser Person? Wenn mein Risiko-Niveau leicht erhöht wäre, würde mir die Firewall nicht mehr erlauben, auf bestimmte Systeme zuzugreifen, wie z.B. auf Server, die kritische Business-Dateien hosten. Oder die Firewall könnte in diesem Fall entscheiden, eine DPI-Kontrolle meines gesamten Benutzerverhaltens durchzuführen. Eine risikoorientiertere Ansicht statt «entweder/oder» ist einer der Bereiche, an denen mein Team arbeitet.

Der grosse Pool gesammelter Daten verbessert die Sicherheit, könnte aber auch für Hacker attraktiv sein. Das bringt uns zum Thema Privatsphäre.

Marty: Eine heikle Frage. Auf der einen Seite wollen wir mehr Einsicht, aber das steht im Widerspruch zur Idee der Privatsphäre. Welche Daten sollen wir und müssen wir sammeln? Facebook ist ein gutes Beispiel: Sicher, ich kann meine eigenen Informationen kontrollieren, aber wenn – zum Beispiel – andere Leute ein Foto von mir hochladen, dass ich nicht unbedingt gepostet sehen will, ist meine Kontrolle begrenzt. Mit der Privatsphäre-Debatte um Sicherheitsdaten ist es ähnlich. In den USA habe ich absolut keine Privatsphäre auf meinem Arbeitscomputer – mein Arbeitgeber kann mit meinen Daten tun, was er will. Als Angestellter weiss ich das und kann mich entsprechend verhalten. In Europa sind die Gesetze anders. Bei der Konzipierung und Konstruktion von Systemen müssen wir diese Parameter im Auge behalten.

Nächste Seite: Hoffen auf Schwarmintelligenz

Das scheint ein grosses Dilemma zu sein: Je mehr Daten Sie sammeln, um den Kunden Sicherheit zu geben, desto attraktiver wird Ihre Arbeit als Ziel für Hacker.

Marty: Ja und nein. Wenn Hacker über diese Daten stolpern, heisst es nicht automatisch, dass sie dort etwas Nützliches finden, geschweige denn richtig analysieren. Aber mit Zeit und den richtigen Mitteln könnten sie schon etwas Nützliches entdecken. Es ist unsere Aufgabe, Systeme mit sicheren Architekturen zu bauen. Es gibt verschiedene Ansätze dazu. Eins ist die Verschlüsselung. Anonymisierung ist ein weiterer interessanter Ansatz. Zum Beispiel können wir Benutzernamen oder IP-Adressen in Datenströmen mit einer Einwegfunktion anonymisieren, und die Schlüssel gesichert separat abspeichern. Es gibt technologische Lösungen für viele dieser Probleme. Sichere Entwicklungspraktiken und sichere Architekturen werden immer wichtiger.

Und wie soll das kollektiv umgesetzt werden?

Marty: Wir müssen Richtlinien definieren, wie man diese Daten am besten verarbeiten und speichern soll. Aber ein Gesetz alleine ist oft nutzlos. Sicherheitsorganisationen und Interessengruppen müssen an der Festlegung von leicht anwendbaren Richtlinien und idealen Entwicklungsrahmen für Unternehmen arbeiten, um sichere Datenverarbeitungssysteme zu implementieren. In diesem Bereich wird bereits gute Arbeit geleistet, aber sie ist bei weitem nicht vollendet. Alle Unternehmen, die kritische Daten sammeln, müssen noch viel tun, bevor wir eine Sicherheitsbasis auf der ganzen Linie erreichen.

Ist das auch für Sicherheitsfirmen ein Problem?

Marty: Auf jeden Fall. Es ist ja nicht so, dass in einem Sicherheitsunternehmen alle MitarbeiterInnen immer über die nötigen Sicherheitskenntnisse und Kompetenzen verfügen, um hochsichere Infrastrukturen zu bauen. Wir müssen der Frage weiter nachgehen, wie wir sichere Systeme aufbauen und sichere Infrastrukturen einsetzen können. Es ist wichtig, sich auf die einfachen Dinge zu konzentrieren. Ein simples Beispiel: Wie werden Firewall-Richtlinien definiert? Grundsätzlich hat sich der Prozess in den vergangenen 15 Jahren nicht wesentlich verändert. Bei Sophos arbeiten wir an einigen interessanten Verbesserungen wie «Application Identification» und «Application Layer». Diese Methoden machen es wesentlich einfacher und effektiver, Firewall-Richtlinien zu definieren, anstatt auf Layer 3 oder 4 zu operieren. Ich glaube, dass Crowdsourcing und Schwarmintelligenz uns helfen werden, einige dieser Herausforderungen in den kommenden Jahren zu lösen. Wir haben einen grossen Datensatz, der Tausende von Nutzern umfasst und interessante Einsichten liefert. Und diese Einsichten sind ganz ohne komplizierte Formeln und Machine Learning verfügbar. Oft ist der einfache Zugang eben der beste.

8 schockierende Statistiken zu Ransomware