Data Science

Deep Learning – one method to rule them all?

David Schönleber
David Schönleber

Die Fähigkeiten, die Computer heutzutage besitzen, sind erstaunlich: sie können mit beeindruckender Qualität von einer Sprache in eine andere übersetzen, Objekte erkennen, Gemälde im Stil Van Goghs aus gewöhnlichen Fotos generieren oder gar Gesichter in Videos austauschen. Sie erobern damit Anwendungsgebiete, die aufgrund ihrer Komplexität noch bis vor kurzem als nicht automatisierbar galten.

Das Erfolgsrezept bei diesen Beispielen ist ebenso einfach wie bestechend: anstatt Computern durch klassische explizite Programmierung Anweisungen zu erteilen, wie sie die ihnen gestellte Aufgabe zu lösen haben, lässt man ein künstliches neuronales Netz das zur Erfüllung der Aufgabe erforderliche Vorgehen selbst aus Daten entdecken. Die Unmenge an freien Parametern, die ein tiefes neuronales Netz besitzt, wird dabei während des Trainingsprozesses so eingestellt, dass das Netzwerk die gestellte Aufgabe möglichst gut erfüllt. Dazu zeigt man dem Netzwerk zum Beispiel im Falle der Bilderkennung viele Male Fotos von einem Objekt und dessen Kategorie (z.B. Katze, Hund etc.) – und nach dem Training kann das Netzwerk eine Katze von einem Hund unterscheiden.

Die Tatsache, dass dies so gut funktioniert, ist erstaunlich. Und so verwundert es nicht, dass der Eindruck entsteht, dass tiefe neuronale Netze (aka Deep Learning) das Potential besitzen, einen Schatz aus jedem Datensee zu heben und der einzige Weg zu Daten-getriebener Wertschöpfung sind. Um es vorwegzunehmen: dies ist nicht der Fall.

Garbage in, Garbage out

In der Diskussion über maschinelles Lernen muss das Verständnis wachsen, dass selbst solch weitentwickelte Modelle wie neuronale Netze keinen Nutzen aus Daten ziehen können, wenn die Datengrundlage dies nicht zulässt. Auch ein unter Berücksichtigung neuster Forschungserkenntnisse entworfenes neuronales Netzwerk kann den Einfluss einer Fußballweltmeisterschaft auf den Bierkonsum der Gastgebernation nicht vorhersagen, wenn der zum Training verwendete Datensatz nur die drei Jahre vor der Weltmeisterschaft enthält. Auch kann eine Gesichtserkennungssoftware nicht im gesamten Spektrum menschlicher Hautfarben gleichermaßen zuverlässig sein, wenn der Datensatz, welcher ihr zur Erlernung von Gesichtsmerkmalen zur Verfügung steht, von Bildern von Menschen weißer Hautfarbe dominiert wird.

Daten-getriebene Algorithmen, welche in den nächsten Jahren mehr und mehr Bedeutung erlangen werden, benötigen qualitativ hochwertige Datensätze, welche u.a. eine getreue Darstellung der Daten bieten, die dem Algorithmus im Anwendungsfall begegnen werden. Diese hochwertigen Datensätze bereitzustellen und zu kuratieren ist eine Herausforderung, welcher sich Daten-getriebene Unternehmen stellen müssen um die Nachhaltigkeit ihres Datenproduktes zu garantieren. Vor jeglicher Anwendung von Methoden des maschinellen Lernens muss die Datengrundlage dieser Methoden gelegt sein.

Einfach geht anders

Die Fähigkeit künstlicher neuronaler Netze, komplizierte Funktionen zu erlernen (wie z.B. den Zusammenhang zwischen Pixel und dem Vorhandensein einer Katze in einem Bild) hat seinen Preis. Dieser Preis muss neben den Anforderungen an den zum Training verwendeten Lern-Datensatz in Form von Rechenleistung, Fachkenntnis der für Entwurf und Training zuständigen Personen sowie Schwierigkeiten bei der Interpretation der durch das Netzwerk gemachten Vorhersagen gezahlt werden. Der Verwendung neuronaler Netze stehen damit gewisse Hürden im Weg, die antizipiert werden müssen, um den Erfolg eines Deep Learning-Projektes zu gewährleisten.

Zunächst einmal stellt Deep Learning hohe Anforderungen an die Daten- und Rechen-Infrastruktur eines Unternehmens. Auch wenn es in manchen Fällen die Möglichkeit gibt, neuronale Netze mit „Small Data“ zu trainieren (Stichwort „transfer learning“), sind große Datenmengen oft nötig, um das Potential eines neuronalen Netzwerkes auszuschöpfen bzw. es erst zum Vorschein kommen zu lassen. Dazu kommt, dass ein neuronales Netzwerk viele Stellschrauben (sogenannte „hyperparamter“) besitzt, an welchen geschraubt werden kann und muss, um die bestmögliche Leistung zu erzielen. Das bedeutet, dass nicht nur ein einziges Netzwerk, sondern viele verschiedene neuronale Netze mit unterschiedlichen hyperparameter-Werten trainiert werden müssen, um die Konfiguration zu finden, in welcher das neuronale Netz die besten Ergebnisse erzielt. Dieses Training erfordert zudem spezielle Hardware, nämlich Grafikprozessoren (GPUs), die im Gegensatz zu CPUs für massiv parallelisierte Berechnungen ausgelegt sind. Es ist daher klar, dass das Training eines tiefen neuronalen Netzes keine Angelegenheit ist, welche man mit überschaubarem Aufwand bewerkstelligen kann. Abgesehen davon setzt sorgfältiges Training Fachwissen voraus, welches auf dem Arbeitsmarkt gefragt und daher rar ist.

Ein weiterer beachtenswerter Aspekt eines neuronalen Netzes ist sein Black-Box-Charakter. Die Komplexität des Netzwerkes, welche es ermöglicht, Zusammenhänge aus vielschichtigen Datensätzen zu extrahieren, macht es extrem schwer, die vom Netzwerk getroffenen Entscheidungen (z.B. das Ergebnis einer automatisierten Kreditwürdigkeitsprüfung) zu verstehen. Die Möglichkeit, von Algorithmen getroffenen Entscheidungen zu verstehen, ist in manchen Bereichen jedoch keine Zugabe, sondern eine (u.U. gesetzlich vorgeschriebene, siehe Art. 15 Abs. 1 DSGVO) Notwendigkeit. Ansätze, wie die internen Parameter neuronalen Netze interpretiert werden bzw. Entscheidungen neuronaler Netze verstanden werden können, existieren zwar, stecken aber noch in den Kinderschuhen.

Es geht auch einfach

Es ist daher eine gute Nachricht, dass für viele Anwendungsfälle „klassische“ Methoden des maschinellen Lernens ausreichen. Zu diesen gehören z.B. Regressionsanalysen (wie die lineare Regression) sowie Ensembles von Entscheidungsbäumen, bei denen das Ergebnis jeweils aus einer Abfolge binärer Entscheidungen resultiert. Zum einen empfiehlt sich alleine aus praktischen Gesichtspunkten (Zeit und Kosten bis zur Erprobung eines Datenproduktes), zuerst einen „einfachen“ Ansatz zu wählen und diesen bei Bedarf weiter zu verbessern und auszubauen. „Einfache“ Methoden wie die oben genannten zeichnen sich nicht nur durch verbesserte Interpretationsmöglichkeiten aus, sondern bieten auch einen guten Vergleichswert, an welchem der Nutzen „komplizierterer“ Ansätze (wie künstliche neuronale Netze) gemessen werden kann.

Hinzu kommt, dass Deep Learning keine Wunderwaffe ist. Das vielzitierte „no free lunch“-Theorem besagt grob, dass es keinen Optimierungsalgorithmus (aka keine Methode des maschinellen Lernens) gibt, der für alle Probleme besser als alle anderen funktioniert. Ergo gibt es keine Wunderwaffe in der Welt des maschinellen Lernens. Im Umkehrschluss bedeutet das wiederum, dass für viele Datensätze einfachere Methoden wie z.B. polynomiale Regression – eine Form der Regressionsanalyse, bei der die Beziehung zwischen der unabhängigen Variablen x und der abhängigen Variablen y als Polynom n-ten Grades in x modelliert wird – sehr gute Ergebnisse liefern können.

Eine ähnliche Argumentation lässt sich übrigens auch auf die Daten selbst anwenden – nicht für jeden Use Case wird „Big Data“ benötigt. Gerade für Unternehmen, die keine „Big Data“-Infrastruktur besitzen, jedoch über gut gepflegte „Small Data“ verfügen, liegt es nahe, zunächst zu untersuchen, wie sich auf Basis der verfügbaren Daten Mehrwert generieren lässt, bevor die Dateninfrastruktur zielgerichtet ausgebaut wird.

Flexibilität statt Dogmatik

Um die Möglichkeiten der digitalen Transformation für sich zu nutzen, ist es wichtig, flexibel zu sein und nicht blindlings auf die neuste Mode zu setzen, sondern mit Blick auf Use Case und Randbedingungen passende Daten-getriebene Ansätze zu wählen. Zwar sind die Möglichkeiten, die Deep Learning bietet, enorm; aber das bedeutet nicht, dass Deep Learning für jeden Anwendungsfall zum Einsatz kommen muss und sollte. In vielen Fällen gilt „keep it simple, stupid“ – Flexibilität, nicht Dogmatik ist gefragt. Und für Manche muss die Reise noch früher beginnen – bei der Sammlung geeigneter Daten.

Mehr Informationen

Pressemeldung: Neuer Bereich Data Science vervollständigt das esentri Portfolio

Unsere Leistungen im Bereich Data Science

Mehr erfahren
Esentri
Frank Oechsle Head of Data Science