Deep Learning (DL) ist eine Kategorie des maschinellen Lernens, welche eine enorme Datenmenge durch eine Vielzahl von Schichten in neuronalen Netzwerken verarbeitet. Diese Systeme arbeiten auf einer komplexen Ebene, bei der sie mehrstufige Dateninterpretationen durchführen.
Beispiel: Nehmen wir ein Deep Learning System, das darauf programmiert ist, Häuser mit rotem Dach in natürlichen Bildern zu identifizieren. Es würde zunächst eine häusliche Form erkennen, dann seine Aufmerksamkeit auf Häuser lenken, innerhalb dieser Kategorie Dächer identifizieren und anschließend das spezifische Haus mit rotem Dach finden.
Gibt es einen Unterschied zum Machine Learning? Ja. Deep Learning ist eine Unterkategorie von ML, die mit deutlich komplexeren Algorithmen arbeitet. Deep Learning verwendet neuronale Netzwerke, um unstrukturierte Daten zu analysieren und in numerische Werte umzuwandeln. Machine Learning mathematische Prinzipien und statische Verfahren zurate, um durch Algorithmen aus Datenmengen Kenntnisse zu erwerben.
Was sind neuronale Netze?
Künstliche neuronale Netzwerke bilden Neuronen des menschlichen Gehirns nach, sind also von der Idee daran angelehnt. Diese Nachbildungen, auch als Knoten bekannt, sind in verschiedenen, gleichzeitig funktionierenden Ebenen angeordnet. Sobald ein solcher Knoten ein numerisches Signal empfängt, wird es verarbeitet und an die anderen miteinander verbundenen Knoten weitergeleitet. Ähnlich wie in unserem Gehirn verbessert die neuronale Verstärkung die Fähigkeit zur Erkennung von Mustern, das Fachwissen und das allgemeine Lernen.
In der realen Umgebung erhalten wir Informationen, die eine Vielzahl von sensorischen Quellen wie Text, Bild, Audio und Video miteinander vereinen. Um alle Modalitäten voll umfassend zu nutzen, stand mit der Entwicklung des multimodalen Lernens der nächste Entwicklungsschritt an.
Multimodale Modelle sind sehr komplex sowie kosten- und zeitintensiv. Auch die Einordnung und Definition sind schwierig, da es keine einheitliche Definition gibt. Doch wie werden die einzelnen Quellen verarbeitet? Schauen wir uns dazu die am häufigsten verwendete Modalität, den Text, an.
Textdaten sind eine Goldgrube an nuancierten und geordneten Informationen. Diese Informationen werden mittels des Natural Language Processing (NLP) extrahiert. Die Quellen dieser Daten sind vielfältig und umfassen beispielsweise Social-Media-Posts oder andere Textarten.