Der Lernprozess eines künstlichen neuronalen Netzes wird Training genannt. Vor dem Training werden die Gewichtungen und Biases in neuronalen Netzen auf zufällige Werte gesetzt. Das bedeutet, dass im Modell noch keine Informationen gespeichert sind und die einzelnen Neuronen noch keine optimierten Gewichtungen oder Biases aufweisen. Ziel des Trainings ist es, diese Gewichtungen und Biases im Laufe des Trainings so anzupassen, dass die Ausgabe des Netzes den gewünschten Ergebnissen so nahe wie möglich kommt. Die eingeschränkte Fähigkeit eines einzelnen Neurons täuscht über die hohe Komplexität und die unzähligen Anwendungsfälle hinweg, wenn ein Geflecht von Tausenden, Millionen oder Milliarden von Neuronen in einem Netz zusammenwirken.
Ein zentrales Konzept des Trainings ist der „Verlust“ (oder Fehler), oft als Verlustfunktion bezeichnet. Er gibt an, wie weit die Vorhersagen des Netzes von den tatsächlichen Ergebnissen abweichen. Es gibt verschiedene Verlustfunktionen und die Wahl hängt von der spezifischen Aufgabe des künstlichen neuronalen Netzes ab. Um diesen Verlust zu minimieren, wird ein Optimierungsverfahren verwendet. Der Gradientenabstieg ist ein häufig verwendetes Optimierungsverfahren, das iterativ die Gewichte und Biases in die Richtung anpasst, die den Verlust am stärksten reduziert, basierend auf dem Konzept der ersten Ableitung.
Beim überwachten Lernen wird der Verlust L als Differenz zwischen der vorhergesagten Ausgabe ý und der tatsächlichen Ausgabe y definiert:
Ein essenzieller Schritt im Training eines neuronalen Netzes ist die Backpropagation. Hierbei wird der Fehler/ Verlust vom Ausgang des Netzes rückwärts durch die Anwendung des Optimierungsverfahrens auf alle Schichten und Neuronen zurückgerechnet. Dieses spezielle Verfahren berechnet den Gradienten der Verlustfunktion bezüglich jedes Gewichts und Bias im Netz, wie stark Gewichtung und Bias eines jeden Neurons zum Gesamtfehler beitragen. Mit dieser Information werden die Gewichtungen und Biases entsprechend angepasst. Dieses Verfahren wird mit verschiedensten Daten so lange wiederholt, bis die Vorhersage hinreichend optimiert ist.
Das künstliche neuronale Netz ist jetzt trainiert und hat gewonnene Erfahrungen durch die Modifikation von Gewichtungen und Biases gespeichert.
Zusammenfassend sind neuronale Netze komplexe, verflochtene Systeme, die durch Training in der Lage sind, Muster und Zusammenhänge in Daten zu erkennen und darauf basierende Entscheidungen zu treffen. Allerdings kann die Entscheidungsfindung eines gut trainierten Netzes aufgrund der zugrundeliegenden Mathematik und der Vielzahl von Neuronen nicht mehr nachvollzogen oder erklärt werden, weshalb man im Zusammenhang mit KIs häufig von einer „Black Box“ spricht. Ferner ist das Training, d. h. die Optimierung und die Backpropagation außerordentlich rechenintensiv. Hierdurch kommen auch moderne Supercomputer schnell an Grenzen.