Gradientenabstieg

Was ist Gradientenabstieg?

Gradientenabstieg ist ein Optimierungsalgorithmus, der iterativ Modellparameter anpasst, um eine Verlustfunktion zu minimieren. So lernen neuronale Netzwerke aus Daten.

Die Intuition

Stelle dir vor, du stehst mit verbundenen Augen in einer hügeligen Landschaft und versuchst, den tiefsten Punkt zu erreichen. Du fühlst die Neigung unter deinen Füßen und gehst bergab. Wiederhole, bis du ein Tal erreichst.

Wie es funktioniert

Der Algorithmus berechnet, wie viel jeder Parameter zum Fehler beiträgt, und passt die Parameter dann in die entgegengesetzte Richtung an.

Verlust berechnen

Messen, wie falsch die aktüllen Vorhersagen sind.

Gradienten berechnen

Backpropagation verwenden, um herauszufinden, wie jedes Gewicht den Verlust beeinflusst.

Gewichte aktualisieren

Gewichte in die Richtung anpassen, die den Verlust reduziert.

Wiederholen

Iterieren, bis der Verlust nicht mehr abnimmt.

Lernrate

Kontrolliert, wie groß jeder Schritt ist. Zu hoch: Überschießen. Zu niedrig: langsamer Fortschritt.

Varianten

Stochastischer Gradientenabstieg

Verwendet zufällige Mini-Batches anstelle des gesamten Datensatzes.

Momentum

Akkumuliert Geschwindigkeit, um lokale Minima zu überwinden.

Adam

Adaptive Lernraten pro Parameter. Kombiniert Momentum mit RMSprop.

AdamW

Adam mit entkoppeltem Weight Decay. Heute für die meisten Anwendungen bevorzugt, besonders beim Training großer Sprachmodelle.

Lernraten-Scheduling

Anstatt eine feste Lernrate zu verwenden, passen Schedules sie während des Trainings für bessere Konvergenz an.

Stufen-Abnahme

Lernrate um einen Faktor zu bestimmten Epochen reduzieren (z.B. alle 30 Epochen halbieren).

Exponentielle Abnahme

Kontinuierliche Verringerung der Lernrate: lr = lr_0 * e^(-kt). Glatt, kann aber zu schnell abklingen.

Kosinus-Annealing

Folgt einer Kosinuskurve von der initialen zur minimalen LR. Beliebt im modernen Training, ermöglicht sanftes Abkühlen.

Warmup

Mit sehr niedriger LR starten, gradüll zum Ziel erhöhen, dann abklingen. Stabilisiert frühes Training, essentiell für Transformer.

Konvergenz-Herausforderungen

Hindernisse verstehen, die den Gradientenabstieg daran hindern können, das globale Optimum zu finden.

Lokale Minima

Punkte, wo der Verlust niedriger ist als in der Umgebung, aber nicht das globale Minimum. Momentum und adaptive Methoden helfen zu entkommen.

Sattelpunkte

Punkte, wo der Gradient null ist, aber weder Minimum noch Maximum. Häufig in hohen Dimensionen, verlangsamt Konvergenz.

Plateaus

Flache Regionen, wo Gradienten sehr klein sind. Fortschritt stagniert, bis der Optimierer entkommt. Adaptive LR hilft bei der Navigation.

📉

Gradientenabstieg-Visualisierer

Beobachte, wie der Gradientenabstieg das Minimum findet

Gradient Descent

Optimizing a 2D loss function

Lernrate0.10

0.01 (slow)0.3 (fast)

Iterationen

6.92

Aktüller Verlust

1.80

Position (x)

The red ball follows the gradient (slope) downhill. A higher learning rate takes bigger steps but may overshoot. Starting position determines whether you reach the global or local minimum.

Wichtige Erkenntnisse

1Gradientenabstieg minimiert den Verlust, indem er dem Gefälle folgt
2Die Lernrate ist der wichtigste Hyperparameter
3AdamW ist jetzt der bevorzugte Optimierer für die meisten Deep-Learning-Anwendungen
4Backpropagation berechnet Gradienten effizient