Was ist Gradientenabstieg?
Gradientenabstieg ist ein Optimierungsalgorithmus, der iterativ Modellparameter anpasst, um eine Verlustfunktion zu minimieren. So lernen neuronale Netzwerke aus Daten.
Die Intuition
Stelle dir vor, du stehst mit verbundenen Augen in einer hügeligen Landschaft und versuchst, den tiefsten Punkt zu erreichen. Du fühlst die Neigung unter deinen Füßen und gehst bergab. Wiederhole, bis du ein Tal erreichst.
Wie es funktioniert
Der Algorithmus berechnet, wie viel jeder Parameter zum Fehler beiträgt, und passt die Parameter dann in die entgegengesetzte Richtung an.
Verlust berechnen
Messen, wie falsch die aktüllen Vorhersagen sind.
Gradienten berechnen
Backpropagation verwenden, um herauszufinden, wie jedes Gewicht den Verlust beeinflusst.
Gewichte aktualisieren
Gewichte in die Richtung anpassen, die den Verlust reduziert.
Wiederholen
Iterieren, bis der Verlust nicht mehr abnimmt.
Lernrate
Kontrolliert, wie groß jeder Schritt ist. Zu hoch: Überschießen. Zu niedrig: langsamer Fortschritt.
Varianten
Stochastischer Gradientenabstieg
Verwendet zufällige Mini-Batches anstelle des gesamten Datensatzes.
Momentum
Akkumuliert Geschwindigkeit, um lokale Minima zu überwinden.
Adam
Adaptive Lernraten pro Parameter. Kombiniert Momentum mit RMSprop.
AdamW
Adam mit entkoppeltem Weight Decay. Heute für die meisten Anwendungen bevorzugt, besonders beim Training großer Sprachmodelle.
Lernraten-Scheduling
Anstatt eine feste Lernrate zu verwenden, passen Schedules sie während des Trainings für bessere Konvergenz an.
Stufen-Abnahme
Lernrate um einen Faktor zu bestimmten Epochen reduzieren (z.B. alle 30 Epochen halbieren).
Exponentielle Abnahme
Kontinuierliche Verringerung der Lernrate: lr = lr_0 * e^(-kt). Glatt, kann aber zu schnell abklingen.
Kosinus-Annealing
Folgt einer Kosinuskurve von der initialen zur minimalen LR. Beliebt im modernen Training, ermöglicht sanftes Abkühlen.
Warmup
Mit sehr niedriger LR starten, gradüll zum Ziel erhöhen, dann abklingen. Stabilisiert frühes Training, essentiell für Transformer.
Konvergenz-Herausforderungen
Hindernisse verstehen, die den Gradientenabstieg daran hindern können, das globale Optimum zu finden.
Lokale Minima
Punkte, wo der Verlust niedriger ist als in der Umgebung, aber nicht das globale Minimum. Momentum und adaptive Methoden helfen zu entkommen.
Sattelpunkte
Punkte, wo der Gradient null ist, aber weder Minimum noch Maximum. Häufig in hohen Dimensionen, verlangsamt Konvergenz.
Plateaus
Flache Regionen, wo Gradienten sehr klein sind. Fortschritt stagniert, bis der Optimierer entkommt. Adaptive LR hilft bei der Navigation.
Gradientenabstieg-Visualisierer
Beobachte, wie der Gradientenabstieg das Minimum findet
Gradient Descent
Optimizing a 2D loss function
Iterationen
Aktüller Verlust
Position (x)
The red ball follows the gradient (slope) downhill. A higher learning rate takes bigger steps but may overshoot. Starting position determines whether you reach the global or local minimum.
Wichtige Erkenntnisse
- 1Gradientenabstieg minimiert den Verlust, indem er dem Gefälle folgt
- 2Die Lernrate ist der wichtigste Hyperparameter
- 3AdamW ist jetzt der bevorzugte Optimierer für die meisten Deep-Learning-Anwendungen
- 4Backpropagation berechnet Gradienten effizient