markdown-it
demo
Delete
Submit
clear
permalink
1. 梯度下降法 (Gradient Descent) * 優點:是最基本、最簡單的優化算法,易於實現,可為其他優化算法提供參考基準。 * 缺點:容易卡在局部最小值,速度較慢。 1. 隨機梯度下降法 (Stochastic Gradient Descent, SGD):SGD 是最基礎的優化算法之一,其更新公式簡單易懂,易於實現。缺點是容易陷入局部最優解,收斂速度慢。 * 優點:與梯度下降法相比,計算速度更快。 * 缺點:同梯度下降法,容易卡在局部最小值。 1. 批量梯度下降法 (Batch Gradient Descent) * 優點:與梯度下降法相比,收斂速度更快。 * 缺點:計算複雜度較高,需要大量內存。 1. 动量梯度下降法 (Momentum) * 優點:能夠避免梯度下降法卡在局部最小值,並且速度快。 * 缺點:在某些情況下,也可能會卡在局部最小值。 1. Nesterov Accelerated Gradient (NAG) * 優點:基於動量梯度下降法的改進,可以更快地收斂。 * 缺點:對於某些問題,可能會出現局部最小值問題。 1. AdaGrad:Adagrad 是一種基於梯度平方的自適應優化算法,具有良好的收斂性能,但可能因為過度更新而降低訓練效果。 * 優點:針對每個參數進行調整,能夠適應不同的學習率。 * 缺點:學習率會隨著訓練進程增加,可能會導致學習率過小的問題。 1. RMSProp:RMSProp 類似於 Adagrad,但對梯度平方做了指數加權平均,這樣可以減少過度更新的問題,使得收斂速度更快。 * 優點:針對AdaGrad的學習率遞減的問題進行改進,可以更好地調整學習率。 * 缺點:對於某些問題,可能會出現學習率不夠充分的問題。 1. Adam:Adam 是一種結合了 AdaGrad 和 RMSProp 的算法,廣泛應用於各種深度學習任務。Adam 的優點是對內存需求小,計算效率高,參數更新速度較快,因此在大多數場景下表現較為優秀。 * 優點:結合了Momentum和RMSProp的優點,能夠快速收斂並調整學習率。 * 缺點:對於某些問題,可能會出現學習率過高或過低的問題。
html
source
debug
Fork me on GitHub