凸最適化で良い物が必ずしも非凸最適化で良いわけでもない ◦ SVRGという良い性質を持つ手法がSGDに勝てなかったり On the Ineffectiveness of Variance Reduced Optimization for Deep Learning [Nips2019] • 色々な手法が出ているがMomentumの形式の違いなどによる影響の明確な 理解は進んでいない 7
initialization and momentum in deep learning." International conference on machine learning. 2013. • Bottou, Léon, Frank E. Curtis, and Jorge Nocedal. "Optimization methods for large-scale machine learning." Siam Review 60.2 (2018): 223-311. 35