研究室に参加希望の方はメールなどでお問い合わせください.
修士課程の希望者は入試案内もご確認ください.
確率的最適化・統計的機械学習・深層学習を研究しています.機械学習は有限の観測データから有用な情報を抽出する技術であり,近年発展が目覚ましい画像認識・音声認識・自然言語処理などの人工知能の根幹を担っています.
以下は機械学習への簡単な導入スライドです.初学者の方は参考にしてみてください.
現在の研究目標は機械学習がうまく機能する理由を解明し,その理解に基づいた効率的な学習法を開発することです.とくに深層学習の性能は学習に使用する最適化手法と密接な関係があります.実際,ニューラルネットワークの学習は非凸最適化問題に帰着するので得られる仮説関数は最適化の仕方に大きく依存します.このことから確率的最適化を基軸にした機械学習および深層学習の研究に取り組んでいます.最近の成果[Nitanda and Suzuki (ICLR2021)], [Nitanda et al. (2020)] については次のスライドをご覧ください.
確率的最適化法は経験損失最小化問題,期待損失最小化問題のいずれにも適用可能です.後者に適用する場合は反復毎に期待損失を定める確率分布から新しいサンプルが得られる設定を考えることに他なりません.このとき,最適化手法の反復数は学習に使用したサンプル数であり,反復数についての最適化効率は学習効率に他なりません.このことから確率的最適化法と機械学習理論の密接な関係性がうかがえます.実際,この観点に基づいた確率的勾配降下法の汎化性能解析を[Nitanda and Suzuki (AISTATS2019)], [Yashima et al. (AISTATS2021)], [Nitanda and Suzuki (ICLR2021)]などで行っています.[Nitanda and Suzuki (AISTATS2019)]ではラベルの強い低ノイズ性のもと,再生核ヒルベルト空間 (reproducing kernel Hilbert space, RKHS) 上の確率的勾配降下法による期待識別誤差の線形収束性を示し,[Yashima et al. (AISTATS2021)]でこの結果をrandom Fourier featureを用いた設定で示しました.[Nitanda and Suzuki (ICLR2021)]は二乗損失を用いた回帰問題の設定で過剰パラメトライズされた二層ニューラルネットワークに対する確率的勾配降下法の汎化の意味での最適性をニューラルタンジェントカーネル理論が成立する範囲で示しました.
機械学習モデルのパラメータについての最適化に伴い仮説関数が更新されます.従って,最適化に伴う関数空間におけるダイナミクスを調べることは自然なことです.二層ニューラルネットワークを解析した[Nitanda and Suzuki (2017], [Nitanda and Suzuki (ICLR2021)], [Nitanda et al. (2020)]はこのようなアイデアに基づいています.ニューラルネットワークの関数空間でのダイナミクスを記述する理論として平均場理論とニューラルタンジェントカーネル理論があり,ニューラルネットワークの初期化の仕方や出力スケールの調整などに依存して有効な理論が切り替わります.ニューラルネットワークのダイナミクスの平均場理論は[Nitanda and Suzuki (2017)]で導入されました.この理論によって勾配降下法によるニューラルネットワークのダイナミクスは確率測度の空間でのWasserstein勾配流として記述されることが分かりました.その後,平均場理論を援用した最適化の大域的収束性が示されましたが,この理論が対象とするニューラルネットワークは最適化が難しく,多項式時間での収束率を保証するには何かしらの追加条件が必要となります.[Nitanda et al. (2020)]は相対エントロピー (Kullback-Leibler divergence) による正則化のもと平均場理論下の二層ニューラルネットワークが多項式時間で最適化できることを示しました.ここで提案された最適化手法は有限次元空間上の最適化法である双対平均化法を確率測度空間上へ拡張したものです.この提案手法は一般に確率測度空間上で負エントロピー正則化付きの凸汎関数を最小化することができます.この意味で負エントロピー正則化付きの線形汎関数を最小化するランジュバンアルゴリズムの非線形拡張ともみなせます.
関数空間でのダイナミクスを考える立場では,そのダイナミクスがパラメータの最適化に付随するものである必要はありません.例えば勾配ブースティング法では関数空間での勾配降下法の一反復をアンサンブルへの弱学習器の追加により近似実行します.残差ニューラルネットワーク (residual neural network, ResNet) という深層学習モデルも層間の関係性はこのような性質を持ちます.そこで勾配ブースティング法に基づいたResNetの最適化法を[Nitanda and Suzuki (ICML2018)], [Nitanda and Suzuki (AISTATS2020)]で提案し,また敵対的生成ネットワーク (generative adversarial network, GAN) の最適化法の開発も[Nitanda and Suzuki (AISTATS2018)]で行いました.これらの手法のアイデアはニューラルネットワークの平均場理論を与えた[Nitanda and Suzuki (2017)]とも関係があります.この論文では勾配法に付随する確率測度の反復を記述しましたが,その背後には確率測度の輸送写像の反復があり,実はこれが残差ネットワークの勾配ブースティング法とみなせます.すなわち確率測度空間上の輸送写像の勾配ブースティングが平均場二層ニューラルネットワークの勾配法とも関連付きます.
訓練データサイズは大きいほど機械学習の精度は向上します.しかしながらそのサイズに依存して最適化に掛かるコストも一般的には増大します.そこで大規模データセットにスケーラブルな確率的最適化手法の研究も重要になります.確率的最適化法は元来,スケーラビリティを備えたアルゴリズムですがさらに問題特有の構造を活用することでより優れた手法を開発する余地があります.例えば[Nitanda (NIPS2014)] , [Nitanda (AISTATS2016)]では経験損失最小化問題の目的関数がデータサイズ分の有限和になっていることを利用した分散縮小法をさらに加速する手法の開発を試みました.またミニバッチ利用時の確率的最適化法の反復計算量,総計算量,ミニバッチ効率の最適性について[Nitanda et al. (ICDM2019)]において議論し,これら量を鑑みた際,[Nitanda (NIPS2014)]の拡張手法の最適性を示しました.他には[Nitanda and Suzuki (AISTATS2017)]では目的関数が凸関数の差分となるDC最適化問題に対する確率的最適化手法を考案し,ボルツマンマシンの学習においてその有効性を示しました.
[Nitanda and Suzuki (ICLR2021)] Atsushi Nitanda and Taiji Suzuki. Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime. The 9th International Conference on Learning Representations (ICLR2021), 2021. (outstanding paper award) [arXiv], [openreview]
[Amari et al. (ICLR2021)] Shun-ichi Amari, Jimmy Ba, Roger Grosse, Xuechen Li, Atsushi Nitanda, Taiji Suzuki, Denny Wu, and Ji Xu. When Does Preconditioning Help or Hurt Generalization?. The 9th International Conference on Learning Representations (ICLR2021), 2021. [arXiv], [openreview]
[Yashima et al. (AISTATS2021)] Shingo Yashima, Atsushi Nitanda, and Taiji Suzuki. Exponential Convergence Rates of Classification Errors on Learning with SGD and Random Features. The 24th International Conference on Artificial Intelligence and Statistics (AISTATS2021), Proceedings of Machine Learning Research, 130:1954—1962, 2021. [arXiv]
[Nitanda and Suzuki (AISTATS2020)] Atsushi Nitanda and Taiji Suzuki. Functional Gradient Boosting for Learning Residual-like Networks with Statistical Guarantees. The 23rd International Conference on Artificial Intelligence and Statistics (AISTATS2020), Proceedings of Machine Learning Research, 108:2981—2991, 2020.
[Nitanda et al. (ICDM2019)] Atsushi Nitanda, Tomoya Murata, and Taiji Suzuki. Sharp Characterization of Optimal Minibatch Size for Stochastic Finite Sum Convex Optimization. 2019 IEEE International Conference on Data Mining (ICDM2019), pp. 488—497. 2019. (regular, best paper candidate for KAIS publication) [slide]
[Nitanda and Suzuki (AISTATS2019)] Atsushi Nitanda and Taiji Suzuki. Stochastic Gradient Descent with Exponential Convergence Rates of Expected Classification Errors. The 22nd Artificial Intelligence and Statistics (AISTATS2019), Proceedings of Machine Learning Research, 89:1417—1426, 2019. (oral presentation) [arXiv] [slide]
[Nitanda and Suzuki (ICML2018)] Atsushi Nitanda and Taiji Suzuki. Functional Gradient Boosting based on Residual Network Perception. The 35th International Conference on Machine Learning (ICML2018), Proceedings of Machine Learning Research, 80:3819—3828, 2018. [arXiv] [code] [slide]
[Nitanda and Suzuki (AISTATS2018)] Atsushi Nitanda and Taiji Suzuki. Gradient Layer: Enhancing the Convergence of Adversarial Training for Generative Models. The 21st International Conference on Artificial Intelligence and Statistics (AISTATS2018), Proceedings of Machine Learning Research, 84: 1008—1016, 2018. [arXiv]
[Nitanda and Suzuki (AISTATS2017)] Atsushi Nitanda and Taiji Suzuki. Stochastic Difference of Convex Algorithm and its Application to Training Deep Boltzmann Machines. The 20th International Conference on Artificial Intelligence and Statistics (AISTATS2017), Proceedings of Machine Learning Research, 54:470—478, 2017.
[Nitanda (AISTATS2016)] Atsushi Nitanda. Accelerated Stochastic Gradient Descent for Minimizing Finite Sums. The 19th International Conference on Artificial Intelligence and Statistics (AISTATS2016), Proceedings of Machine Learning Research, 51:195—203, 2016. [arXiv]
[Nitanda (NIPS2014)] Atsushi Nitanda. Stochastic Proximal Gradient Descent with Acceleration Techniques. In Advances in Neural Information Processing Systems 27 (NIPS2014), pp.1574—1582, 2014.
[Nitanda et al. (2020)] Atsushi Nitanda, Denny Wu, and Taiji Suzuki. Particle Dual Averaging: Optimization of Mean Field Neural Networks with Global Convergence Rate Analysis. 2020. [arXiv ]
[Nitanda and Suzuki (2017)] Atsushi Nitanda and Taiji Suzuki. Stochastic Particle Gradient Descent for Infinite Ensemble. 2017. [arXiv]
機械学習の理論研究において数学は有用な道具です.使える数学的道具が増えると研究の幅も広がりますので.数学も学んでいきましょう.たとえば,最適化理論,統計的学習理論,関数解析,確率解析,Wasserstein幾何などは機械学習との関係性も強い分野なので,このような分野に興味がある方の参加は歓迎します.
また多変数微積分,線型代数,確率論基礎は研究テーマに依らず必須ですのでしっかりと復習をしておくといいでしょう.