講演者(所属):松原 崇(大阪大学大学院基礎工学研究科)
題目:微分方程式の数値解法に学ぶ・使う・代わる深層学習
日時:2024年1月9日(火)16:30-18:00
場所:東京大学大学院数理科学研究科 002室及びオンライン (アクセス)
概要: ニューラルネットワークは,今日の深層学習ブームにおいて画像処理や自然言語処理を高度化できる技術とみなされている.しかし歴史を振り返ると,力学系のモデル化や制御にも長年使われていたことが分かる.かつてのそれは単なる表層的な近似でしかなかったが,近年,他の応用と同様にいくつかのブレークスルーと再発見があった.1つ目は,ニューラルネットワークの挙動そのものがある種の力学系の模倣になっているという新しい視点である.これはニューラルネットワークの情報処理メカニズムの解析に繋がるとともに,微分方程式の数値解法に学んだ新しいネットワークアーキテクチャの設計を可能にする.2つ目は,ニューラルネットワークを微分方程式の解関数の基底として使う方法である.誤差逆伝播法のおかげで,データ同化やシステム同定が容易となった.最後に数値解法そのものに取って代わろうとする野心的な試みがある.本発表では,これらのアプローチを俯瞰的に紹介する.
備考:
講演者(所属):David Sommer (The Weierstrass Institute for Applied Analysis and Stochastics, Berlin)
題目:Approximating Langevin Monte Carlo with ResNet-like neural network architectures
日時:2024年3月13日(水)16:30-17:30
方法:オンラインのみ
概要: We analyse a method to sample from a given target distribution by constructing a neural network which maps samples from a simple reference distribution, e.g. the standard normal, to samples from the target distribution. For this, we propose using a neural network architecture inspired by the Langevin Monte Carlo (LMC) algorithm. Based on LMC perturbation results, approximation rates of the proposed architecture for smooth, log-concave target distributions measured in the Wasserstein-2 distance are shown. The analysis heavily relies on the notion of sub-Gaussianity of the intermediate measures of the perturbed LMC process. In particular, we derive bounds on the growth of the intermediate variance proxies under different assumptions on the perturbations. Moreover, we propose an architecture similar to deep residual neural networks (ResNets) and derive expressivity results for approximating the sample to target distribution map.
備考:
講演者(所属):Andreas Rathsfeld (The Weierstrass Institute for Applied Analysis and Stochastics, Berlin)
題目:Analysis of the Scattering Matrix Algorithm (RCWA) for Diffraction by Periodic Surface Structures
日時:2024年3月13日(水)17:30-18:30
方法:オンラインのみ
概要: The scattering matrix algorithm is a popular numerical method for the diffraction of optical waves by periodic surfaces. The computational domain is divided into horizontal slices and, by a clever recursion, an approximated operator, mapping incoming into outgoing waves, is obtained. Combining this with numerical schemes inside the slices, methods like RCWA and FMM have been designed.
The key for the analysis is the scattering problem with special radiation conditions for inhomogeneous cover materials. If the numerical scheme inside the slices is the FEM, then the scattering matrix algorithm is nothing else than a clever version of a domain decomposition method.
備考:
講演者(所属):橋本悠香(NTTネットワークサービスシステム研究所)
題目:Koopman作用素を用いたニューラルネットワークの汎化誤差解析
日時:2024年4月24日(水)16:30-18:00
場所:東京大学大学院数理科学研究科 002室及びオンライン (アクセス)
概要: 汎化性能(未知のデータに対してモデルがフィットするかどうか)の解析は,ニューラルネットワークにおける重要なトピックのうちの1つである.既存研究では,重み行列の低ランク性が,モデルの汎化性能を向上させるという解析が多い.しかし,必ずしも低ランク性のみが汎化性能を向上させる要因となるわけではなく,高ランクの重み行列によっても汎化性能の向上が起こる場合があることが,経験的には知られている.本発表では,Koopman作用素と呼ばれる線形作用素を用いてニューラルネットワークにおける合成の構造を表現することで,汎化性能の解析を行う.特に,高ランクの重み行列に焦点を当て,高ランクの重み行列によってニューラルネットワークの汎化性能が向上する仕組みを明らかにする.
備考:
講演者(所属):榊原航也(金沢大学理工研究域)
題目:離散最適輸送問題の Bregman ダイバージェンスによる正則化
日時:2024年5月15日(水)16:30-18:00
場所:東京大学大学院数理科学研究科 002室及びオンライン (アクセス)
概要: 最適輸送理論は確率測度間の距離を測ることを可能とし,数学や物理学,経済学,統計学,コンピュータ科学,機械学習等,数多くの分野への応用を持つ.有限集合上での最適輸送問題を考えると,これは線型計画問題に他ならず,組合せ論的アルゴリズムや内点法など,様々な数値計算手法が提案されてきたが,計算量の問題により高次元の場合には求解が難しいことが知られている.その中で,2013年に M. Cuturi はコスト函数に Kullback–Leibler(KL)ダイバージェンスを足し合わせる正則化(エントロピー正則化)を考え,Sinkhorn アルゴリズムに基づいた「光速」な数値計算法を提唱した.このアルゴリズムの誕生以降,最適輸送は機械学習分野で盛んに用いられるようになり,近年では改めて大きな注目を集めている.
エントロピー正則化の有効性が分かった上で,数学的にも応用的にも以下のような疑問が生じる.
KL ダイバージェンス以外での正則化は可能か?
他の正則化を用いた際,正則化パラメータを 0 にする極限での元の最適輸送問題の最適コストへの収束オーダーはどのように評価できるか?
KL ダイバージェンスの場合よりも収束が速い正則化項は存在するか?
本講演では,上記の疑問に答えるべく,KL ダイバージェンスを含むクラスである Bregman ダイバージェンスを用いた正則化を考える.ある性質を満たす Bregman ダイバージェンスを用いる場合,KL ダイバージェンスを用いた場合よりも収束が速くなることを示し,そのような具体例を数値実験とともに提示する.時間が許せば,現在考えている問題や将来的な応用の可能性についても触れたい.
本講演は,高津飛鳥氏(東京都立大学),保國惠一氏(筑波大学)との共同研究に基づく.また,本講演の内容は以下のプレプリントにまとまっている.
K. Morikuni, K. Sakakibara, and A. Takatsu. Error estimate for regularized optimal transport problems via Bregman divergence. arXiv:2309.11666
備考:
講演者(所属):早川知志(ソニーグループ株式会社)
題目:ランダム凸包とカーネル求積
日時:2024年5月29日(水)16:30-18:00
場所:東京大学大学院数理科学研究科 002室及びオンライン (アクセス)
概要: 確率測度の離散近似の代表例として、古典的には低次モーメントのマッチングによるcubature(立体求積)がある。これは一般の空間においても有限個の可積分関数の積分値を保つような離散化として導入でき、ランダムサンプリングによるナイーブな構成が考えられる。講演の前半では、この確率的構成の成功確率を定式化したものとして、ランダム凸包が空間上の点を含む確率についてのバウンドを与える。後半ではさらに、この一般化cubatureの問題が(被積分関数のクラスとして再生核ヒルベルト空間を想定する)カーネル求積問題に実用的なアルゴリズムとともに応用できることをみる。
講演内容は次の学位論文にもとづく:
https://ora.ox.ac.uk/objects/uuid:15008016-2418-4c9a-a2f7-c9515a0657b1
備考:
講演者(所属): Bernardo Cockburn (University of Minnesota, Distinguished McKnight University Professor)
題目:The transformation of stabilizations into spaces for Galerkin methods for PDEs
日時:2024年7月9日(火)16:30-18:00 (火曜日の開催です。水曜日ではありませんのでご注意ください)
場所:東京大学大学院数理科学研究科 002室及びオンライン (アクセス)
概要: We describe a novel technique which allows us to transform the terms which render Galerkin methods stable into spaces (JJIAM, 2023). We begin by applying this technique to show that the Continuous and Discontinuous Galerkin (DG) methods for ODEs produce the very same approximation of the time derivative, and use this to obtain superconvergence points of the DG method. We then apply this technique to mixed methods for second-order elliptic equations to show that they can always be recast as hybridizable DG (HDG) methods. We then show that this recating makes the implementation from 10% to 20% better for polynomial degrees ranging from 1 to 20.We end by sketching or ongoing and future work.
備考:
講演者(所属): 中井 拳吾(岡山大学学術研究院)
題目:偏った時系列データを用いた機械学習による時間発展モデリング
日時:2024年10月16日(水)16:30-18:00
場所:東京大学大学院数理科学研究科 002室及びオンライン (アクセス)
概要: リザーバーコンピューティングと呼ばれる機械学習手法が決定論的ダイナミクスのモデリングに有効であり、単に時系列予測能力が高いだけではなく力学系構造の再現性なども明らかになってきている。本講演の前半では、時系列データの学習の難しさやリザーバーコンピューティングによる学習の仕組みを説明し、周辺の問題や研究のモチベーションについて紹介する。後半では、準備できるデータが少ない場合やデータに偏りがある場合のアトラクターや不変密度分布等の再現性などの結果を紹介する。時間が許せば、現在考えている問題についても触れる。本講演は、一橋大学の斉木吉隆氏との共同研究に基づく。
備考:
講演者(所属): 中野 張(東京科学大学情報理工学院 )
題目:シュレディンガー問題と拡散生成モデル
日時:2024年11月27日(水)16:30-18:00
場所:東京大学大学院数理科学研究科 002室及びオンライン (アクセス)
概要: シュレディンガー問題とは,終端分布の制約付き確率制御問題のうちエントロピー最小のものを求める問題のことをいう.これは元々は,初期分布と終端分布が固定された粒子群の中で最も起こりやすい時間発展は何か,というE. シュレディンガーにより1931年,1932年に提示された問題に端を発している.シュレディンガー問題の理論は,確率制御との関連のみならず,可逆過程(reciprocal process),逆時間拡散過程,確率力学などの理論を生み出しながら発展してきた.他方,拡散生成モデルとは,拡散過程を利用した深層生成モデルのことであり,特に,Denoising Diffusion Probabilistic Model (DDPM)と呼ばれる拡散モデルは,近年,画像生成AIの基盤モデルとして採用され大きな注目を集めている.拡散モデルは所与のデータ分布にノイズを加えていく過程でデータ分布に関連するスコア関数を学習させ,このスコア関数を用いて逆時間で拡散過程を現在に「戻す」という手続きにより実現されている.拡散生成モデルが登場して程なくしてシュレディンガー問題との関係が指摘され,最近では生成モデルへの応用という観点からシュレディンガー問題が再注目されている.本講演の前半では,シュレディンガー問題と拡散生成モデルの関連について,歴史的・技術的観点から概説し,シュレディンガー問題の生成モデルへの今後の応用可能性について述べたい.後半では,DDPMの収束についての理論的結果を報告する.具体的には,データ分布の密度関数に対する適当な正則性条件と,ノイズスケジュールのパラメーター,スコア推定誤差,ノイズ推定関数の漸近挙動の仮定の下で,DDPMにより構成された確率変数の分布列が,時間ステップ数の極限において,目標分布に弱収束することを示す.
備考: