Accepted Papers

"Generalization Error and Overparameterization While Learning over Networks." Martin Hellkvist (Uppsala University); Ayça Özçelikkale (Uppsala University); Anders Ahlén (Uppsala University).
"On the interplay between data structure and loss function: an analytical study of generalization for classification." Stéphane d'Ascoli (ENS); Marylou Gabrié (NYU / Flatiron Institute); Levent D Sagun (Facebook AI); Giulio Biroli (ENS).
"Finite-sample Analysis of Interpolating Linear Classifiers in the Overparameterized Regime." Niladri S Chatterji (UC Berkeley); Philip M Long (Google).
"Some samples are more similar than others! A different look at memorization and generalization in neural networks." Sudhanshu Ranjan (UCSD).
"When does gradient descent with logistic loss interpolate using deep networks with smoothed ReLU activations?" Niladri S Chatterji (UC Berkeley); Philip M Long (Google); Peter Bartlett (UC Berkeley).
"On Alignment in Deep Linear Neural Networks." Adityanarayanan Radhakrishnan (MIT); Eshaan Nichani (MIT); Daniel Bernstein (MIT); Caroline Uhler (MIT).
"Increasing Depth Leads to U-Shaped Test Risk in Over-parameterized Convolutional Networks." Eshaan Nichani (MIT); Adityanarayanan Radhakrishnan (MIT); Caroline Uhler (MIT).
"How does Over-Parametrization Lead to Acceleration for Learning a Single Teacher Neuron with Quadratic Activation?" Jun-Kun Wang (Georgia Institute of Technology); Jacob D Abernethy (Georgia Institute of Technology).
"Distributional Generalization: A New Kind of Generalization." Preetum Nakkiran (Harvard University); Yamini Bansal (Harvard University).
"Feature Learning in Infinite-Width Neural Networks." Greg Yang (Microsoft Research AI); Edward J. Hu (Microsoft Dynamics AI).
"Empirical Study on the Effective VC Dimension of Low-rank Neural Networks." Daewon Seo (University of Wisconsin - Madison); Hongyi Wang (University of Wisconsin - Madison); Dimitris Papailiopoulos (University of Wisconsin - Madison); Kangwook Lee (University of Wisconsin - Madison).
"Benign Overfitting in Adversarially Robust Linear Classification." Jinghui Chen (UCLA); Yuan Cao (UCLA); Quanquan Gu (UCLA).
"Mitigating deep double descent by concatenating inputs." John Chen (Rice University); Qihan Wang (Rice University); Anastasios Kyrillidis (Rice University).
"Robust Generalization of Quadratic Neural Networks via Function Identification." Kan Xu (University of Pennsylvania); Hamsa Bastani (Wharton); Osbert Bastani (University of Pennsylvania).
"Label Noise SGD Provably Prefers Flat Global Minimizers." Alexandru Damian (Princeton); Tengyu Ma (Stanford); Jason Lee (Princeton).
"On the Origins of the Block Structure Phenomenon in Neural Network Representations." Thao Nguyen (Google); Maithra Raghu (Google); Simon Kornblith (Google Brain).
"Structured Model Pruning of Convolutional Networks on Tensor Processing Units." Kongtao Chen (Google); Ken Franko (Google); Ruoxin Sang (Google).
"Benign Overfitting in Multiclass Classification: All Roads Lead to Interpolation." Ke Wang (University of California, Santa Barbara); Vidya K Muthukumar (Georgia Institute of Technology); Christos Thrampoulidis (University of British Columbia).
"Inductive Bias of Multi-Channel Linear Convolutional Networks with Bounded Weight Norm." Meena Jagadeesan (UC Berkeley); Ilya Razenshteyn (CipherMode Labs); Suriya Gunasekar (Microsoft Research).
"Sample Complexity and Overparameterization Bounds for Temporal Difference Learning with Neural Network Approximation." Semih Cayci (University of Illinois at Urbana-Champaign); Siddhartha Satpathi (Univeristy of Illinois at Urbana Champaign); Niao He (ETH Zurich); R Srikant (University of Illinois at Urbana-Champaign).
"Double Descent in Feature Selection: Revisiting LASSO and Basis Pursuit." Ashkan Panahi (Chalmers University of Technology); David Bosch (Chalmers University of Technology ); Ayca Ozcelikkale (Uppsala University).
"On Low Rank Training of Deep Neural Networks." Siddhartha Rao Kamalakara (Cohere); Acyr Locatelli (for.ai); Bharat Venkitesh (University of Waterloo); Jimmy Ba (University of Toronto); Yarin Gal (University of Oxford); Aidan N Gomez (Google).
"On the Generalization Improvement from Neural Network Pruning." Tian Jin (MIT); Gintare Karolina Dziugaite (ServiceNow); Daniel Roy (Vector Institute); Michael Carbin (MIT); Jonathan Frankle (MIT).
"A Universal Law of Robustness via Isoperimetry." Sebastien Bubeck (Microsoft Research); Mark Sellke ().
"On the Sparsity of Deep Neural Networks in the Overparameterized Regime: An Empirical Study." Rahul Parhi (University of Wisconsin-Madison); Jack Wolf (University of Wisconsin-Madison); Robert Nowak (University of Wisconsin-Madison).
"Implicit Acceleration and Feature Learning in Infinitely Wide Neural Networks with Bottlenecks." Etai Littwin (Apple); Omid Saremi (Apple); Shuangfei Zhai (Apple); Vimal Thilak (Apple); Hanlin Goh (Apple); Joshua M Susskind (Apple); Greg Yang (Microsoft Research AI).
"Classification and Adversarial Examples in an Overparameterized Linear Model: A Signal-Processing Perspective." Adhyyan Narang (University of Washington); Vidya K Muthukumar (Georgia Institute of Technology); Anant Sahai (UC Berkeley).
"Gradient Starvation: A Learning Proclivity in Neural Networks." Mohammad Pezeshki (Mila, Université de Montréal); Sékou-Oumar Kaba (Mila, Université de Montréal); Yoshua Bengio (Mila); Aaron Courville (Universite de Montreal); Doina Precup (DeepMind); Guillaume Lajoie (Mila, Université de Montréal).
"Studying the Consistency and Composability of Lottery Ticket Pruning Masks." Rajiv Movva (MIT); Michael Carbin (MIT); Jonathan Frankle (MIT).
"Epoch-Wise Double Descent: A Theory of Multi-scale Feature Learning Dynamics." Mohammad Pezeshki (Mila, Université de Montréal); Amartya Mitra (University of California, Riverside); Yoshua Bengio (Mila); Guillaume Lajoie (Mila, Université de Montréal).
"Implicit Greedy Rank Learning in Autoencoders via Overparameterized Linear Networks." Shih-Yu Sun (Apple); Vimal Thilak (Apple); Etai Littwin (Apple); Omid Saremi (Apple Inc.); Joshua M Susskind (Apple).
"Assessing Generalization of SGD via Disagreement Rates." YiDing Jiang (Carnegie Mellon University); Vaishnavh Nagarajan (Carnegie Mellon University); Zico Kolter (Carnegie Mellon University).
"Risk Bounds for Over-parameterized Maximum Margin Classification on Sub-Gaussian Mixtures." Yuan Cao (UCLA); Quanquan Gu (UCLA); Mikhail Belkin (UC San Diego).
"Understanding the effect of sparsity on neural networks robustness." Lukas Timpl (TU Graz); Rahim Entezari (TU Graz); Hanie Sedghi (Google); Behnam Neyshabur (Google); Olga Saukh (TU Graz).
"Rethinking compactness in deep neural networks." Kateryna Chumachenko (Tampere University); Firas Laakom (Tampere University); Jenni Raitoharju (Tampere University); Alexandros Iosifidis (Aarhus University); Moncef Gabbouj (Tampere University).
"Overfitting of Polynomial Regression with Overparameterization." Hugo HF Fabregues (EPFL); Berfin Simsek (EPFL).
"On the memorization properties of contrastive learning." Ildus Sadrtdinov (Samsung-HSE Laboratory, National Research University Higher School of Economics); Nadezhda Chirkova (Samsung-HSE Laboratory, National Research University Higher School of Economics); Ekaterina Lobacheva (Samsung-HSE Laboratory, National Research University Higher School of Economics).
"Beyond Implicit Regularization: Avoiding Overfitting via Regularizer Mirror Descent." Navid Azizan (Stanford University); Ali Sahin Lale (California Institute of Technology); Babak Hassibi (California Institute of Technology).
"Over-Parameterization and Generalization in Audio Classification." Khaled Koutini (Johannes Kepler University); Hamid Eghbal-zadeh (LIT AI Lab, Johannes Kepler University); Florian Henkel (Johannes Kepler University Linz); Jan Schlüter (JKU Linz); Gerhard Widmer (Johannes Kepler University).
"Surprising benefits of ridge regularization for noiseless regression." Konstantin Donhauser (Swiss federal institute of technology); Alexandru Tifrea (ETH Zurich); Michael Aerni (ETH Zürich); Reinhard Heckel (Technical University of Munich); Fanny Yang (ETH).
"Value-Based Deep Reinforcement Learning Requires Explicit Regularization." Aviral Kumar (UC Berkeley); Rishabh Agarwal (Google Research, Brain Team); Aaron Courville (University of Montreal); Tengyu Ma (Stanford); George Tucker (Google Brain); Sergey Levine (UC Berkeley).
"Binary Classification of Gaussian Mixtures: Abundance of Support Vectors, Benign Overfitting and Regularization." Ke Wang (University of California, Santa Barbara); Christos Thrampoulidis (University of British Columbia).
"Label-Imbalanced and Group-Sensitive Classification under Overparameterization." Ganesh Ramachandra Kini (University of California, Santa Barbara); Orestis Paraskevas (University of California, Santa Barbara); Samet Oymak (University of California, Riverside); Christos Thrampoulidis (University of British Columbia).
"Towards understanding how momentum improves generalization in deep learning." Samy Jelassi (Princeton University); Yuanzhi Li (CMU).
"Early-stopped neural networks are consistent." Ziwei Ji (University of Illinois at Urbana-Champaign); Justin Li (University of Illinois at Urbana-Champaign); Matus Telgarsky (University of Illinois at Urbana-Champaign).