本研究は、2桁加算を全列挙学習した minimal GPT が、なぜ3桁加算の一般化で失敗するのかを、単一の精度スコアではなく段階的な計算障壁として分解して解析した単著プレプリントです。2桁学習だけで局所的な桁遷移規則はすでに網羅されているにもかかわらず、失敗はレイアウト障壁、hundreds 桁の carry flag 化、条件付き再構成、後期の十の位残差という4段階で現れることを示し、算術 OOD failure を検証可能な実験系列として定式化しています。
exhaustive 2-digit addition により、3桁加算で必要となる局所的な桁遷移規則はすでに学習データ内に含まれている。
それでも 3-digit generalization は失敗し、その最初の障壁は pure 3-digit layout shift に対するレイアウト障壁だった。
learned absolute-position model は 3桁表記への layout shift で崩れ、mixed-layout exposure だけがこの最初の障壁を実質的に弱めた。
layout repair 後、hundreds position は semantic hundreds digit ではなく carry flag のように振る舞い、targeted carry probes は関連する logit margin を反転させたが、matched extra-data control では反転しなかった。
carry repair 後の主ボトルネックは conditional recomposition であり、高位状態に条件付けた tail data が matched control・high-only・tail-only をすべて上回った。
同じ順位は 2-layer, width-32 の bridge experiment でも再現され、recomposition 後の残差エラーの大半は tens-only に集中した。
10-seed の late-stage study では、sign-aware tens repair によって hardest thousands-carry suite の exact match が 0.664 から 0.822 へ上昇した。
以上より、算術ベンチマークは単一スコア競争としてではなく、どの barrier が残っているかを切り分ける controlled setting として設計・解釈すべきであることを示した。
Seine A. Shintani. Arithmetic OOD Failure Unfolds in Stages in Minimal GPTs. arXiv(Preprint, Version 1, 2026).
DOI: 10.48550/arXiv.2603.26828
Keywords: arithmetic OOD failure, minimal GPT, length generalization, positional role aliasing, carry semantics, conditional recomposition, out-of-distribution evaluation