一般化加法モデル：

「非自明」なぐにゃぐにゃ回帰

「非自明」な応答のデータ

　今まで私たちは、線形回帰、非線形回帰、一般化線形モデル、と様々な応答を示すデータに関して、非線形な式やリンク関数などを通じて、うまいことフィットできるように工夫を凝らしてきた。では、こんなデータの解析はいかがだろうか？

------------------------------------------------------

library(plotn)

library(mgcv)

library(viridis)

x <- c(-12.3, 14.9, -3.8, -1.8, 6.6, 2.4, 5.8, -3.5, 8.4, -7.5, 14.1, -7,

-6.3, -11.2, -0.5, 8.1, 10.2, -12.3, -10.9, -11.5, 11.8, 11.6, -1.5,

5.6, -13, 4.3, 13.8, 1.5, -8.9, 11.7, 14.3, 13.7, 10.1, 12.2, 4.8,

6.6, 1.9, 7.3, 10.7, -2.4, 8.7, 0, -8.5, -1.3, -10, 5.5, -1.3, -5.8,

3.2, -7.8, 13.9, 11.1, 13.3, 6.5, -0.6, 9.1, -13.7, -6.2, 11.3, -0.5,

9.2, 9.9, -11.5, -4.3, -2.9, -7.7, -7.4, -7.8, -11.1, -14.9, 14.4, 9.5,

-5.3, 0.5, -14.7, 0.8, 7.7, -11.9, 1.4, -5.2, -12.1, -4, 8.3, -5.1,

-13.5, -4, -12.2, 14.2, 11.1, 1.3, -9.9, -3.7, -13.2, -6.6, 8.4, 1.8,

-8, 1.9, -1.4, 8)

y <- c(9.3, 8.4, -11.6, -1.1, -4.6, 9.7, -1, -12.4, -8.1, -0.8, 7.1, -3, -3.9,

8.5, 6.6, -9.9, -4.4, 7.8, 7.2, 9.4, 9, 4.9, -2.5, -0.9, 9, -1, 9.7,

8.9, 3.4, 8.2, 7.3, 11, -6.6, 9.2, -0.1, -3.1, 7.8, -11.1, -4.9, -8.3,

-10.2, 8.3, 2.8, 5.3, 4.5, -2.5, 5.2, -5.2, 5.3, -1.7, 4, 6.4, 4.7,

-6.8, 9.8, -9.2, 3.9, -6.7, 2.9, 9.6, -10.6, -7.5, 7.7, -9.9, -9.7,

-0.5, -0.8, 1.9, 6.9, -5.7, 8.3, -14, -6.5, 8.1, -4.2, 10.7, -6.8, 9,

10.6, -5.1, 11.4, -9.5, -10.4, -5.7, 4.8, -11, 11.6, 7.2, 0, 9.7, 5.6,

-7.9, 8.6, -6.3, -7.2, 8.1, 0.1, 9.3, 1.2, -9.1)

d <- data.frame(x = x, y = y)

plotn(y ~ x, data = d)#図1の描画

------------------------------------------------------

図1 データの図示。

まあ、突然の出来事に私ならPCをぶん投げたくなるが（大袈裟）、世の中にはこのタイプのデータもはびこっている。明らかに周期的な挙動なので、どうせ三角関数をかませたような出力になっているのだろうが、話はシンプルではなさそうだ。よく見ると、波が上昇する時と下降する時で、波の幅が違いそうだ。上昇時は急峻、下降時は緩やか、そんな感じに見える。

　さて、非線形回帰で対処してやりたいところなのだが、果たして上記の条件を満たしてくれそうなうまい関数を設定できるだろうか？　非線形回帰を行うためには、私たちが数式を書く下してやらねばならない。思い切って「単純な三角関数で回帰してしまえ！」という気持ちにもなってくるが、どうにかうまく対処したい。

　そこで、このようなバックに潜む関数を明示的に指定しなくても、うまいこと回帰を行う方法を紹介する。それが、本稿のタイトルになっている一般化加法モデルGenelized additive model (GAM)である。

一般化加法モデルGenelized additive modelのこころ

　まずは、GAMの「こころ」について簡単に紹介する。その後、解析を行って、最後に詳細な解説をすることにしよう。まず、GAMは下記のようなモデル式を考えている。

ここでβが推定するべきパラメータである。一方、b(x)は基底関数basis functionと呼ぶ。この定義で特に基底関数の中身を定義していないが、後述するように多項式、特に3次関数をベースにした関数を基底関数とすることが多い。この基底関数をp個用意して、説明変数xを代入して変換し、その和で被説明変数yが表現できると考える。この時、「p個の基底関数をどれくらいの割合で混ぜ合わせるか」が推定されるパラメータである。このように、複数の関数の和で被説明変数を表現することから、このモデルを加法モデルadditive modelと呼ぶ。この時、誤差は正規分布に従うと考えている。さらに正規分布以外の確率分布に対してもリンク関数のさらなる変換を通じて対応できるようにしたものが一般化加法モデルGenelized additive model (GAM)である。ざっくりいえばここから先の内容は、p種類の3次関数を用意して、それを足し合わせることでぐにゃぐにゃな曲線を表現しようとする試みである。もし、基底関数が恒等関数ならそれは線形回帰やGLMに他ならない。GAMはゆえに線形回帰やGLMのさらなる拡張である。

・自然3次スプライン基底natural cubic spline basis

　今回はRのmgcvパッケージを利用することでGAMを実行するのだが、そこでは「自然3次スプライン基底の罰則項付き最小二乗法」が用いられ、この方法を指してGAMと呼ぶこともある。さて、意味不明な用語、「自然3次スプライン基底natural cubic spline basis」なるものが登場した。これがGAMを理解するうえで重要なカギになっている。

まず、「3次」の由来に関して紹介しよう。そもそも、私たちは非自明な応答を何とかして解析しようとしている。けれども、関数を指定せずして、どうやってぐにゃぐにゃな曲線にフィットさせるというのだろうか。ところで、突然だが、なにか得体のしれない関数を見たとき「より簡単な関数で近似（フィッティング）できないか」ということを考えてみたい。例えば、1次式、2次式、3次式は、非常に簡単な多項式関数だ。これらを基底関数とすることを考える。

　でも、同じ多項式関数でも、低い次数ではできないことが多い。1次式、つまり直線は曲線を表現できない。次に、2次式は曲線や極値を表現できるが、変曲点は表現できない。3次式以上なら曲線も極値も変曲点も表現が可能である。一方で、次数が多ければ多いほど、過学習の危険がある。これらのトレードオフを考慮した時に3次関数で近似することを思い至る。実際、3次関数を用いて基底関数を定義することから、これが3次スプラインにおける「3次」の由来である。

　3次関数で近似するのだとしたら、最大で極大値一つと極小値一つの関数までしか近似できないじゃないか。それはその通りである。そこでさらに次のことを考える。今推定したい非自明な応答を示すデータに関して、適当な区間で区切る。この区切りをノットknotと呼ぶ。この比較的狭い区間内だけで3次関数によるフィッティングを行うのだ。

　単純に区間で区切り、それぞれ独立に3次関数によるフィッティングを行うだけだと、区間の境界では推定された値が連続的にならない。そこで、3次関数の導関数を用意し、「3次関数が区間の境界で同じ値をとる」かつ「導関数が区間の境界で同じ値をとる」＝「共通の接線を持つよう」に制約をつけることで、全区間にわたって滑らかに曲線をつなぐことができる。この滑らかな曲線をスプラインsplineと呼び、3次関数を使ってスプラインを構築する方法を3次スプラインcubic splineと呼ぶ。

　こうやって、推定していくと、データの両端の区間はその先にデータがなく、「3次関数が区間の境界で同じ値をとる」かつ「導関数が区間の境界で同じ値をとる」制約がなくなってしまう。このとき、データのない領域を推定しよう（これを外挿とよぶ）とすると、3次関数にフィットしているわけであるから、データの予測値は非常に大きく振れることになる。このような大振れを避けるため、最後の制約として、この境界の両端において3次関数の二次導関数が0となるような制約をつけて推定する。二次導関数 = 0ということは、データの両端点は変曲点になるということであり、つまりその瞬間は上に凸でも下に凸でもなく直線的変動になる制約を設けたことになる。こうすれば、極端な挙動が避けられる。この制約を課したスプラインを自然スプラインnatural splineと呼び、以上をすべて満たしたスプラインを自然3次スプラインと呼ぶわけだ。この自然3次スプラインは平滑化スプラインsmoothing splineの1種である。

　最もわかりやすい例を示すことで、自然3次スプライン基底による回帰の有用性を示そう。今、ノットがK個あり、ノットの位置のxの値をa1 < a2 < …… < aK-1 < aKとする。a1 = min(x)、aK = max(x)である。m（m = 1, 2, ……, K-2）に対応するノットをamとし、このam対応する自然3次スプライン基底をb2+m(x)とすると、b2+m(x)の最もわかりやすいものの一つ（唯一ではないことに注意）は、

　　x < amでは0、

　　am ≦ x < aK-1では3次関数、

　　aK-1 ≦ x < aKでは別の3次関数、

　　aK < xでは1次関数

となる滑らかな連続関数である（具体的な数式は後述）。例えば、K = 4のとき、下記のような見た目である。

このように定義される自然3次スプライン基底が、K-2個存在することになる。なお、b1(x) = 1、b2(x) = xとしておく。これで、b1(x) ~ bK(x)のK個の基底関数を作ることができた。このK個の基底関数の混ぜ合わせでK個のノットで区切られたデータを推定する。

　連続関数の和は連続関数になることから、K個の自然3次スプライン基底の混ぜ合わせは、a1以下の領域は1次関数、ノット間で区切られた領域はそれぞれが異なる3次関数、aK以上の領域は1次関数として、それぞれが滑らかにつながるように推定することと等しくなる。例えば、K = 4のときは、下記のようなことを想定していることになる。確かに、区間を分けて3次式による回帰を行いつつも、連続で、かつデータの定義域外では1次関数となり、満たしてほしい性質を兼ね備えていることがわかる。

上記では最もわかりやすい自然3次スプライン基底を示したが、mgcvパッケージのgam関数では別の自然3次スプライン基底を使っているので注意してほしい。

　最後、ここで扱うGAMは「自然3次スプライン基底の罰則項付き最小二乗法」なわけだが、何を罰則項とするのかを紹介しよう。天下り的だが、当てはめた自然3次スプラインの二次導関数は元のスプラインの曲がり具合を表す関数である。二次導関数が常に0である関数といえば定数関数や1次関数のような直線で、これらの関数は全くまがっていない。「高次の関数」や「同じ次数でも最高次にかかってる係数が大きい」ほど二次導関数の変数にかかる係数は大きいから、この値の絶対値が大きいほど、より極端にぐにゃぐにゃしていることを示している。よりぐにゃぐにゃしているほど、柔軟に当てはまる一方、過学習の原因となる。そこで、ぐにゃぐにゃ具合を制御するために、二次導関数の2乗のデータ全体での積分を罰則項とすることで、ぐにゃぐにゃしすぎることを防ぐ。

1変数のGAM

　では、上記のデータを解析してみよう。以下のデータを改めて提示する。