方向統計学とは

渡り鳥の移動方向や樹木の倒れる方向を記録したデータは、個々の観測が角度として表されることから、角度データ(または円周データ)とみなすことができ、このような角度データを扱う統計学を``方向統計学"という。他の具体的なデータの例としては、気象学における風向データ、毎年周期的に起こる乳幼児突然死(SIDS)の月別データ等がある。方向統計学では、データがユークリッド空間全体ではなく円周上に制限されているという特殊性のために、対応する統計分布を構築し、パラメータ推定を行うことに、しばしば困難が生じる。このような困難を乗り越えるための統計的モデリングを考案し、理論的研究を進めると同時に、データの背後に潜む現象を明らかにすることを目指している。

方向統計学における主要な分布は、von Mises分布、cardioid分布、巻き込みCauchy分布などの平均パラメータと集中パラメータを持つ対称分布である。2000年以前の分布論においてはそれらに関する研究が盛んに行われていた。2000年以降になると、これらの既存の分布を含む柔軟な分布族の提案がされるようになってきた。

方向統計学に関する研究業績の概要

(理論的研究)

Abe, Pewsey & Shimizu (2009)では分布の頂点付近がある特殊な性質を持つPapakonstantinou (1979)の円周分布族を拡張し、その分布族の数学的性質について調べた。また、Abe, Shimizu & Pewsey (2010)ではEuclid空間上の分布を球面上に写す投影図法を考え、既存の球面分布よりも柔軟な円周分布族を提案した。一方で、2000年以降盛んに研究されている円周上の非対称分布の多くは、モーメントの計算が容易でない、パラメータの推定が困難である、実際の角度データに対する当てはまりが良くない等の問題がある。Abe & Pewsey (2011a)では、正弦関数を用いる単純な方法で対称分布族を摂動することにより、非対称分布族を生成し、これらの問題を解決している。ウミガメは浜辺で産卵後、多くは月の光を頼りに海の方向に向かうが、それらの中には民家の外灯の影響により、逆の方向に向かってしまうことがある。このようなウミガメの産卵後の移動方向の分布としてAbe & Pewsey (2011b)では、二峰性を示す単純な分布族の構成法を理論的に研究した。Abe, Pewsey & Shimizu (2009)の一般化としてAbe, Pewsey & Shimizu (2013)では対称な円周分布族の頂上付近を平坦もしくは急傾斜の性質を持たせる対称・非対称な変換の一般式を与え、単峰性やモード付近における曲率を調べ、また、乳幼児突然死(Sudden Infant Death Syndrome, SIDS)の月毎のデータに対して、パラメータ推定を行った。Inverse Batschelet型の非対称モデルも提案し、Bayes推測の理論を構築した(Abe, Miyata & Shiohama, 2021)。

 上で述べたものは角度だけのデータであるが、それ以外にも、長さと角度の組であるシリンダー上のデータに関する研究も行っている:Blue periwinkle dataを良く見ると、 移動距離が増えるにつれて、ある一定の方向にデータが集まっている傾向が見られる。 また、Zucchini & Macdonald (2009) のDrosophila data(ショウジョウバエ)の移動の角度と速さの変化の組のデータ にもこのような傾向が見られる。

これらの性質を持つようなデータに対するモデルとして、 Abe & Ley (2017)では、 Weibull分布と正弦摂動von Mises分布(Abe & Pewsey, 2011)を用いることにより, 距離が短い部分ではある方向への集中の度合いが弱く(一様分布)、 距離が長い部分ではある方向への集中の度合いが強い(sine-skewed von Mises分布) ような(シリンダー上の)WeiSSVM分布(Lagona et al. (2015)では、Abe-Ley分布と呼んでいる)を提案している。Imoto, Shimizu & Abe (2019)では、Pareto型のシリンダーモデルを開発している。このモデルは線形部分の裾が重くなるような形状をしており、データに外れ値が入ってもモデルのパラメータは過剰に反応しない、という性質を持っている。

風向と風力の組のデータでもこのような性質を示すことがしばしばあり、いくつかの風向のデータを眺めていると、風速が小さいときには風の向きに特徴がなく(一様)、 風速が大きいときにはある一定の方向に集中しやすい傾向がある。 また、風向の集中度は時間に依存する、と考えるのが自然である。

このようなデータに対応するために、時系列解析・漸近理論の専門家と協力し、Wehrly & Johnson(1980)のモデルの 集中パラメータに時間依存性を組み込んだCircular Markov modelを提案し、 その漸近的性質を調べた(Abe, Ogata, Shiohama & Taniai, 2017)。

(森林生態学への応用)

これらの理論的研究がある下で、生態学者との応用的研究として、北欧における樹木の倒壊パターンを調べるため、倒木の倒壊方位の統計的モデリングをし、地域による傾向と過去の履歴との対応を研究した(Abe Kubota, Shimatani, Aakala & Kuuluvainen, 2012a)。また、対称な軸分布族の摂動した非対称な軸分布族を提案し、樹木の倒壊データに対して適用することにより、その分布の当てはまりがどの程度良いか考察した(Abe, Shimizu, Kuuluvainen & Aakala, 2012b)。

これらに関連したデータ解析として、 競合相手がいる場合の樹冠の非対称性に着目した研究も行っている。

樹木は何も障害がないとき、太陽の方向へ樹冠を向け成長していくが、 実際は自分の身近に同じ種の競争相手がいることが普通である。 Aakala, Shimatani, Abe, Kubota & Kuuluvainen (2016)では、Johnson & Wehrly (1978)のシリンダー分布を用いることにより、 北欧の樹木の樹冠の成長方向が 樹冠が向かいたい方向(太陽の方向)と競合相手(自分以外の樹木)の方向 に対してどのくらい影響を受けるか解析を行い、 そこから導かれる結果が生態学的にどのような意味があるのかを考察した。Abe & Shimatani (2018)では、既存の角度分布とAbe & Ley (2017)のレビューやWeiSSVMモデルで動物データの解析を行った。また、樹冠データの再解析を行い、以前の結論が妥当であることを再確認する形で実例を与えた。

実軸上の統計学に関する研究業績の概要

実軸上の非対称分布の例としては、Azzalini(1985)に始まる非対称正規分布やJones & Pewsey(2009)のsinh-arcsinh(SAS)変換を用いたSAS-normal分布がある。我々はSAS変換を用いてSAS-normal分布よりもすその重いSAS-logistic分布族を提案し、数学的性質や尤度に基づいた推定法・検定法を与え、多変量への拡張について研究した(Pewsey & Abe, 2015)。Fujisawa & Abe (2015)では、Jones (2014)の分布族にモード不変性を導入することにより、歪度パラメータに関して自然な単調性をもつ単峰な非対称分布の生成法を提案した。この分布族の長所として、変換前の分布が単峰かつ対称でありさえすれば密度関数は自由に選べること、回帰モデルのノイズとして解釈しやすい、Fisher informationの意味でパラメータ直交性が言えること等がある。Prof. JonesのDiscussion paperのDiscussantとして、彼の提案した変換とは別の実数から実数への変換を二つ紹介した。さらに、彼の論文で``モーメント計算が困難である"と述べていたモーメントは実は解析的表現を持つことを示し、さらに他にも解析表現が可能となる円周分布の例を紹介した(Abe, 2015)。Abe & Fujisawa (2019)では、Fujisawa & Abe (2015)の分布の多変量版を提案し、歪度パラメータに基づいた歪度の単調性、乱数生成、パラメータ直交性、退化しないFisher情報量などの性質を示している。また、Azzaliniらにより開発された歪正規分布に対してその潜在構造を利用し、EMアルゴリズムを用いた新しい推測理論の構築を国際共同研究として開始した(Abe, Fujisawa, Kawashima & Ley, 2021)。このような研究は特に多次元化が難しいとされているが、本研究ではその困難を乗り越えることもできた。

研究目標

正規分布を含め、実軸上で定義される多くのパラメトリックな分布は位置パラメータに関して左右対称となっている。データの存在領域が実数全体で解釈しやすい歪みのある非対称分布として最も有名なものは Azzalini (1985) が提案した正規分布を歪めた非対称正規分布がある。当時は少数のデータであれば正規分布の方が使いやすいということもあり、非対称分布の研究はあまり注目されなかった。近年になり、ビッグデータの流れができ始めると、データに歪みが入っていることがはっきりと観測できるようになり、正規分布では捉えきれない現象も捉えようという時代になってきた。そのため、近年では非対称分布の研究が急速に進んできている。

このような背景の下、国内外を問わず、多くの研究者と共同研究を行い、より柔軟で扱いやすい非対称分布の構築(理論的研究)とともに、現実に対応した実データ解析(応用的研究)も行っている。これらの研究を引き続き行うと共に、ビッグデータに対応するための新しいアルゴリズムの開発や漸近理論の研究も始めているところである。

今後も多くの研究者と交流し、分野を問わない研究を進めていくのと同時に、下記のプロジェクトを継続して進めていく。

(1)[異常値に強いロバスト法の開発]

データが巨大化している現在、最初に必要とされているのが、異常値へのケアと欠測値の補完と言われている。データが巨大化した理由は、データが自動的に採取され始めたからであり、そのため、データを丁寧に採取することが難しく、結果として、多くの異常値と欠測値が生じることになっている。

異常値に対処するロバスト法の開発の歴史は古いが、統計的性質が良いと言われる手法の多くは、手法が複雑すぎて多大な計算時間が必要となる。最初のモデルケースとして、私の研究対象の一つである非対称分布に対してその潜在構造を利用し、Majorization-Minimization アルゴリズムと Kullback-Leibler Divergence の潜在変数に対する不等式を組み合わせることにより、効率的に計算が可能なロバスト法の開発を進めている。本研究は特に多次元化が難しいとされているが、その困難を乗り越えることも目指している。現在はEMアルゴリズムを利用した非対称分布の陽的な推定アルゴリズムの構築を行い、研究を進めているところである。

(2) [時系列的に観測される円周上のデータのモデリング]

いくつかの風向のデータを眺めていると、風速が小さいときには風の向きに特徴がなく(一様)、風速が大きいときにはある一定の方向に集中しやすい傾向がある。また風向の集中度は時間に依存する、と考えるのが自然である。このようなデータに対応するために、我々はWehrly & Johnson(1980)のモデルの集中パラメータに時間依存性を組み込んだ円周マルコフモデルを提案した(Abe et al., 2017)。現在はこの研究を発展させ、外性変数が時間に依存するモデルを用いてノンパラメトリックな方法を検討している。

(3)[角度分布を用いた樹木データへの応用]

樹木は何も障害がないとき、太陽の方向へ樹冠を向け成長していくが、実際は自分の身近に同じ種の競争相手がいることが普通である。Aakala et al. (2016)では、Johnson & Wehrly (1978)のシリンダー分布を用いることにより、北欧の樹木の樹冠の成長方向が競合相手からどのくらい影響を受けるか解析を行い、そこから導かれる結果が生態学的にどのように意味があるか考察した。一方で、そこで用いたシリンダー分布は単純すぎるため、樹冠データに対して十分な適合を示していない。この問題を改善するために、私はシリンダー上の柔軟なWeiSSVMモデルを構築した(Abe & Ley, 2017)。現在、応用的研究者らと、WeiSSVMモデルを用いたデータ解析に関するディスカッションを進めている。

(4)[シリンダー上のデータのためのモデリング]

Abe & Ley (2017)のモデルはパラメータ推定が比較的容易であったり数学的性質が良いモデルであるが、このモデルを使った応用的研究を見ると、非対称性が強いデータでは当てはまりが十分でないという意味で、改善の余地がある。このために、より一般的な枠組みのシリンダー分布の構成法を考案している。このアイディアは基本的には、二つの独立な分布の片方をある手法を用いて条件付き分布に変換することであり、この手法を使うことにより、既存の多くのシリンダー分布が生成できることが分かった。今後はこの手法を用いてさらに応用範囲の広い新しいモデルの開発をし、理論として完成させると同時に、応用方面へ普及させていくことを目指す。