[信頼区間]
[信頼区間の構成方法]
教養レベルの統計の本では何気なく信頼区間を構成しているが、実はこれは検定の受容域を利用した検定方式の反転という方法を用いている。特に母比率の信頼区間を構成する際にはワルド検定の受容域を用いているため、本格的な数理統計学の本ではワルド区間等と呼ばれることもある。
[標準誤差]
一般に推定量θの標準偏差の推定値を標準誤差と言う。SEという記号で表されることが多い。最初に出て来るのは分散が未知の場合の母平均の推定を学ぶ時であり、その後単回帰の回帰係数の検定の時にも出て来る。そしてジャックナイフ推定量への入り口にもなっている。
しかし何故かこの言葉を全く使わない本も沢山ある。
[t分布]
以下の2点がよく強調される。
2つの独立した正規母集団から抽出した標本の平均に差があるかどうかを検定する際に用いられる。
サンプル数が少ない時に用いられる。(多い時は正規分布が用いられる。)
しかし教養レベルの教科書では、母分散が未知の時の母平均の区間推定の時に唐突に現れることが多い。
自由度nが大きくなるに従い、標準正規分布N(0,1)に近づくことが知られている。
t検定に関しては、田中嘉博(たなかよしひろ)氏のYoutube動画が非常に分かりやすい。尚、高専の数学問題集の編集者は田代嘉宏(たしろよしひろ)氏であり、紛らわしい。
[F分布]
正規分布やt分布と違い左右非対称
分子の方が分母より大になるようにする。(上側α点より大なら帰無仮説を棄却する。)
X~t(p)のときX^2~F(1,p)である。
[十分統計量とフィッシャー・ネイマンの分解定理]
この2つは必ずセットで学ぶ。初学者向けの統計学の本では出て来ないことが多いが、最尤推定と同じく、理論体系上は推定を学び始めるタイミングで出て来るべき言葉である。
特定の性質を満たす十分統計量として完備十分統計量や最小十分統計量などがある。
実際に問題を解くときにはとにかく同時確率密度関数を考える。対数は取らない。
[指数型分布族]
クラメール・ラオの不等式の等号が成り立つ時の微分方程式の解となる関数を確率密度関数とする確率分布。十分統計量を学ぶ際に出て来ることが多い。これも初学者向けの統計学の本では出て来ないことが多いが、以下の様に極めて重要な概念である。
一般化線形モデル(GLM)の定義に使う。
一様最強力不偏検定(Uniformly Most Powerful Unbiased (UMPU) Test)が存在する。
共役事前分布を持つ。
[尤度比検定]
点推定の際に尤度推定を行った様に、仮説検定において検定統計量を用いる際にも尤度関数を用いた尤度比検定を行うことができる。定義式は一見難しそうに見えるが、実際に問題を解く際はパターン化されていることが多い。
分母と分子のどちらを帰無仮説にするかは決まっておらず、対数を取った時の±で調整する。統計検定1級では-2log(帰無/対立)を用いることが多い。log(1+t)≈t-t^2/2をセットで覚えておくとよい。
単純仮説(=一点からなる仮説)のとき、ネイマン・ピアソンの定理より尤度比検定が最強力検定になることが示される。
[回帰分析]
そもそもn次の分散共分散行列の基本的な計算に慣れていることが前提となるが、何故か多くの本でその部分の扱いが極端に少ない。
列ベクトル×行ベクトルを行ベクトル×列ベクトルと思いこまない様に注意。
確率変数が成分の2つのベクトルが独立というのは、単にベクトルとして一次独立ということではなく、各成分の共分散が全て0ということ。
一般に、重回帰分析において定数項を含めた説明変数行列をXとしたとき、回帰推定値の分散共分散行列はs^2(X^TX)^{-1}となる。
回帰係数の最小2乗推定量(LSE)の分布を求める際に、説明変数の行列の特異値分解を行う。
(統計検定では複素数は基本的に扱わないので、ユニタリ行列ではなく直交行列になる。)
Aの特異値はA^TAの固有値の正の平方根となる。大きい順に並べるのが一般的とされる。
[正規方程式の幾何学的な導出]
正規方程式は最小二乗法を使って導出することが多いが、計画行列の列ベクトルが張るベクトル空間と誤差項が直交することからも導かれる。
[自由度調整済み決定係数]
重回帰モデルにおいては変数を追加すればするほど決定係数は大きくなるので、その問題を克服するために用いられる。
実際にR^{*2}=1-{S^2_e(n-1)}/{S^2_T(n-d-1)}、(n:データ数、d:変数の数)の形を見ると変数dが増えると小さくなる形になっていることが分かる。
[情報量]
カルバック・ライブラー情報量…2つの分布の近さを測る。例えば、真の分布と予測分布の乖離を計算する。
[グラフィカルモデリング]
条件付き独立という概念が現れる。
[順序統計量]
ノンパラメトリック検定において特に重要な概念となる。統計検定1級ではmax{X_1, X_2, …, X_n}がよく出て来る。