今日は、仮想データを使って統計解析の基礎(現代風に「統計モデル」という表現も使います)について学びます。すべてを網羅することはできないので、t検定、線形回帰、(一元配置)分散分析について学びます。またその現代的な取り扱いとして「一般線形モデル」についても学びます。また、コードの説明部分は、引き続きRMarkdownを使ったものになります。
まずはデータをダウンロードしましょう("test_random_osaka.csv" ここ:龍大IDで要ログイン)。
それから、統計の基礎についての資料の復習も必要です:ここ。
以下、今日の解説です。もしもうまく表示されない場合は、ダウンロードした後(ここ (ログイン不要))、ウェブブラウザで開いてください。
二つの要因がある場合の分散分析は「二元配置の分散分析」と呼ばれ、たしかにこのような場合は最初から興味のあるところだけ2群比較の検定をするよりもまずは分散分析をしたほうが全体像が見えそうです。キーワードは、「主効果」と「交互作用」です。次のサイトの解説がとてもよくまとまっているので、順番に観ていきましょう。ちなみにQiitaはプログラミングを学ぶ際に必見のサイトです。
https://qiita.com/FukuharaYohei/items/6e53cef00f71fc2a1b57
このページで学修した内容(t検定, 分散分析、線形回帰)は実はすべて共通の枠組みで解析可能です。それについて今日は学びます(2021/11/22)。
上のQiitaの記事にある対応のある分散分析を一般化した方法は一般線形モデルでは扱えませんが、現代的な枠組みとしては、「(線形)混合モデル (Linear Mixed Model)」で取り扱いできます。ググってみるといろいろな解説記事が出てきますので、自分の実験計画を立てる前に勉強するとよいでしょう。
さらには、一般線形モデルは「一般化線形モデル(Generalized Linear Model)」へと拡張され、一般化線形モデルと混合モデルは「一般化線形混合モデル(Generalized Linear Mixed Model: GLMM」へとさらに拡張されます。現代統計学の世界へようこそ、、、。