解析まとめ (要加筆)
備忘録として、サンガーシーケンス (数領域)、マイクロサテライト、SNPs、WGSでできる解析をまとめてみました。お役立てください。
オススメのを太字、使ったことないのを灰色文字で示しています。
系統種間比較法や祖先形質復元については省略してあります。
集団構造解析
STRUCTURE系
ソフト、パッケージ
ADMIXTURE: SNPs、WGS
STRUCTURE: マイクロ、SNPs, WGS
fastSTRUCTURE: SNPs、WGS
ADMIXTUREやfastSTRUCTUREは早くてたすかる。
STRUCTUREはMCMCにもかかわらず収束判定ができない。
PCA、PCoA
ソフト、パッケージ
dartR: SNPs, WGS
ほか多数
集団遺伝の統計量 (Fst, Fisなど)
dartR: SNPs, WGS
ほか多数
※ ヘテロ接合度、FST、FISについてpermutation testやブートストラップができるソフトやパッケージをご存じの方、ご教示ください......
無根系統ネットワーク
ソフト、パッケージ
SplitsTree: サンガー、SNPs、WGS
系統解析
系統樹
ソフト、パッケージ
IQTREE: サンガー、SNPs、WGS
進化モデル選択から系統樹作成、分岐の信頼度の計算まで一括でやってくれます。
使い方を教えてくれる親切なサイト:https://qiita.com/YF_bio/items/d952f54c8d570a6ea0cb
選択できるモデルはとても豊富。
分岐の信頼度はultrafast bootstrapのほか、approximate BayesやSH-aLRTなど。
RAxML: サンガー、SNPs、WGS
MrBayes: サンガー
MrBayesは計算速度的にほぼSNPs以上のデータには使えない (経験則)。
系統ネットワーク
ソフト、パッケージ
PhyloNetworks: SNPs、WGS
いままで使ったソフトで最もメモリ食い。
700GBくらい必要なこともある。
SNPsデータを使用する際はSNPs2CFを使う。
PhyloNet: マイクロ、SNPs、WGS
PhyloNetworksよりはやい?
SNPsデータの場合はインプットファイルを作るのが面倒。
簡単な方法やスクリプトご存じの方、ご連絡お待ちしています。
admixgraph: SNPs、WGS
treemix: マイクロ、SNPs、WGS
軽い。
系統樹を推定して残差を交雑として推定している (はず)。
個人的には推定される系統樹がおかしなことがある気がしています。
交雑の解析
解析の名前、ソフト、パッケージ
ABBA-BABA test (D statistics): SNPs、WGS
少数遺伝子座の解析ではよく問題になっていたILS (incomplete lineage sorting) から交雑を区別できる。
ソフトにはAdmixtoolsやdsuiteなどがある。
解析対象の系統が多いときはf-branch統計量で結果をまとめることもできる (Malinsky et al., 2018)。
HyDe: SNPs、WGS
各サイトを独立をみなしてABBA-BABA testをしている (はず)。
f3-statistics: SNPs、WGS
外群が不要なのが特徴だが、ILSの可能性は否定できない。
ROLLOFF: WGS
交雑が開始した年代がわかるらしい。
使ったことないので使用感を知りたいです......ご連絡お待ちしています。
集団動態推定
シナリオ系 (分岐年代も明示的に推定可能)
シナリオを指定して分岐年代や有効集団サイズ、集団動態を推定する。
ソフト・パッケージ
fastsimcoal: SNPs、WGS
ABCtoolbox: マイクロ、SNPs、WGS
DIYABC: マイクロ、SNPs、WGS
階段状になるやつ (分岐年代推定として使用されることもある)
ソフト・パッケージ
Stairway plot
100年オーダーの集団動態を推定した研究例もある。
Skyline plot
Stairway plotより遅い。
SMC++: WGS
PSMC: WGS
GONe: WGS
数十世代前という超最近の集団構造を求めた研究例もある。
そして世代の重複がある場合にも使えるが、齢構成が必要らしい。
=== 以下は全ゲノムシーケンス関連 ===
ゲノムの特徴推定
k-merの頻度をもとにゲノムの特徴 (ゲノムサイズやヘテロ接合度、反復配列の量など) を推定してくれる。
ソフト・パッケージ
ローカルにインストールもできるし、ウェブ上でも解析できる。
k-merカウント
ゲノムの特徴 (ゲノムサイズやヘテロ接合度、反復配列の量など) を推定する際に必要。
ソフト・パッケージ
jellyfishに比べてメモリ使用量が少ない。
genomescopeとの相性がよい。
某スパコンで実施した際にはなぜか指定した量以上のメモリを食べようとした。
メモリ食い。
genomescopeとの相性がよい。