Q. 2倍体と3倍体が混在する集団を用いて、RAD-seqでシーケンスデータを得ました。公開されているリファレンスゲノムにマッピングするまでは良かったのですが、バリアントコールの際の倍数性の設定をどのようにするべきか困っています。2倍体設定か、3倍体設定か、最小公倍数の6倍体としてコールするのが良いのか、どの設定が最善なのでしょうか。各設定でバリアントコールを行い、結果を比較して一番よさそうなものを選べばよいのでしょうか。(YIさん)
A. 結論から申し上げますと、各サンプルごとに実際の倍数性でコールするのが最善です。6倍体にすると必要なカバレッジが跳ね上がり、誤判定が増えます。以下の論文が参考になるかもしれません。
Variant calling in polyploids for population and quantitative genetics(回答者:農研機構・鐘ケ江さん)
Q. その後のバリアントコール後のSNPフィルタリングでは、マイナーアレル頻度、ジェノタイピングレート、LDのフィルタリングを行うと思いますが、どのくらいでフィルタリングするのが良いのでしょうか。私の持っているデータでは、高いジェノタイピングレートでフィルタリングすると、SNP数がとても少なくなり、意味を読み取れない系統樹ができてしまい、かなり緩めにすると、ある程度意味が読み取れる系統樹になります。この値について、バイアスがかかっているのではないかと考えてしまうのですが、しょうがないのでしょうか。(YIさん)
A. マイナーアレル頻度、ジェノタイピングレート、LDのフィルタリングの設定値は集団ごとに異なるため、どれくらいでフィルタリングするのが良いとお伝えすることは難しいです。系統樹で意味が読み取れているのは、適切な設定値になっていると考えられます。(回答者:農研機構・鐘ケ江さん)
Q. 系統樹作成には、ML法やNJ法などがあると思いますが、どれで行うのが最適なのでしょうか。やはりいろいろと試して、最善なものを使うのが良いのでしょうか。この点についても、欲しい系統樹にしようというバイアスがかかってしまうような気がします。どのようにすべきなのでしょうか。(YIさん)
A. 系統樹作成方法それぞれに長所と短所があるので、「最適解」は研究目的やデータの性質によって異なります。明確な回答をお示しできず恐縮です。(回答者:農研機構・鐘ケ江さん)
Q. 異種の参照配列を用いてvcfファイルを作成するとマッピングされない領域が散見されています。どのように解析すると良いでしょうか。
A. 以下の方法があると思います。
1. それぞれのリファレンスゲノムにマッピングして統合解析
各リファレンスゲノムに対してマッピングし、各リファレンス上で変異検出
各リファレンスで得られたvcfを座標変換(liftover)して、共通座標系に統一
座標統一後に、vcfを統合
各リファレンスの検出結果を比較・統合して最終的な遺伝子型を決定
2. graph-based mapping
Variation Graph Toolkitなどを使ってグラフを構築
マッピング
遺伝子型推定
3. pangenome FASTA (複数リファレンス)を1本のFASTAとして扱う(ただし、重複領域でのマッピング競合が起こりやすい)
graph-based mappingの新しいツールも色々開発されていますので、graphをキーワードに探してみていただければと思います。(回答者:農研機構・鐘ケ江さん)