Q. 2倍体と3倍体が混在する集団を用いて、RAD-seqでシーケンスデータを得ました。公開されているリファレンスゲノムにマッピングするまでは良かったのですが、バリアントコールの際の倍数性の設定をどのようにするべきか困っています。2倍体設定か、3倍体設定か、最小公倍数の6倍体としてコールするのが良いのか、どの設定が最善なのでしょうか。各設定でバリアントコールを行い、結果を比較して一番よさそうなものを選べばよいのでしょうか。(YIさん)
A. 結論から申し上げますと、各サンプルごとに実際の倍数性でコールするのが最善です。6倍体にすると必要なカバレッジが跳ね上がり、誤判定が増えます。以下の論文が参考になるかもしれません。
Variant calling in polyploids for population and quantitative genetics(回答者:農研機構・鐘ケ江さん)
Q. その後のバリアントコール後のSNPフィルタリングでは、マイナーアレル頻度、ジェノタイピングレート、LDのフィルタリングを行うと思いますが、どのくらいでフィルタリングするのが良いのでしょうか。私の持っているデータでは、高いジェノタイピングレートでフィルタリングすると、SNP数がとても少なくなり、意味を読み取れない系統樹ができてしまい、かなり緩めにすると、ある程度意味が読み取れる系統樹になります。この値について、バイアスがかかっているのではないかと考えてしまうのですが、しょうがないのでしょうか。(YIさん)
A. マイナーアレル頻度、ジェノタイピングレート、LDのフィルタリングの設定値は集団ごとに異なるため、どれくらいでフィルタリングするのが良いとお伝えすることは難しいです。系統樹で意味が読み取れているのは、適切な設定値になっていると考えられます。(回答者:農研機構・鐘ケ江さん)
Q. 系統樹作成には、ML法やNJ法などがあると思いますが、どれで行うのが最適なのでしょうか。やはりいろいろと試して、最善なものを使うのが良いのでしょうか。この点についても、欲しい系統樹にしようというバイアスがかかってしまうような気がします。どのようにすべきなのでしょうか。(YIさん)
A. 系統樹作成方法それぞれに長所と短所があるので、「最適解」は研究目的やデータの性質によって異なります。明確な回答をお示しできず恐縮です。(回答者:農研機構・鐘ケ江さん)