Q. ゲノミック予測 (GP) における遺伝率はどの程度信頼してよいのでしょうか。個人的に耐病性遺伝子などの質的形質の遺伝率が高いのは悪くなさそうですが、GWASで有意なピークを得られなかったような量的形質などの遺伝率が高いと微妙だな、といった感じで判断していますがどうなのでしょうか。
A1. 遺伝率とは、そもそも全表現型分散のうち遺伝分散が占める割合ですが、ゲノミック遺伝率は、ゲノム情報によりどの程度遺伝分散を説明できるか、ということを表します。すなわち、遺伝率は形質・集団によって変わる値ですが、ゲノミック遺伝率ではさらに解析に用いるマーカーの質が関わってくる、というわけです。ここで、ゲノミック遺伝率では、主働遺伝子だけでなく、微働遺伝子の効果も加味しながら、遺伝分散をどの程度説明できるかということを考えます。すなわち、ゲノミック遺伝率が高い場合、形質が主働遺伝子・微働遺伝子に支配されているかによらず、集団の遺伝分散をゲノム情報である程度説明可能であるということになります。一方で、GWASで有意なピークが得られない、というのは、効果の大きい主働遺伝子の存在が確認できない、という状況になります。したがって、今回のご質問にあるようなケースでは、対象形質はおそらく多くの微働遺伝子により支配されており、主働遺伝子を同定していくことは難しそうだけれども、ゲノミック予測による予測はある程度可能であり、ゲノム情報を活用した育種を進めること自体は可能である、というように言えます。(回答者:理研AIP・濱崎)
A2. 遺伝率の推定誤差は、例えばBGLRやMCMCglmm(Rパッケージ)などが行うベイズ推定(MCMC法)であれば、遺伝分散や残差分散の個々のMCMCサンプルから遺伝率を計算することで遺伝率のMCMCサンプルが得られ、それから推定幅(分布)を知ることができます。AI-REML法を用いた場合は、平均行列(AI行列)から推定誤差を推定できますが、結果の抽出や計算手順が少々複雑だと思います(AI-REMLはblupf90ファミリーやRのsommerなどで行えるものの・・・)。ただ近年GPやGWASで用いられるREML法(RのrrBLUPなど)は簡略化された推定方法を使うので、推定誤差までは推定されません。とういことでもし推定誤差にご興味があればMCMC法を使うことを薦めます(ベイズの場合は推定誤差とは言いませんが)。ただいずれにしろ、作物育種で通常扱う遺伝子型数(数百程度)では、信頼できる遺伝分散や遺伝率は推定できないと思います。モデルの過適合により過剰推定することが多いように感じます。この過適合は推定誤差には反映されないんですよね。(回答者:龍谷大学・小野木さん)
Q. G×Eに関する研究で、データを解析に必要なフォーマットに変換することに苦戦しています。(レオンさん)
A. GxE(遺伝子-環境間相互作用)とは、その名の通り、遺伝的な効果と環境による効果の交互作用ですが、特にMET(多環境試験)の解析ではGxEの考慮が極めて重要になります。GxEの解析には色々とありますが、一番シンプルなのは、品種・環境のそれぞれを各水準とした交互作用込みの多元配置分散分析になるかと思います。この解析を行うことにより、品種・環境、および交互作用が有意に表現型に影響しているかを検定できます。また、古くから、安定性解析、AMMIモデルなど様々な解析手法があり、奥の深い世界です。また、GxEの議論を行う際には、GxEをできるだけ無視してどの環境でも安定した品種の作出を目指すのか、GxEを利用して特定の環境で優れた品種を作出したいのか、など目標により解析手法やその方向性が変わってくるので、注意が必要です。ゲノミック予測 (GP) の文脈では、多環境を同時に予測する多変量GPモデルを利用することが多く、このような解析には適切な形でデータの前処理を行う必要があります。質問者の方も苦戦されているようですが、目標のフォーマットがわかっている場合は、大変ですが、コツコツとデータの前処理を進めていきましょう。各環境間で表現型がどう異なるかの確認なども重要なので、箱ひげ図や散布図を描画して、データをしっかり眺めてみるのも大事かと思います。(回答者:理研AIP・濱崎)
Q1. 世界のコレクションなどのGWASの際に、集団構造と表現型がリンクしている場合、偽陽性の割合が高くなるが、その対処法に困っている。このような場合、交雑集団を作成することが最も近道と思われるが、GWAS集団でなんとかならないか。(名古屋大学生物機能開発利用研究センター・岡田聡史さん)
A1. おっしゃる通り、集団構造が強い集団を用いてGWASを行うと、集団構造との交絡による偽陽性が出てくることが多いです。ただ、最近多くのパッケージ (RAINBOWR, gaston, rrBLUPなど) で実装されているYu et al. (2006) によるQKモデルでは、集団構造を母数効果、家系関係を変量効果で考慮することにより、このような偽陽性をかなり制御できる場合が多いです。手前味噌で恐縮ですが、実際Hamazaki et al. (2020) では遺伝的多様性の低い集団に遺伝的多様性の高い世界のコアコレクションなどを加えることで、偽陽性を抑えつつ、検出力の向上が可能であることが示唆されています。それでも偽陽性が気になり、かつ交雑集団でなく遺伝資源などでなんとかしたい場合は、各分集団ごとに分けてGWASを行ってみるのも手かもしれません。(回答者:理研AIP・濱崎)
Q2. この事柄に対して、集団構造と表現型がリンクしている場合、補正なしだと偽陽性が、QKモデルだと補正の部分に検出したいQTLも入ってしまい偽陰性の割合も高くなってしまうことが懸念事項です。特に、私が扱ってきた集団ではKによる補正が強く、補正力を少し弱めようと、検定する染色体以外でKを計算するLOCOアプローチなんかもやってみましたが、それでも検出できてきませんでした。かなり以前に濱崎さんのPlant genomeの論文を拝読して記憶が曖昧なのですが、集団の分化度(HeとFst)とQTLが検出されるかを検証しておられたと記憶しています。ご提案にあった多様度の低い集団と高い集団を混ぜた集団というのは、多様度の高い集団に低い集団が包含されているような集団でしょうか?そのような集団は世界のコレクションのPCAによる集団構造解析の結果でよくみられる三角形の分布(PC1とPC2)となるような集団と違いはあるのでしょうか?(名古屋大学生物機能開発利用研究センター・岡田聡史さん)
A2. おっしゃる通り、QTLが集団間で分化してしまっている(Fstが高い)場合、それは(LOCOアプローチなど含め)どんな手法でもGWASで検出するのは難しい、ということになってしまいます。なので、正直そのような場合、初めの質問にありましたが、異なる分集団間で交雑を行ってF2やRILなどの集団を作り、QTL解析に回すしか手がないかな、と思います。私の研究の例では、イネのJaponica(特に日本水稲、Hamazaki et al. (2020) Figure 1のA. TJN)に、Indica(Hamazaki et al. (2020) Figure 1のB)やAUS含めた世界の品種(Hamazaki et al. (2020) Figure 1のD)などを混ぜることで検出力の向上を確認しました。ですので、まさにPCAの図でいうところの三角形の一部の頂点に属する集団に、別の頂点の集団などを加えたイメージになります。(回答者:理研AIP・濱崎)
Q3. 次のような場合はどのようになると予想されますでしょうか?
良い特性を示すアレルがあるとして、それがTJN内のある家系で頻度の高い場合、TJNだけでは集団構造の補正によって偽陰性となってしまう。INDのある家系でもそのアレルが高い頻度で存在する場合、集団を混合した時に検出できる可能性があるかどうか?
実際には同じ表現型だけれどハプロタイプが集団間で異なることもあると思います。その場合、haplotype-based GWASによって単一集団よりも混合集団のほうが検出力が向上されると期待されますでしょうか?(名古屋大学生物機能開発利用研究センター・岡田聡史さん)
A3. 個人的な見解としましては、このようなケースでは、集団を混合することで検出力が向上するのではないかと思います。理由としましては、有用アリルをもつかもたないかの情報が、(補正項である)集団構造や家系構造の情報とそこまで高い相関をもたないであろうからです。ただ、真面目にこれを検証するとなるとシミュレーションしてみるのが良さそうですね。
異なるハプロタイプが類似の効果をもつ場合、どのようなhaplotype-based GWASの手法を用いるかにもよるかと思いますが、説明変数側では別物のハプロタイプと認識しているにも関わらず出力が似てしまうため、一般に検出は難しくなるように思います。これは混合集団にすることで集団間で異なるハプロタイプが類似の効果をもってしまった場合も同様で、個人的な見解としては、単一の集団でそれぞれのハプロタイプを検出する方が良いのではないか、と思います。ただ、仮にこれらのハプロタイプの配列自体に何らかの類似性があり、それをモデルに考慮できる場合のみ、検出力が向上する可能性もあるのではないか、と思います。こちらに関してもシミュレーションで検証するのは面白そうです。(回答者:理研AIP・濱崎)
Q. 複数形質を同時に改良する際に、良い手法がございましたら、教えてください。(農研機構・鐘ケ江さん)
A. 複数形質を改良する方法としては、教科書的には①順繰り選抜法(形質ごとに数世代ずつ選抜を繰り返す)、②独立淘汰水準法(全ての形質で閾値を上回ったもののみ選抜する)、③選抜指数を作成しその上位から選抜する方法、があります。このうち応用がきいて理論的に最も研究されているのは③でしょう。もし佐々木義之編「変量効果の推定とBLUP法」があるならば、9章を読むと③の概説があります。現代的にはハイパースペクトルのような超多形質から選抜指数をスパース推定で作成する方法(https://www.nature.com/articles/s41598-020-65011-2)も提案されています。この方法が出てきたときはこれはいいな、と思ったのですが、案外と引用されていませんね(50ちょっと、なんでかな)。
植物育種の場合、開花期は動かしたくないとか、草丈は伸びてほしくない、といった制約があると思います。もしくは何かの濃度と果実重のように、相反するものも多いと思います。こういった状況はブタの系統造成でよく扱われており、制限付きの選抜指数法(変わってほしくない形質に制限をかけたうえで選抜指数を作る方法)が提案されています。その発展として、動かしたくない形質の育種価が選抜によって変動しないように他の形質の育種価を推定する「制限付きBLUP法」というものも提案されています(実際にブタ育種で使われたことがあるようです)。また選抜後の育種価平均の希望量を設定し、それを達成するように選抜個体を線形計画法で求める方法もあります。このあたりも佐々木先生の本の9章(執筆者は京大の広岡先生)に概説があるので、読むと面白いと思います。論文だとこのあたり(https://www.jstage.jst.go.jp/article/youton/45/4/45_4_193/_article/-char/ja/)が面白いかもしれません。この辺は私も植物育種で試してみたいなあ、と思っているところです。温故知新というか、ただの温故からもしれませんが、植物育種のシナリオでシミュレーションとかしてみたいですね。(回答者:龍谷大学・小野木さん)