プレパラート上で染色体のホイルゲン染色を行い、染まり方の濃淡を定量して、ゲノムサイズ既知の生物と比べる。たとえばこの論文。
Smallest Angiosperm Genomes Found in Lentibulariaceae, with Chromosomes of Bacterial Size
細胞(植物の場合はプロトプラスト)を単離して、核を染色し、フローサイトメーターで染まり方を定量して、ゲノムサイズ既知の生物と比べる。
過去にゲノムサイズの論文報告がある場合、ここから調べることができる。(植物に限る)
ゲノム配列をちょっとだけ読んで決めてしまおうという方法である。
ゲノムサイズを決めるためにはまず、イルミナの100bpとかのリードをk-merに分解して数え上げ、各k-merの出現頻度を求める必要がある。kには整数が入る。merはモノマー単位、単量体単位、マー(monomeric unit, monomer unit,「 mer 」)である。大雑把に言うと、核酸の場合、merはbase, bp, ntとほぼ同義である。
たとえば、以下のような20 bpのリードが得られたとする。
ATGCGGATGGACGGATGAAA
このリードを3-merに分解したとすると(つまりk = 3に設定したとすると)、下のようなk-merが取れる。
ATG
TGC
GCG
CGG
GGA
GAT
ATG
TGG
GGA
GAC
ACG
CGG
GGA
GAT
ATG
TGA
GAA
AAA
これらをk-merの種類別(配列別)に数え上げてみる。
ATG 3回出現
TGC 1回出現
GCG 1回出現
CGG 2回出現
GGA 3回出現
GAT 2回出現
TGG 1回出現
GAC 1回出現
ACG 1回出現
TGA 1回出現
GAA 1回出現
AAA 1回出現
総計12種類18個のk-merが得られている。
n bpのリードからは、n-k+1個のk-merが取れる。
これらを出現頻度別に見ると、
1回出現 8種類のk-mer
2回出現 2種類のk-mer
3回出現 2種類のk-mer
となる。
出現回収を横軸、k-merの種類数を縦軸に取ってグラフで表すと、以下のようになる。
これがk-merの頻度分布(k-mer distribution)である。
この"k-merへの分解と出現頻度の数え上げ"を、ゲノム全体を平均20-30x程度でカバーする量の膨大なリードについて行い、同じようにグラフを書くと、下のような図になる。kがあまりに小さすぎるとランダムに同じk-merを生じるゲノム領域が多数出てくるし、逆に大きすぎるとk-merのどこかにシークエンスエラーを取り込む確率が高まったり、1リードあたりから取れるk-merの数が減りすぎたりする。この解析では、k = 17を採用している。
このグラフでは、k-mer frequency = 22のあたりに最も大きなピークがある。このピーク位置が、ゲノムのホモ接合領域(homozygous segment)に由来するk-merの平均的な出現頻度である。heterozygosityが高かったり、倍数体だったりすると、ホモ接合ピークの左や右に別のピークが立ち、場合によってはそちらの方が大きく見えるので誤同定に注意。ちなみに、k-mer frequency = 0~5のあたりでインフレしているのはシークエンスエラーなどに由来するゴミである。
グラフからは読み取れないが、もし、k-merの総カウント数(k-mer distributionの積分値)が50G個だったとすると、50G / 22 =2.27Gとなり、この生物のゲノムサイズは2.27Gbpと推定できる。
以下のリンク先に、k-merの詳しい説明がある。