最初に、遺伝子(gene)とは何かというお話をしたいと思います。簡潔に言えば、遺伝子とは
「生物の特徴を形作るタンパク質の構造を伝える遺伝情報。細胞内の核に存在するゲノムDNAの一部がその情報の記憶を担っている」
と言えます。この分子生物学的な説明にNHKの映像がついてくれば、ああ、そういうものがあるんだな、となるでしょう。しかし、これは二点、問題があります。それは、
1)これは現代的な狭義の定義であって、一般的に必ずしも同じ使われ方をしない
2)遺伝子はもともと機能的な意味で定義されてたものなので、構造的な理解は遺伝子のもつ意味を半分しかとらえていない
ということです。2点目を例えるならば、ある建築は、法に見合った建築条件をもって「住宅」と認められるかもしれませんが、その条件をもって住宅というものが何かを理解することはできない、ということです。人々の生活の中で住宅がもつ機能を理解しなくては、本当の意味で住宅とは何かを理解することにはならないでしょう。
遺伝子(gene)は1909年にヴィルヘルム・ヨハンセンによって命名されたのですが、遡ること40年、グレゴー・メンデルがその存在に最初に気づいたと言っても過言ではありません。そこで、メンデル遺伝の簡単な説明から始めましょう。
メンデル遺伝における遺伝子
ある生物個体の特徴を総じて表現型(phenotype)といいます。個体によってバリエーションがある表現型のカテゴリーを形質(trait; 例えば、髪の色)といって、個体における形質の状態(state; 例えば、赤色、黒色の髪)がどのように決まるのかを理解するのが遺伝学の大目標となります。メンデルが「遺伝子」の存在を見つける前は、子供の形質状態には母親と父親からの情報が半分半分に混ざって反映されるというふうに想定されていました。メンデルは有名な豆を使った研究で母親と父親から伝わったものが簡単には混ざらずに複数世代にわたって伝わり、先祖返りのようなことが起こることに気づきました。そして、その単純な場合は形質の状態は第一世代で片親のものばかり、第二世代で3:1になると。今ではこういう遺伝形式を示す形質をメンデル形質(Mendelian trait)といいます。メンデルはこれを通してある遺伝の法則に気がつきました(図1)。それぞれの個体は二つずつ遺伝情報のシンボルを持っていて、母親がAA、父親がaaと二つずつ持っています。親から子には単純に二つの内の片方がランダムに伝わって、第一世代はAaになります。では、AaとAaが子供を作ると、AA:Aa:aaは1:2:1になります。ここでAAとAaがまるまるの豆、aaがしわしわの豆だとすると、第一世代は全部まるまる、第二世代は3:1でまるまる:しわしわになるとわかります。第一世代Aaにしわしわaaを交雑してみても、この遺伝様式を確かめることもできます(この場合、1:1になる)。ここで重要なのはAAとaaの子どもは単純にその中間のようなââをもつのではなくて、あくまで母親由来と父親由来のものを維持していて、そのまま子どもにその一つを伝えていくのです。Aやaなどをアレル(allele)、個体の持つAaなどの組み合わせを遺伝型(genotype)といいます。AAやaaなどの同じアレルの組み合わせをホモ接合(homozygote)、Aaなど違うアレルの組み合わせをヘテロ接合(heterozygote)といいます。ヘテロ接合のとき、Aの情報が優先して顕れることからAが優性または顕性である(dominant)といいます。対して、この場合、aは劣性または潜性である(recessive)といいます。
さて、それでは二つの異なったメンデル形質に着目しましょう。例えばBBやBbならば黄色、bbならば緑としましょう(図2)。黄色まるまるAABBと緑しわしわaabbをかけるとします。すると、子どもは黄色まるまるAaBbになりますが、さて、その子どもはどうなるでしょうか。実は多くの場合で二つの形質の遺伝は独立に起きます。それはつまりAaから一つを選ぶ選び方はBbの選び方によらない、逆もしかりということです。確率的にはAABB:AaBB:aaBB:AABb:AaBb:aaBb:AAbb:Aabb:aabb=1:2:1:2:4:2:1:2:1になります。緑しわしわは1/16しか出てきませんね。さて、多くの場合といったのは、その例外もあるということです。例えばAABB:AaBb:aabb=1:2:1となって、他の遺伝型が全く出てこないという場合もあります。これはAとB、aとbがなかなか切れない関係にあるということで、連鎖(linkage)しているといいます。連鎖は必ずしも絶対的なものではありません。ほとんどがAABB、AaBb、aabbなところにAabbが混ざり込むなんて場合もあります。もともとはAとB、aとbがつながっていたのが、Aとbがつながるものが低頻度ででてきたということです。これを組み換え(recombination)といいます。連鎖しているメンデル形質のペアによっては組み換えが起こりやすいものと起こりにくいものとがあります。
さて、ここでさらに三番目のメンデル形質Zを考えます。メンデル形質XとYの遺伝型が組み換えを示しているときに、形質ZはXまたはYと似たような遺伝型を示すとします(図3の子、左二つ)。しかし、XとYの遺伝型が同じ時に、Zだけ違う遺伝型をもつということはないとしましょう(図3の子、バッテン)。ZはXとYと連鎖しているようですが、中間的です。まるでXZYという形質の状態を生み出すものが一本の電車のように並んでくっついていて、それぞれAやCやBというアレルがそこに乗っているようにとらえることができます。ここで組み換えというのは電車の繋がりをどこかの点で繋ぎ直すようなものです。この電車の車両のようなものというのが遺伝子(gene)です。遺伝子はそれぞれ違う形質のバリエーションを生み出すことができ、電車のようにつながる連鎖群(linkage group)を形成します。形質の遺伝の基本単位ともいえるでしょう。さて、ここで呼んでいる遺伝子はタンパク質などとは全く関係なく定義されています。実際に、ここで遺伝子と呼んでいるものがタンパク質の配列とは関係ないこともあります。釈然としないかも知れませんが、もう少しこの連鎖群の話を続けます。
図1. メンデル形質の遺伝の例
図2. 二つのメンデル形質の遺伝の例
図3. 複数の遺伝子からなる連鎖群
遺伝子と遺伝子座
遺伝子をペアで見ると、連鎖しているものと独立しているものがあるので、独立に遺伝する複数の連鎖群で生物の遺伝情報というのはできているらしいということになります。この遺伝情報全体をゲノム(genome)と呼びます。厳密に言えば、独立な連鎖群を一本ずつ考えて全ての遺伝子を一つずつ網羅して呼ぶゲノムと個体の持つそれぞれの遺伝子の二つのアリルを網羅して呼ぶゲノムとでは違います。区別するならば前者はハプロイドゲノム(haploid genome)と後者はディプロイドゲノム(diploid genome)というでしょう。
実は連鎖群の中の遺伝子はこの電車の車両のように均等に並んでいるわけではありません。組み換えの起こりやすさによってその距離を定義することができます。この距離を遺伝的距離(genetic distance)といいます。世代間で組み換えが何回起こったか、をカウントして、その頻度が遺伝的距離となります。そうすると、連鎖群は一本の線となり、そこに遺伝子の位置を点としてしめすことができます。この連鎖群の上の位置のことを遺伝子座あるいは座位(genetic locus)と呼びます。もはや遺伝子がなくてもその位置について話すことはできるので、遺伝的座位という方がよい気がしますが、遺伝子座はよく使われます。
遺伝子は連鎖群という線上のある遺伝子座に存在し、それぞれの遺伝子には二つのアレルがあり、その組み合わせで遺伝型が決まり、遺伝型は形質の状態すなわち表現型を決めるというような概念的な構造があるらしいものの、どうやら本当にそれで全ての遺伝を説明できるのかと不安になります。一つの問題点は、表現型は環境の影響を受けるので簡単には表現型を決めるとは言えないということです。その点はまず修正が必要でしょう。もう一つは、実際にはメンデル形質みたいなものはあまり身近ではなくて、背の高さだとか顔の形など何となく母親と父親の中間になるような形質が一般的だということです。こういう量的に測られ、量的にバリエーションが生じる形質を量的形質(quantitative trait)といいます。ロナルド・フィッシャーは複数の遺伝子が少量の効果を持っているというモデルを持ってすれば、量的形質の遺伝も同様に考えることができると説明しました。量的形質を司る遺伝子がどの連鎖群のどこにあるかも、メンデル形質のように統計を駆使すると推定することが可能です。その連鎖群における位置または領域を量的形質遺伝子座(quantitative trait locus)とよびます。量的形質も遺伝子の複合的な効果で説明できると言っても、メンデル形質とは違い、遺伝子と形質を単純に1:1の対応関係で示すことはできません。例えば量的形質遺伝子座の遺伝型AAとaaを比較して、平均的にAAがaaよりも大きいという表現型が示されても、たまにはAAの平均より大きいaa個体やaaの平均より小さいAA個体が出ていくるわけです。そういうわけで、より一般的であるものの、量的形質から遺伝子というものの実態を調べるのは難しい。そこで必然的にメンデル形質やそれに類似した一つの遺伝子座が大きな効果を持つ形質が遺伝学では特に有用になりました。
図4. 連鎖群とゲノム
メンデル形質の原因
そもそも豆のまるまるやしわしわなどのメンデル形質のバリエーションはなぜ生じるのでしょうか。それはチャールズ・ダーウィンの進化理論をもとに、ある遺伝子に親とは違うアレルが偶然生じる突然変異(mutation)がおこり、それが何らかの理由で集団に広がったものと考えられています。ちなみに、突然変異はmutationの訳語ですが、単なる「変異」はvariationの訳語です(mutationの意味で使われることもある)。混乱を避けるため、variationには出来るだけ「バリエーション」を使いたいと思います。この突然変異はある時、メンデル形質を引き起こすと考えられます。生物の発生的、生理的、あるいは行動的な機能は多くの化学反応や物理反応の結果として生じるので、通常は多くの遺伝子が協調的に働いて、達成しています。それでも、その中で重要な機能を持つ遺伝子が一つでも欠けてしまうとその協調が崩れ、機能不全に陥るかも知れません。そして、それは異常な形質(例えば、病気)として現れます。遺伝子のアレルの片方でも無傷であれば問題ないのですが、両方が壊れてしまうと機能不全となる、そうして考えれば、あまり一般的でない異常な形質がメンデル形質となりやすいことは想像がつきます。このようにして、メンデル形質を調べるということは機能不全を引き起こすような重要な遺伝子を調べるということと必然的につながりやすかったと考えられます。
図5. 突然変異とメンデル形質
DNA上の遺伝子
さてやっと、ゲノムのDNAに記録された遺伝子の話に入ります。DNA(deoxyribonucleic acid, デオキシリボ核酸)というのはアデニン(A)、チミン(T)、シトシン(C)、グアニン(G)という四種類のどれかの塩基(base)とリン酸とデオキシリボースという三つの分子がつながったヌクレオチド(nucleotide)を一単位として、それが連なったもので、化学的に安定な物質なので、その配列で情報を記憶するのに優れています。塩基はそれぞれ対応した逆向きの塩基(Aに対してT、Cに対してG)と結合して塩基対(base pair)を形成し、二つのDNA鎖が二重螺旋を作って安定化するので、一本のDNA鎖に結合できるヌクレオチドをつなげて二重鎖をつくるだけで同じ情報をうつすことができます。したがって、情報を複製するという点でも非常に優れていることがわかります。このような点からDNAは遺伝情報を記録する実体として全ての生物で利用されていることは理にかなっていると言えます。しかしながら、DNAはその安定性から多くの化学反応を触媒することはできません。一方でタンパク質(protein)は20種類のアミノ酸(amino acid)という分子の単位が連なったもので、対照的にその構造的、化学的柔軟性から驚くほどの違った化学反応を触媒することができます。生物の機能は多くの場合はタンパク質が実働部隊として働いて成立しています。タンパク質の性質はまさにアミノ酸の配列によって決まるので、正確なアミノ酸の配列をもったタンパク質を生物は生成しなくてはいけません。生物は長い進化の中でタンパク質の配列をうまくDNAにコードするシステムを形成しました。しかもそれは単純に一つのアミノ酸につき、三つの塩基を対応させてDNAにアミノ酸配列の一次元的な情報をそのまま記録してしまったのです。一つのタンパク質をコードしているDNAの塩基配列はmRNA(messenger ribonucleic acid, メッセンジャーリボ核酸) というDNAに似た分子に転写 (transcription)されて、mRNAは少し変換された後、タンパク質の工場のようなところに運ばれて、mRNAの配列を元にタンパク質のアミノ酸が繋げられます。このタンパク質への変換を翻訳(translation)といいます。
ここまでシンプルかつエレガントに生物のもつ分子の情報がDNAにコードされているのは驚きですが、そこまで単純ではありません。このアミノ酸配列の情報の途中にイントロン(intron)という関係ない塩基配列が入ってしまって、ひと連なりのアミノ酸配列の情報はエキソン(exon)という断片になってしまっていたり、タンパク質をコードする領域との間にはタンパク質とは関係ない塩基配列が長く連なっていたりします。結果的にヒトのハプロイドゲノムは31億の塩基を含んでいますが、中でタンパク質をコードする配列は数%に過ぎません。
DNAは特に複製するときに正確に複製できなくて配列が変わってしまうことがあります。このようにして情報が変わってしまうのが、まさに突然変異というものの実体であると考えらえています。このDNA上の突然変異には塩基を別の塩基にかえる塩基置換(substitution)。塩基が入り込んだり抜けたりする挿入(insertion)や欠失(deletion)。DNAの並びがひっくり返ってつながる逆位(inversion)。全く別のところにDNAがつながる転座(translocation)などがあります。
DNA配列上のタンパク質をコードしている領域に突然変異が起こるとアミノ酸が変わって、タンパク質の性質が変わってしまうので、問題です。特に、塩基の挿入や欠失が生じると、三塩基ずつの並びがずれてしまい、全く機能しないタンパク質を作り出してしまいます(フレームシフト変異; frameshift mutation)。したがって、この領域に突然変異が起こることは異常な形質を生み出す可能性が高いと考えられます。
DNAの配列を調べる技術の発展により、それまですでに異常な形質として名前のついた遺伝子の遺伝子座に実際に、あるタンパク質をコードした配列が同定されていきました。その塩基配列やそれにコードされているタンパク質の名前も同じ遺伝子の名前をもつようになりました。このようにして、形質を生み出すものとして定義されていた遺伝子は実際にタンパク質をコードしている塩基配列として同定されるということが繰り返し起こりました。ついに、研究者は遺伝子というものはタンパク質をコードしている塩基配列のことをいうとみなし、形質がどうであるかは問わなくなっていったのです。
こうして最初に述べたような定義に辿り着きました。しかし、そうは言っても、タンパク質をコードしている遺伝領域だけに意味を限定するのは不便だと言うこともあり、他の重要と考えられる領域も含めることが多くあります。例えば、タンパク質が転写される時期や細胞や状況などを的確に定めるのは、違う遺伝領域にありますので、そういうものも含む場合もあります。
いろいろな「遺伝子」
遺伝子のアレルが集団中でどういった挙動を持つのかを調べる学問を集団遺伝学(population genetics)といいます。その一つの発展として、遺伝子を中心的な役者として理論的に生物進化を理解するという試みがありました。このとき、遺伝子の定義は実体的ではない理論的な単位として扱われ、必ずしも以上のような定義と同じものを指さなくなってしまいました。現代はゲノム配列の解析の時代です。実体を確かめられる対象として遺伝子を定義し、議論する土台があると言えます。集団遺伝学の別の発展として、分子進化生物学(molecular evolutionary biology)はより実体的な定義のもと、遺伝子の進化を扱っています。こういった状況で、同じ「遺伝子」について話していても、前提とする意味合いが人によって少しずつ違っており、専門家の間でも混乱の原因となっています。また、アレルのことを日本語では対立遺伝子といい、これをただ「遺伝子」ということもよくあって、論理的に繋げると遺伝子Xの遺伝子Aみたいな意味不明なことになってしまうのですが、実はよく使われます。さらには、遺伝子という言葉の大衆化の弊害として、遺伝子の意味が拡大解釈されて一人歩きすることもあります。私個人としては遺伝子は実体的で限定的な意味合い(主にタンパク質をコードするもの)で用い、ゲノムのある要素を話すときは遺伝因子(genetic element)という言葉を使うのが良いと思っています。すでに多くのタンパク質をコードする配列には遺伝子としての名前がついており、それらを遺伝子として扱うのは自然なことです。遺伝子という言葉のもつ豊かな背景を理解して、注意深く扱うことが必要だと思います。
これで遺伝子のことをよく理解できたでしょうか。むしろ、よくわからなくなったでしょうか。もしわからなければ、他の文献もあたってみてください。学問の言葉について、研究者によって意見が違うことはよくあることです。それぞれの意見を参考にすることで、よりその背景への理解を深めていけるものと思います。
[吉田恒太、2022.11.5改定]