生物の容姿や生態を決定しているものは、4種の塩基(A, T, G, C)で成るDNAであることが知られている。このDNAの塩基配列を理解するということは、生物の多様性や繋がりの生態を理解することであり、地球社会に大きな利益を果たすと考えられる。本研究では、記号列構造に重きを置き、題材としてDNAを用いて研究を行った。
データの相関の有無を調査する手法に、サロゲート法と呼ばれる統計的解析手法がある。サロゲート法のひとつである、ランダム・シャッフル・サロゲート (Random Shuffle Surrogate: RSS) 法は、データの全体的な構造を解析することができるが、この手法ではデータの局所的な構造に対して解析することはできないという問題がある。この問題を解決したスモール・シャッフル・サロゲート (Small Shuffle Surrogate: SSS) 法がある。本研究では、このRSS法とSSS法を記号列データへと応用した。まずは、1変数の A, T, G, C の記号列をシミュレーションデータで用いて生成した。ここで用いたシミュレーションデータは、一様乱数、線形モデル、非線形モデルの3つから生成したものである。これらのデータに対してRSS法とSSS法を適用し、相関の有無が正しく判断できることを確認した。さらに、生物のDNA記号列に両手法を適用し、全体的にも局所的にも記号列の構造に相関があることを確認した。次に、上述した方法を用いて2変数の A, T, G, C の記号列を生成し、RSS法とSSS法が2変数間の相関の有無を正しく判断できることを確認した。さらに、2種の生物のDNA記号列に両手法を適用した。クラゲを祖先とし、その子孫の関係性を分析した結果、クラゲと子孫とされている生物たちとは関係性をさほど確認できなかった。さらに収斂進化に着目しカニ化を題材とした分析の結果、同じ種族の関係性よりも、似た身体の構造と似た生態を持つ生物の方が強い関係性を示した例を確認した。