생물의 유전 정보를 가지는 DNA 염기서열은 문자열로 'A', 'C', 'G', 'T'의 염기가 순서대로 나열되어져 있다. 염기서열의 변화로 원본과 차이를 보이는 현상을 변이라고 한다. 변이는 계속해서 진행되며 DNA에 축적된다. 장기간의 변이 축적으로 생물은 진화하게 된다. 변이의 유동적인 변화를 시계열 분석해 진화 과정을 이해할 수 있다. 변이의 시계열 분석은 비정상적인 세포 변이로 발생하는 질병인 암 연구와도 관련된다. 연구에 주로 사용되는 변이는 SNP(Single Nucleotide Polymorphism)으로 DNA 염기서열 내 단일 염기 차이를 보인다. SNP이 가진 변화를 분석하는 연구는 지속적으로 진행되었지만, 생물의 유전적 복잡성으로 여전히 풀리지 않는 어려운 문제다.
변화 패턴을 분석하는 대표적인 방법으로 CMH-Test(Cochran-Mantel-Haenszel), BBGP-Test(Beta-Binomial–Gaussian-Process), KS-Test(Kolmogorov-Smirnov)가 있다. 기존 연구는 비정상 패턴의 기준선이 모호하다는 한계를 가진다.
검출 기준을 새롭게 정의하기 위해 본 연구에서는 GCMH-Test(Generalized-Cochran-Mantel-Haenszel), BBGP-Test, KS-Test의 결과에 클러스터링을 적용해 검출 기준을 정하고 결합하는 앙상블 모델을 제안한다. 앙상블 과정은 다음과 같다. 먼저 기존의 결과 분포를 클러스터링으로 분류한다. 다음으로 투표를 통한 다수결(Majority Voting)로 결합해 정상, 비정상 패턴으로 결과를 제시한다. 제안 모델의 성능 검증을 위해 시뮬레이션 데이터를 사용한다. 그리고 초파리와 효모에 제안 모델을 적용해 특이 패턴을 가지는 SNP을 찾아낸다.