SNP은 DNA 시퀀스를 생성하는 시퀀싱 과정에서 참조 유전체(Reference Genome)에 DNA 조각을 붙이는 과정으로 정의된다. SNP은 2개의 대립 염기를 가지며 [그림 1]로 설명할 수 있다. SNP을 정의하기 위해 참조 유전체에 염기로 이루어진 조각(Read)들을 매핑(mapping)한다. 참조 유전체와 같은 염기를 참조 형질(Reference Allele), 다른 염기를 대립 형질(Alterative Allele)이라고 한다. 서로 대립되는 형질의 수를 형질 깊이(Allele Depth)라고 하며 식 (1)로 구한다. SNP의 변화를 분석하기 위해 식 (2)의 계산으로 형질의 깊이를 빈도(Frequency)로 변형한다. Allele Frequency는 형질의 발현 빈도라고 한다. 분석에는 대립 형질의 발현 빈도(Alternative Allele Frequency)를 사용한다. 분석에는 사용되는 집단의 세대 범위, 시계열, 그리고 세대 내 복제 생물에 따라 한 SNP이 가지는 Allele Frequency 구성이 달라진다.
SNP의 변화 패턴을 분석하는 모델은 3가지로 분류할 수 있다. 먼저로 SNP의 두 세대를 분석에 사용하는 paired-Test가 있다[3]. 다음 방법으로 가우시안 프로세스를 적용한 방법이 있다[4]. 마지막으로 본 연구실에서 개발한 몬테-카를로 시뮬레이션(Monte-Carlo Simulation) 기반의 KS-Test(Kwak et al, 2018)가 있다. 기존 연구에서는 비정상 패턴의 기준선이 모호하다는 한계를 가진다. 3가지의 분석은 전체 결과 중 상위 2000번째 까지를 특이 패턴을 가지는 SNP으로 정의한다. 상위 2000을 검출 기준으로 사용하는 것은 2가지 문제가 있다. 첫째로 분석 데이터가 가지는 비정상 패턴 SNP은 2000개 이상이 될 수도 있고 이하가 될 수 있다. 그리고 분석 과정에서 오류를 포함한 결과가 생길 수 있다. 따라서 세대별로 변화하는 패턴을 제대로 분석하지 못할 가능성이 있다. 위와 같은 2가지 사항으로 각 모델 결과의 분석해 비정상적인 변화를 가지는 SNP의 기준을 유동적으로 정하는 과정이 필요하다. 기존의 SNP 패턴을 분석하는 모델은 패턴의 비정상 정도가 강해질수록 높은 수치의 결과를 생성한다. 기존 연구에서 찾지 못한 숨겨진 검출 기준이 분석 결과의 분포 내에 존재할 것이다. 분석 결과 분포를 분석한다면, 유동적인 기준 선정이 가능하다. 본 연구에서는 SNP의 변화 패턴을 분석한 결과를 결합하는 앙상블 모델을 제안한다.
앙상블 모델의 입력으로 3가지 분석 결과를 사용한다. Paired-Test를 적용한 GCMH-Test(Hande Topa et al, 2015)[4], 가우시안 프로세스를 적용한 BBGP-Test(Hande Topa et al, 2015)[4] 그리고 몬테카를로 기반 KS-Test(Kwak et al, 2018)의 결과를 앙상블 모델로 결합한다. 3가지의 분석 결과를 3가지 클러스터링으로 분류한다. 클러스터링의 문제인 최적 클러스터 수 K를 최소제곱법을 적용해 해결한다. 최적의 분류 결과로 분석 결과의 비정상 패턴을 분류하는 기준을 정의한다. 클러스터링 기법으로 K-Means 클러스터링[5]과 2가지의 GMM(Gaussian Mixture Model) 클러스터링[6]을 사용한다. 총 9가지 결과를 앙상블 기법 중 투표를 통한 다수결(Majority Voting)로 결합한다[7].