본 연구에서는 SNP의 allele frequency의 시간적 변화 패턴을 분석한 결과를 결합하는 방법을 제안했다. 기존 분석 방식의 문제점인 분석 결과의 모호한 분류 기준 해결이 연구의 목적이다. 기존 분석 결과를 통한 검출 기준은 전체 결과 상위 2000까지로 모호한 기준으로 검출한다. 데이터의 크기와 구조에 따라서 비정상 패턴 검출 기준이 달라져야한다.
문제를 해결하기 위해 제시한 앙상블 모델은 다음과 같은 앙상블 과정을 가진다. 클러스터링으로 분석 결과 분포를 자율 학습으로 분류를 진행한다. 다음으로 클러스터링을 결과로 각 분석 방법의 유동적인 검출 기준을 정한다. 최종적으로 분류 결과를 결합하여 정확한 결과를 생성한다.
제안 모델의 성능을 측정에 시뮬레이션 데이터를 사용했다. 앙상블 모델과의 성능 비교 대상으로 Youden’s statistics로 정의한 각 분석 결과의 최적 기준을 사용한다. 성능 비교 결과에서 앙상블 모델의 결과는 2가지 분석을 결합했을 때, GCMH와 BBGP를 결합한 결과는 기존의 검출 결과와 비교했을 때, sensitivity, f1-score에서 매우 낮은 성능을 보인다. BBGP와 KS를 결합한 경우는 가장 Accuracy, f1-score에서 가장 높은 성능을 보인다. 3가지 모두를 결합한 결과는 specificity, precision, false positive rate에서 가장 좋은 성능을 보인다.
다음으로 실제 초파리와 효모를 대상으로 비정상 패턴 검출을 진행한다. 검출된 패턴의 결과를 유전자와 매핑하는 GO 분석을 진행해 성능을 추가 검증했다. 초파리 데이터에서는 앙상블 결과가 기존 검출 기준(상위 2000)으로 찾아내지 못한 패턴을 찾아냈다. 패턴을 시각화 한 결과 실제로 비정상적인 변화 패턴을 보였다. 효모의 경우, 기존 보고된 결과와 비교 했을 때, 모든 유전자가 일치하지는 않았다. 하지만 일치하는 유전자의 경우, 매우 의미 있는 변화 패턴을 보이며 앙상블 모델을 적용한 검출 결과를 증명했다.
끝으로 연구에서 제안된 방법은 라벨링 되지 않아 모호한 기준을 통해 분류를 진행하는 다른 분야 데이터의 분류에도 적용할 수 있다. 또한, 데이터의 특징에 따른 분류로 특정 기법을 선정하여 데이터에 맞는 최적의 분류 기준 값을 사용해서 정확한 분류에 활용할 수 있을 것으로 기대한다.