1. 시뮬레이션 데이터 기준 성능 평가
시뮬레이션 데이터를 대상으로 3가지 모두를 결합한 결과와 2가지를 결합한 3개의 결과를 최적 기준으로 검출한 결과와 비교했다. BBGP-Test와 GCMH-Test의 결과는 가장 적은 검출 결과를 생성한다. 성능 측정 결과 specificity와 precision의 경우 100%, false positive rate가 0%다 하지만 굉장히 적은 수로 비정상 패턴을 모두 검출하지 못해 sensitivity가 다른 결과와 비교해 굉장히 낮았다. 마찬가지로 f1-score도 함께 낮았다. ROC 커브 기준 결과에서는 KS-Test가 굉장히 기존 분석 결과 대비 모든 부분에서 가장 좋은 성능 결과를 가졌다. 앙상블의 결과들과 비교해 accuracy, sensitivity, 그리고 f1-score에서 높은 성능을 가진다. 하지만 Younden’s statistics의 검출 기준은 실제 True/False를 모르는 실제 데이터에 적용할 수 없는 이상적인 결과이다. 앙상블의 모델은 specificity, precision, false positive rate에서 모두를 결합한 앙상블 결과가 가장 좋은 결과를 가졌다.
2. BF37 데이터 분석 결과
실제 초파리 데이터를 대상으로 앙상블 모델을 적용해 비정상적인 변화 패턴을 검출했다. 앙상블 결과는 모두를 결합했을 경우 7,113개, BBGP와 GCMH를 결합할 경우 2,666개, GCMH와 KS를 결합할 경우 6096개 그리고 BBGP와 KS를 결합했을 때, 7659개의 비정상 패턴을 분류했다. 각 분석 결과의 상위 2000까지의 SNP을 비교했을 때, BBGP와 GCMH가 KS에 비해 많은 공통적인 SNP을 가졌다. 앙상블의 검출 결과는 각 상위 2000까지의 결과로 찾지 못한 패턴을 찾았다. 모두를 결합한 앙상블 모델의 결과 6개의 SNP 패턴을 시각화한 결과, 3개씩의 SNP이 공통적인 변화 패턴을 보였다. 추가적인 실험으로 검출 SNP과 연결되는 유전자를 보였다. GO 분석 결과의 결과 수가 많을수록 좋은 검출 결과를 생성해냈다고 할 수 없다. 따라서 각 모델의 일치하는 GO 분석 결과를 제시했다. BBGP-Test의 상위 2000까지의 결과가 앙상블의 결과와 높은 비율로 앙상블과 가장 일치했다. 마지막으로 시뮬레이션 데이터의 성능 측정에서 가장 결과가 좋았던 모두를 결합한 앙상블 모델과 KS-Test와 BBGP-Test를 결합한 앙상블 모델의 GO분석의 상위 3가지를 제시한다.
3. S288C 결과와의 비교
기존 효모를 대상으로 보고된 결과는 본 연구와는 조금 다르게 참조 시퀀스 S288C를 사용해 BYS2-E03의 비정상적인 변화를 보이는 유전자를 연구했다[11]. 기존 연구의 결과에서는 총 39개의 유전자가 보고되었다. 본 연구의 결과는 S288C가 아닌 pacbio를 사용해 allele frequency를 정의하고 분석에 사용했다. 앙상블 모델의 결과로 찾아낸 유전자와 비교해 일치하는 유전자 수는 37개이다. [그림 5]는 37개의 유전자 중 앙상블 모델 결과와 일치 그래프이다. 추가적으로 일치하는 유전자와 일치하지 않는 유전자 변화 패턴을 시각화했다. [그림 5]의 (a)는 실제 일치하는 결과 37가지는 실제 확실한 비정상 패턴을 보이며 변화하는 것으로 보였다. [그림 5]의 (b)는 일치하지 않는 2개의 유전자의 변화 패턴을 시각화한 결과이다. 일치하지 않는 결과는 비교적 변화 패턴을 보이지 않는 것으로 보였다.