What is survival data analysis?
Survival data는 이벤트나 상태가 발생할 때까지의 시간을 다루는 데이터이다. 이 데이터 분석의 핵심은 이벤트를 경험하지 않을 확률 (생존확률)을 구하는 것이다. 다음과 같은 데이터가 survival data라고 할 수 있다:
1. 의학 : 암을 진단 받은 환자가 생존할 확률
2. 공학 : 기계나 제품이 고장나지 않을 확률
3. 사회과학: 구직자가 직장을 그만둘 확률
Survival deep learning
딥러닝(Deep Learning)의 발전은 생존 분석에 새로운 가능성을 열어주었으며, 이를 통해 더 복잡하고 대규모의 데이터를 효과적으로 분석할 수 있게 되었다. Survival data를 입력으로 받는 딥러닝을 적용하여 정확한 survival function을 예측하는 방법을 연구한다. 일반적인 survival deep learning은 Cox proportional model을 이용하여 모델링을 하는데, 이는 상당히 강한 모델 가정이다. 우리는 이런 모델링 가정이 없이 생존데이터를 모델링하는 방법을 연구한다.
Causal inference
도구변수 (Instrumental variable)
도구변수는 경제학과 통계학에서 상당히 오랫동안 연구된 분야로, 2021년 Dr. Joshua Angrist와 Dr. Guido Imbens가 이 분야에 대한 연구로 노벨경제학상을 수상했다. 이 방법의 장점은 측정되지 않은 교란변수 (confounder) 없다는 가정이 필요가 없이 치료효과 (treatment effect) 를 구할 수 있다는 점이다. 도구변수가 널리 적용되는 분야 중 하나가 유전변이 (genetic variants) 분석이다. 이 분야를 Mendalian randomization라 한다. 우리는 Mendalian randomization에 대한 다양한 문제들을 연구한다.
매개효과 분석(Mediation analysis)
매개효과 분석은 치료가 결과변수에 미치는 직접적인 효과 (direct effect)과 매개 변수 (mediator)를 통해서 치료가 결과변수에 미치는 간접효과 (indirect effect)에 대한 통계적 추론을 목적으로 한다. 매개 변수에 대한 기존의 방법론은 하나의 매개체만을 다룰 수가 있는데, 현실에서는 다양한 매개변수들이 존재한다. 예를 들어, 교육은 직업의 복잡성이나 육체적, 정신적 레저활동에 영향을 주고, 이들은 서로 인과적으로 관계가 있을 수 있다. 또한 이 활동들은 정신질환에 영향을 준다. 우리는 다양한 매개 변수들이 있을 때 통계적 추론을 위한 방법론을 연구하고 있다.
Machine learning
Random forest and Boosting
Random forest와 boosting은 트리 모형 (tree model) 에 기반한 앙상블 (ensemble) 모형으로, 좋은 예측력을 지녀서 사람들이 많이 쓰는 머신 러닝 모델이다. 최근에는 예측력을 넘어서 통계적 추론에 대해서 사람들이 관심을 가지고 연구를 하고 있다. 우리는 이 두 모형을 이용한 통계적 추론을 연구하고 있다. 또한 인과추론과 survival data와 연계된 연구도 활발히 하고 있다.