Workshop

다중척도연구실 워크샵(2023)

소개

다중척도연구실 구성원과 졸업생들이 인적, 학문적 교류를 하기 위한 워크샵을 개최한다. 이를 통해 서로의 연구 주제에 대해 이해하고 논의해볼 수 있을 것으로 기대한다. 각자의 연구 주제에 대해 15~40분 정도 발표하고, 질의응답을 진행한다. 주요 주제는 다중척도방법, 극단값 이론, 분위수 이론, 비유클리드 통계학, 함수형 자료 분석, 딥러닝이다.


일시 및 장소


프로그램 및 일정

2월 24일 (금)

Opening Remark: 오희석 [13:20~13:30]

Session 1: High-dimensional Data Analysis (Chair: 김준표) [13:30~15:00]

Ensemble mapper (임예지, 중앙대학교 응용통계학과) [13:30~14:10]

Mapper is a popular topological data analysis method to analyse structure of complex high-dimensional data sets. As the Mapper algorithm can be applied to clustering and feature selection with visualization, it is used in various fields such as biology and chemistry. However, some resolution parameters have to be chosen by the user before applying the Mapper algorithm, and the results are sensitive to the selection. In this paper, we focus on the selection of two resolution parameters, the number of intervals and the overlapping percentage. We propose a new resolution parameter selection method in Mapper based on the ensemble technique. We generate multiple Mapper results under various parameter values and apply the fuzzy clustering ensemble method to combine the results. To evaluate Mapper algorithms including the pro- posed one, three real data sets are considered. The results demonstrate the superiority of the proposed ensemble Mapper method.

Keywords: clustering, data mining, graphical models, high dimensional data, machine learning

A framework for decomposition and regression of two-way functional data with application to virtual metrology (권영욱, 서울대학교 통계학과) [14:10~14:35]

We propose a linear regression model with scalar-valued responses and two-way functional, or bivariate functional predictors. Motivated by optical emissions spectroscopy data from virtual metrology of semiconductor manufacturing, we focus on the cases where the smoothness and shapes vary greatly by each variable. We propose a two-step procedure, decomposition and regression, for this problem. First, decompose the two-way functional data into pairs of component functions via functional singular value decomposition models. Next, estimate linear models from each component function, and average univariate models to have the final predictor. Our method is illustrated with simulated and real datasets, and is shown to provide a more profound understanding of data, with higher prediction performance, compared with competing models.

Keywords: Functional data analysis, functional linear regression, singular value decomposition, model averaging

Functional Classification using OES Data (한건희, 서울대학교 통계학과) [14:35~15:00]

The growing volume of data collected by semiconductor companies requires the development of efficient analysis techniques. This talk highlights a research study that explores the classification of successful semiconductor processes using Optical Emission Spectroscopy (OES) data. OES data can be considered as functional data in both time and wavelength, and a classification model based on functional principal component analysis is proposed. The study aims to provide a comprehensive approach to the classification of successful semiconductor processes, with the goal of improving the classification performance.

Keyword: Functional data analysis

Coffee Break [15:00~15:30]

Session 2: Complex Data Analysis and Applications (Chair: 신하영) [15:30~17:00]

웨이블릿 분해 기반의 대한민국 지면온도 예측 (최지은, 중앙대학교 응용통계학과) [15:30~15:45]

지면온도는 중요한 지면의 생물리적 요소 중 하나로써 수치예보 및 기후모델의 입력 및 검증자료로 활용되고 있다. 다양한 응용분야에서 지면온도가 활용됨에 따라 그 중요성이 부각되어 왔으며 보다 정확한 지면온도 예측의 필요성이 제기되고 있다. 본 논문에서는 웨이블릿 분해 기반의 통계적 예측 모델을 활용하여 서울, 대구, 광주, 울산, 제주의 5개 지역의 일별 지면온도를 예측하였다. 웨이블릿 분해를 통해 얻은 각 성분에 대해 통계적 예측 방법론인 ARIMA, SVR, ANN을 적용하였으며, 이들 방법론을 원자료에 바로 적용한 경우와 예측 성능을 비교하였다. 다양한 예측 성능지표를 통하여 결과를 비교한 결과, 기존의 예측 방법론들에 비해 웨이블릿 분해와 혼합된 방법론들의 성능이 더 나음을 확인하였다. 본 논문의 결과를 바탕으로 웨이블릿 분해를 이용한다면 지면온도를 보다 정확하게 예측할 수 있을 것이며, 이를 통해 수치예보나 농업 분야 등에 기여할 수 있을 것으로 기대된다.

키워드: 기후예측, 웨이블릿 분해, 지면온도, ANN, ARIMA, SVR.

Forecasting high levels of PM10 in Korea based on the principal expectile component regression (임동경, 중앙대학교 응용통계학과) [15:45~16:00]

As the level of fine dust has risen sharply recently, many studies has been conducted to analyze the data. Since exposure to fine dust is related to the occurrence of cardiovascular diseases and respiratory, it can make the mortality rate increase. Therefore, it is important to predict the extreme level of fine dust. In this paper, we consider a regression model based on the principal expectile analysis. Compare to the conventional principal component analysis, principal expectile analysis can capture variations around the tail of the data. By so doing, we predict ‘Bad’ cases of the PM10 level of 25 districts in Seoul, South Korea and compare the results with the classical principal component regression. From the results, we observe that the proposed model predicts the extreme level of fine dust better than the existing model.

Keyword: Principal expectile component regression

한국 강수량의 극단값 변화 양상 (전지민, 세종대학교 수학통계학과) [16:00~16:15]

최근 한국에서는 2020년의 역대 최장기간 집중호우, 2022년 8월 수도권 집중호우 등 많은 집중호우 피해가 일어나고 있다. 본 연구는 이러한 기상이변의 빈도 변화를 알아보기 위해 지역별 일별 강수량 자료를 이용하여 한국 강수량의 극단값의 분포를 추정한다. 특히 Kojadinovic and Naveau (2017)에서 제안한 방법을 토대로 연 최대 일간 강수량에 일반화 극단값 분포(GEV)를 적합한 뒤 CUSUM-type 통계량을 이용해 극단값 분포의 변화 양상을 알아본다. 

Keyword: GEV distribution

Expectile correlation coefficient : a new measure (김주연, 세종대학교 수학통계학과) [16:15~16:30]

두 변수 사이의 종속성을 측정하는 방법으로 피어슨 상관계수(correlation coefficient)가 널리 사용되고 있다. 그러나 피어슨 상관계수는 평균 중심의 종속성을 제공하며 꼬리 부분의 종속성(tail dependence)은 올바로 반영하지 못하는 한계가 있다. 이를 극복하기 위해 Han et al. (2016) 및 Choi and Shin (2022)에서는 분위수 수준에서의 종속성을 측정하는 방법을 제안한 바 있다. 본 발표에서는 Choi and Shin (2022)에서 제안한 분위 상관계수(quantile correlation coefficient)를 확장한 평률 상관계수(expectile correlation coefficient)를 발표한다. 평률 상관계수는 두 변수 사이에 평률 회귀분석(expectile regression)을 적용하여 얻어지는 회귀계수의 기하평균으로 정의된다. 평률 상관계수는 분위 상관계수와 비교할 때 계산이 간편하며 추론에 밀도함수 추정이 필요하지 않다는 이점이 있다. 본 발표에서는 평률 상관계수의 여러 가지 성질과 추론 방법에 대하여 발표한다.

Keywords: quantile correlation coefficient, expectile correlation coefficient 

강줄기 네트워크 자료에 대한 추론 (김정원, 세종대학교 수학통계학과) [16:30~16:45]

본 발표에서는 강줄기 네트워크 자료(River network data)에 대한 새로운 추론 방법을 제시한다.강줄기 네트워크 자료는 관측 장소 사이의 상관 구조와 강 줄기의 합류 지점에서의 값을 고려한 모형이 필요하여 기존의 자료분석 방법과 다른 방법이 필요하다. O’Donnell et al. (2014)에서는 B-Spline 기저함수를 이용한 회귀 모형을 제안하였다. 본 발표에서는 이를 평률 회귀분석(expectile regression)을 이용하여 확장하는 방법을 제시한다. 평률 회귀분석은 Newey and Powell (1987) 및 Schnabel and Eilers (2009)에서 제안하였으며, 계산 및 추론이 용이하고 분포에 대한 다양한 정보를 제공하는 이점이 있다. 또한 본 연구에서는 우리나라에서 관측된 강줄기 네트워크 자료에 제안한 방법을 적용하고 그 결과를 함께 제시한다.

키워드: B-spline, expectile regression 

NMF 기반의 걸음 수 데이터 분석 (이정균, 중앙대학교 응용통계학과) [16:45~17:00]

다변량 데이터 분석에서 차원 축소는 필수적인 과제로 여겨진다. Non-negative matrix factorization (NMF)는 대표적 차원 축소 기법 중 하나로서,  주어진 다변량 자료를 음이 아닌 값을 가지는 성분으로 분해하는 통계적 기법이며, 이미지, 유전자, 주파수 데이터 분석 등에서 널리 활용되고 있다. 이러한 NMF를 걸음 수 데이터에 적용하여 해당 방법론이 데이터 특성을 잘 반영하는지 확인하고자 한다. 또한, 더 나아가 basic NMF와 Sparse NMF, ICA 간의 성능을 비교해 보고자 한다.

키워드: 차원축소, NMF, ICA, 걸음 수 자료

2월 25일 ()

Session 3: Causal Inference and Factor Model (Chair: 김규순) [9:10~10:30]

Forecasting PM2.5 Concentration in South Korea via Quantile Factor Model (박세은, 서울대학교 통계학과) [9:10~9:35]

We aim to forecast the hourly particulate matter 2.5(PM2.5) data in South Korea, which are observed from 1st January 2018 to 15th May 2020, on 308 stations. Regarding each station as a covariate, the data have large number of covariates and observed time points where the dependencies are inevitable both serially and cross-sectionally. We apply a forecasting method based on the approximate factor model that reduces the number of predictors, and that also allows some dependency in data. We find small number of latent factors from the data, and then the linear regression regarding factors as known predictors is done to forecast PM2.5 on each station. Furthermore, we expand the method by employing a quantile factor model to forecast the quantiles, expecting that since the data has a heavy tail and is right-skewed, the combination of forecasted quantiles would provide a better estimate than the mean. The results are compared with four other methods and showed that our methods outperform in many cases.

Keywords: Approximate Factor Model, Quantile Factor Model, Quantile Regression

Absolute average and median treatment effects as causal estimands on metric spaces (신하영, 서울대학교 통계학과) [9:35~10:00]

When studying causal inference, the outcome variable in an experiment or observational study may be non-Euclidean. In this paper, we define a notion of absolute average and median treatment effects on metric spaces and propose various estimators in a stratified randomized experiment. We show that these estimators are strongly consistent under certain conditions. Using these estimators as test statistics for Fisher's sharp null hypothesis, we investigate the causal relationship between Alzheimer's disease and the shape of the corpus callosum, which lies on a Riemannian manifold called Kendall's shape space, using matched data from an observational study.

Keywords: Causal inference; metric spaces; geodesic spaces; treatment effect.

Forecasting data Using Dynamic Factor Model and Quantile Regression (김태연, 서울대학교 통계학과) [10:00~10:25]

We applied the quantile approach to forecasting using the factor estimated using the Kalman smoother. Also, we compared the performances to the OLS approach. Unlike previous studies that mainly focused on European or American economic data, we studied whether the dynamic factor model fits well for Korean economic data.

Keywords: Dynamic Factor Model, Quantile approach 

Break [10:30~10:50]

Session 4: Deep Learning and EVA2023 (Chair: 임예지) [10:50~12:00]

EVA2023 Data Competition: Modeling Conditional and Multivariate Extremes (김준표, 세종대학교 수학통계학과) [10:50~11:30]

The 13th International Conference on Extreme Value Analysis hosted by Bocconi University organizes the data competition about modeling extremal quantiles and probabilities of extreme events. The data competition requires submission of 4 sub-challenge results which handles problem of estimating conditional extremes and multivariate extreme value distributions. This talk briefly introduces the problems and some literature reviews to be considered for the data competition. 

Keywords: Extremal quantile; Conditional quantile; Multivariate extreme

Image Classification with Transfer Learning (조형래, 서울대학교 통계학과) [11:30~11:55]

In the field of image processing, deep learning models, especially Convolutional Neural Network(CNN) models, are widely used and show good performance. However, it is difficult to construct the structure of the model from scratch to produce good performance. In addition, even if there is a good structure, the process of training the model requires a high-spec computer and a lot of time. Therefore, I introduce Transfer Learning which is a learning method that can achieve good performance relatively easily under limited resources.

Keywords: Deep learning, Transfer learning, Image classification, Convolutional neural network