METIS

METIS: ML-based Decision Support Information System

본 연구과제는 차세대 기계학습 기술들을 기반으로 다양한 이종 데이터들을 하나의 모델링 프레임워크로 통합하여 사용자가 원하는 정보, 즉 의사결정을 지원하는 시스템 (METIS; Machine learning-based dEcision supporT Information System) 개발을 목표로 한다. 본 과제를 통해 개발된 의사결정 지원 시스템은 타겟 도메인, 타겟 애플리케이션, 타겟 서비스, 타겟 데이터에 적합한 통합 모델을 쉽게 구성할 수 있으며, 실제 상용화 시에 발생할 수 있는 다양한 이슈를 해결한다.

<의사결정 지원 시스템 METIS 사용 시나리오>

차세대 기계학습 기반 의사결정 지원 시스템 METIS를 개발하기 위해, 본 연구과제에서는 전체 시스템 개발을 크게 네 가지 이슈로 나누고 각각에 대해 아래와 같은 세부 연구들을 수행한다.


(1) 유연한 이종 데이터 통합 모델링 – 데이터 타입별 특성을 고려한 개별 모델링 컴포넌트 개발 및 유연한 통합 모델링 프레임워크 연구 : 현재 기계학습 및 데이터 모델링 연구들은 대부분 목표 데이터 및 목표 태스크에 특정되어 진행되어 왔다. 따라서, 사용하고자 하는 데이터 및 태스크에 맞추어 유연하게 모델을 변경하는 것이 어려웠고, 다양한 이종 데이터를 통합하기 위하여 모델을 확장하는 데에도 한계가 있었다. 이러한 문제를 해결하고자 본 연구에서는 이종 데이터를 원하는 방식으로 통합하여 쉽게 통합 모델링을 수행할 수 있는 프레임워크를 개발하는 것을 목표로 한다. 또한, 완성된 모델에 적합한 엔드투엔드(end-to-end) 학습 기법을 사용하여 모델을 훈련하는 방법에 대해 연구한다. 

<이종 빅데이터 통합 모델링 프레임워크 아키텍처>

(2) 동적 데이터를 위한 점진적 학습 기술 - 시간에 따라 지속적으로 축적되는 데이터를 추가적으로 학습하는 점진적 학습 연구 : 기계학습 및 데이터마이닝 분야의 중요한 이슈 중 한 가지는 증가하는 데이터를 효율적으로 처리하고 이를 기계학습 모델에 반영하기 위한 점진적 학습 및 온라인 학습이다. 단순히 배치 학습을 사용해서 매번 모델을 재학습하게 되면 불필요하게 데이터 처리 과정이 반복되어 학습 시간이 길어지고 연산 자원이 낭비되는 결과를 낳는다. 본 연구에서는 (1)에서 개발된 통합 모델을 추가적인 데이터를 활용하여 점진적으로 학습시키는 기술을 개발하고, 데이터 접근 패턴을 고려하여 효율적인 데이터 관리를 가능하게 하는 데이터 전처리 과정을 도입하여 점진적 모델 학습 과정을 최적화시키는 연구를 진행한다. 


(3) 프라이버시 보장을 위한 연합 학습 기술 - 프라이버시가 보장되어야 하는 사용자의 로컬 데이터에 접근하지 않는 방식으로 글로벌 모델을 학습시킬 수 있는 연합 학습 기법 개발 : 기존에 사용자 정보를 타겟으로 하는 추천 및 정보 시스템의 경우, 서버에 모든 사용자 데이터를 수합한 후 이를 모델 학습에 사용하였다. 이러한 시스템은 서버에서 모든 데이터를 관리하기 때문에 모델 학습에 필요한 데이터 접근에는 어려움이 없다는 장점이 있지만, 프라이버시에 민감한 사용자들의 개인적인 데이터까지 모두 수집해야 한다는 문제점이 있다. 위와 같은 프라이버시 문제를 해결하고자 본 연구에서는 사용자의 로컬 데이터에 직접 접근하지 않으면서 모든 사용자의 정보를 반영한 글로벌 모델을 학습시킬 수 있는 연합 학습 기법을 개발한다.


(4) 제한된 자원을 활용한 기계학습 최적화 기술 - 알고리즘 및 연산 과정 수정을 통한 모델 학습 최적화 연구 : 지난 수십 년간 다양한 종류의 기계학습 기법들이 개발되어왔지만 주로 high-level의 알고리즘에만 초점을 맞추어 연구가 진행되었다. 그러다보니 시스템 관점에서 사용할 수 있는 컴퓨팅 및 저장 자원들을 최대한 활용하지 못하며 효율성과 확장성에 문제가 있다. 이러한 문제를 해결하기 위하여 본 연구에서는 단일 머신의 제한된 자원(전력, 연산 능력, 메모리 용량, 저장 공간 등)을 최대한 활용하여 모델링 컴포넌트 학습 및 데이터 처리 속도를 향상시키는 연구를 수행한다. 또한, 데이터의 희소성, 연산의 중복성 등을 복합적으로 고려하여 알고리즘 및 연산 과정을 최적화함으로써 불필요한 연산 및 중간 결과물의 크기를 줄이는 것을 목표로 한다.

SW컴퓨팅산업원천기술개발사업(SW스타랩)