No RAG, No GenAI.
All data will move to Lakehouse.
NVDIMM Durability is King.
Vector Database
Embedding model
Text-to-SQL, SQL-to-Text
Open Table Format
AI-enabled DB engine optimizations
Next generation cloud-native database leveraging CXL, NVDIMM, Flash
Data platforms and internals: MySQL, Postgres, SQLite, RocksDB, Spark etc.
DB (SQL) for AI and AI for DB, cloud-native data systems
DBMS (SQL) extension for AL/ML/DS
서울대학교 VLDB(Very Large DataBase) 연구실에서는 아래 세 분야를 중심으로 차세대 대용량 데이터 처리에 관한 연구를 수행중이다.
GenAI-empowering database techniques:
LLM을 근간으로 하는 생성형 AI의 진정한 실현을 위해 데이터기반 검색증강(Retrieval Augmentation, RA)이 핵심 요소이고, 검색증강의 핵심 기술은 벡터데이터베이스와 임베딩모델이다. 한편, ChatBot과 같은 대표적인 생성형 AI응용 분야는 일반적인 RAG이외에 Text2SQL 기능을 반드시 필요로 한다. 본 연구실에서는 생성형 AI 응용을 가능케 하는 다양한 데이터베이스 기술 연구를 수행한다.
Lakehouse-based database techniques:
향후 AI를 포함한 모든 응용 데이터는 Lakehouse에서 Open Table Format 형태로 S3 등의 Object Store에 저장 관리 될 것이다. 따라서, Lakehouse 기반 데이터 저장, 데이터 처리 및 최적화 연구를 필요로 한다.
(Cloud) Database techniques for flash memory and NVRAM:
대부분의 On-prem와 Cloud 데이터베이스 시스템이 플래시메모리 저장장치에서 운용되는 바, 해당 저장장치 특성을 활용하는 DB엔진 기술 및 DB엔진을 위한 새로운 플래시메모리저장장치 기능에 대한 연구가 필요하다. 또한, OLTP 향 응용의 경우, update durabibility 관련, 읽기대비 상대적으로 느린 플래시메모리 쓰기 성능 보완을 위해 NVRAM (Non-Volatile RAM, 특히 Non-Volitile DIMM) 활용 연구가 필요하다. 특히, 단순 쓰기 성능 개선을 통한 단일 데이터베이스 성능 개선 뿐만 아니라, Cloud 환경에서 replication, multi-version 관련 혁신을 가능케 할 것이다.