Youngjin Kwon - Internship

We announce this program in Korean only, and the contents are not translated.

### CASYS연구실에서 2025년 겨울 인턴 학생을 모집합니다.

- **진행방식**

인턴 프로젝트 박사/석사 학생의 맨토링으로 진행되며 중간중간 교수님과 2주 혹은 3주에 한번 개인 미팅을 하는 식으로 진행됩니다.

인턴 프로젝트는 저희 대학원생의 연구에서 필요한 내용으로 만들어집니다. 특정 부분에 대한 구현이나 비교 대상이 되는 시스템의 실험등이 대표적인 예 입니다.

겨울학기 인턴으로 선발된 학생에게는 겨울 방학 두달 동안 매월 50만원을 지급합니다.

공식 기간은 겨울방학 2달입니다. 하지만 시스템 연구의 특성상 방학이 시작하기 전에 저희 연구실에서 개별 연구 방식으로 미리 준비를 하고 방학이 시작되면 본격적으로 시작하는 방식을 권장합니다.

추가로 봄학기, 가을학기 인턴은 직전 겨울학기, 여름학기 인턴분들에게만 제공할 계획입니다. 따라서 저희 연구실에 관심있으시면 이번 기회에 꼭 지원해 주시기 바랍니다.

- **자격요건**

엄격한 자격사항은 아니나 CS330 운영체제를 수강한 학생을 선호합니다.

- **지원방법**

(1) 희망 연구주제 (아래 연구 주제 공지) 1순위와 2순위 (2) 성적표 (3) 간단한 CV

[2025 겨울인턴] 태그를 제목에 붙여서 email로 보내주세요. email 주소: yjkwon@casys.kaist.ac.kr

- **연구 주제**

올해는 다음과 같은 9가지 주제로 인턴을 모집합니다.

1. Multi-Model Multi-Agent System 최적화

2. LLM for System Performance Prediction

3. 상태 머신을 활용한 하이퍼바이저 퍼징 연구

4. Confidential VM Cold Boot Acceleration 연구

5. 파일시스템 디자인 연구

6. 에너지 효율적 LLM 추론 시스템 설계·구현

7. AI Agent와 OS 상호작용에 대한 연구

8. Tiered memory system을 통한 메모리 최적화 연구

9. SSD를 활용한 MoE 추론 최적화 연구

- 연구 주제들에 대한 구체적인 설명은 다음과 같습니다.

1. **Multi-Model Multi-Agent System 최적화**

LLM을 기반으로 한 Agent System은 다양한 현실 서비스로 통합되어 있습니다. 하지만, Agent system의 자유도로 인한 복잡성은 효율적인 실행을 어렵게 하며 현재 제안되고 있는 알고리즘들은 이를 간과하는 방향으로 발전되고 있습니다. 본 프로젝트에서는 두 가지 방향으로 시스템 최적화를 진행하고자 합니다. 1. Agent System Simulator: 사용자가 제안한 Agent DAG를 기반으로 System Integration을 진행할 때 중요한 몇 가지 Knob (e.g., Prefix Cache, Parallel Execution)을 정의하고 이를 기반으로 최적의 Knob을 찾는 방식의 시뮬레이터를 제안하고자 합니다. 2. Unified Agent Memory System: 최근 Multi-model에서 KV cache를 Sharing할 수 있는 알고리즘들이 등장하였지만 여전히 1-1 Mapping에서 벗어나지 못했습니다. 이를 확장하여 Multi-model에서 자유롭게 공유 가능한 KV cache를 생성하는 알고리즘을 제안하고자 합니다.

2. **LLM for System Performance Prediction**

System Performance를 예측하기 위한 연구는 이전부터 존재하였지만, 다양한 변수를 고려하여야 하기 때문에 여전히 한계가 있습니다. 최근 LLM의 발전을 활용하여 이를 기반으로 한 Large Regression Model를 통한 System Performance 예측이 주목 받고 있습니다. Input Feature Extraction 없이 직접 Text 데이터를 입력으로 받아 예측할 수 있다는 뛰어난 범용성이 해당 방법론의 장점이라고 볼 수 있습니다. 본 프로젝트에서는 ML Workload, Hardware, Software 등 다양한 요인들을 동시에 고려하여 System Performance (e.g., TTFT, TBT, Throughtput) 등을 예측하고자 합니다. 태스크 정의 및 데이터 수집부터 시작하여 모델 훈련, 추론까지 포함하는 큰 범위의 프로젝트이며 프로젝트 중 선호하는 작업을 선택하실 수 있습니다.

3. **상태 머신을 활용한 하이퍼바이저 퍼징 연구**

시스템 분야의 도메인 지식을 활용하여 기존 소프트웨어 테스팅 기법의 한계를 극복하고 효과적인 시스템 소프트웨어 테스팅을 수행하는 것을 목표로 하는 연구입니다. 보안 측면에서, OS, 하이퍼바이저, 컨테이너와 같은 시스템 소프트웨어에 존재하는 취약점은 일반 소프트웨어에서의 취약점보다 더 심각한 결과를 불러올 수 있습니다. 이를 효과적으로 탐색하기 위하여 최근 많은 연구에서 퍼징 기법을 도입하고 있습니다. 저희 연구실에서는 현재 하이퍼바이저를 타겟으로 한 퍼징 연구를 진행중에 있습니다. 기존 하이퍼바이저 퍼징 연구의 한계를 분석하고, 퍼징 영역 및 탐색 전략을 확장함에 따라 나타나는 문제를 해결하고자 합니다.

4. **Confidential VM Cold Boot Acceleration 연구**

클라우드 환경에서는 하나의 물리 머신이 여러 개의 가상 머신(VM)을 동시에 실행하며, 이를 관리하는 소프트웨어가 하이퍼바이저(Hypervisor)입니다. 이 계층이 공격받거나 오류가 생기면 여러 VM이 동시에 영향을 받는 구조적인 취약점이 발생할 수 있습니다. 이를 해결하기 위해 최근에는 하드웨어 수준에서 VM을 보호하는 Confidential Computing 기술이 등장했으며, Hypervisor가 해킹되더라도 VM 내부 데이터는 안전하게 격리됩니다. 이렇게 보호 기능이 적용된 VM을 Confidential VM이라 합니다. 다만 보안 검증 절차가 추가되어 일반 VM보다 부팅 시간이 길어지는 문제가 있으며, 저희 연구실에서는 이 부팅 과정의 성능 병목을 분석하고 소프트웨어적으로 부팅 속도를 가속하는 방법을 연구하고 있습니다. 현재는 ARM CCA 환경에서 메모리 공유(memory sharing)를 활용해 부팅 시간을 단축하는 방안을 실험 중입니다.

다음과 같은 주제에 관심 있는 학생을 찾습니다:

* 하드웨어 스펙을 읽고 시스템 수준에서 적용해보고 싶은 분

* Virtualization 또는 Confidential Computing 분야에 흥미가 있는 분

* Hypervisor·Firmware·VM 간의 복잡한 상호작용 속에서 성능 최적화를 경험해보고 싶은 분

5. **파일시스템 디자인 연구**

다양한 응용 프로그램이 요구하는 성능과 신뢰성을 시스템 레벨에서 해결하는 연구를 진행하고 있습니다. 단순히 기존 시스템을 사용하는 데 그치지 않고, 데이터베이스(DBMS)의 원자성(Atomicity) 문제, 파일시스템 다중코어 확장성(Scalability) 이슈, 그리고 GPU 파일시스템과 같은 차세대 아키텍처 환경에서의 저장 계층 설계 등, 응용의 요구에 맞춘 새로운 시스템 구조를 직접 설계하고 구현하는 것을 목표로 합니다. 운영체제와 스토리지 내부의 메커니즘을 탐구하며, NVM·PMEM·CXL과 같은 최신 하드웨어를 실험적으로 다루는 등 폭넓은 연구가 이루어지고 있습니다. 시스템 소프트웨어에 관심이 있고, 성능 분석이나 파일시스템 구조를 깊이 이해해보고 싶은 학생들에게 추천합니다. C/C++ 기반의 Linux 환경 실험, QEMU 가상화, 성능 측정 툴을 활용한 경험을 쌓으며, 흥미로운 문제를 연구로 발전시킬 기회를 제공합니다.

6. **에너지 효율적 LLM 추론 시스템 설계·구현**

ChatGPT 등 대규모 언어 모델(LLM)의 확산으로 LLM 서빙 수요가 급증하고 있습니다. 이를 뒷받침하기 위해 고집적·고전력 GPU로 구성된 대규모 데이터센터가 늘고 있으며, 현 추세가 지속되면 2030년대에는 전 세계 전력 사용량의 상당 비중을 AI 데이터센터가 차지할 전망입니다. 앞으로 AI의 병목은 “GPU 개수“가 아니라 “전력“이 될 것입니다. 우리 연구는 SLO(Service-Level Objective)를 만족하면서 전력 사용을 최소화하는 에너지 효율적 LLM 추론 시스템을 설계·구현하는 데 초점을 맞춥니다. 이를 위해 다음을 종합적으로 다룹니다.

- LLM 추론의 특성 파악: 연산 특성이 크게 다른 Prefill(인코딩)과 Decode(토큰 생성)의 특성을 정확히 모델링하고, 요청 배칭 등의 요소가 전력 사용량에 어떤 영향을 끼치는지 파악합니다.

- 하드웨어·서빙 스택 공조: Tensor/Pipeline Parallel 등 모델 병렬화, GPU DVFS(클럭 설정)등 하드웨어 구성의 성능/전력 특성을 모델링하고, 각 LLM연산들과 어떤 시너지를 보이는지 분석합니다.

- SLO-aware 최적화: LLM 요청과 연산의 스케줄링, 모델의 병렬화 구성 및 클럭 설정을 종합하여, SLO를 준수하는 범위 내에서 전력 사용량을 최소화하는 시스템을 구현하는 것이 목표입니다.

최신 LLM 아키텍처, 데이터센터급 GPU의 특성, 그리고 이를 조율하는 시스템·스케줄링·전력 관리 연구에 관심 있는 학생을 찾습니다.

7. **AI Agent와 OS 상호작용에 대한 연구**

1990년대 웹 서버의 등장은 OS·시스템 최적화 연구를 촉발했습니다. 이제는 LLM 기반 AI 에이전트가 새롭게 등장하였고, 이를 위한 OS 및 시스템 최적화 연구를 진행할 차례입니다. 전통적인 워크로드와 달리 이제는 컴파일러·셸·브라우저 같은 프로그램을 사람이 아닌 모델이 호출하고 조합하며 작업을 수행합니다. 실행 주체가 사람에서 에이전트로 바뀌면, 프로그램 실행 패턴과 자원 사용 특성도 달라집니다. 에이전트 워크로드는 도구 호출이 잦고(툴체이닝), I/O가 불규칙하며, 격리·보안이 특히 중요합니다. 기존 OS의 스케줄링, 캐싱, 권한/격리, 모니터링 방식이 이 특성에 맞도록 재설계가 필요할 수 있습니다. 이번 방학 동안에는 다양한 조건에서 에이전트를 실행해보며 에이전트 워크로드의 특성을 시스템 관점에서 특성화하고, 이를 바탕으로 최적화를 구현해볼 것 입니다.

8. **Tiered memory system을 통한 메모리 최적화 연구**

최근 AI, ML 분야가 각광받고 있고 대용량 메모리를 사용하는 워크로드 수요가 증가하고 있습니다. 메모리 용량이 워크로드가 사용하는 메모리보다 적은 경우 리눅스에서는 디스크로 스왑이 발생합니다. 디스크에 접근하는 경우 메모리보다 약 10000배 정도 접근 시간이 느려지며 이로 인해 워크로드의 성능이 저하됩니다. 이러한 문제를 해결하기 위해 제안된 시스템이 tiered memory system 입니다. Tiered memory system은 기존의 DRAM 외에 접근 시간이 느리고 용량이 큰 2nd tier 메모리를 추가로 제공하여 대용량 메모리를 확보하는 구조입니다. 저희는 CXL 메모리를 사용하는 환경에서 hotness tracking 기능을 CHMU로 오프로딩하여 오버헤드를 줄이고 최근 발표된 guest VM에서 PEBS를 사용하는 방식을 이용하여 coldness tracking을 하는 것에 대한 연구를 진행 중입니다. 또한, tiering을 적용하는 것이 현재 시스템의 성능 향상에 기여하고 있는지 모니터링하고 피드백을 주는 기법을 적용하여 다양한 환경에서 tiering이 효과적으로 적용될 수 있도록 하는 연구를 하고 있습니다.

9. **SSD를 활용한 MoE 추론 최적화 연구**

최근 대규모 AI 모델이 폭발적으로 성장하면서 모델 추론 과정의 효율성이 점점 더 중요한 이슈로 떠오르고 있습니다. 특히 Mixture of Experts (MoE) 구조는 활성화되는 전문가의 일부만을 선택적으로 사용하는 방식으로 연산 효율을 높이지만, 그에 따라 비활성화된 전문가의 파라미터를 대용량 메모리에 상주시켜야 하는 새로운 메모리 관리 문제가 발생합니다. DRAM에 모든 전문가의 파라미터를 적재하는 것은 비용 및 용량 측면에서 비효율적이기 때문에, SSD를 보조 메모리 계층으로 활용하는 연구가 주목받고 있습니다. 저희는 MoE 모델의 추론 과정에서 SSD를 활용해 파라미터를 효율적으로 로딩하고, 이에 따른 성능 변화를 정량적으로 분석하는 연구를 진행하고 있습니다. 또한, SSD의 데이터를 DRAM을 거치지 않고 직접 GPU 메모리로 복사하는 기술을 이용해 DRAM보다 접근 시간이 느린 SSD의 한계를 개선하는 연구를 진행하고 있습니다.