We announce this program in Korean only, and the contents are not translated.

# 인턴


### CASYS 연구실에서 2026년 여름 인턴 학생을 모집합니다.


#### 진행방식


인턴 프로젝트는 박사/석사 학생의 멘토링으로 진행되며 중간중간 교수님과 2주 혹은 3주에 한 번 개인 미팅을 하는 식으로 진행됩니다.


인턴 프로젝트는 저희 대학원생의 연구에서 필요한 내용으로 만들어집니다. 특정 부분에 대한 구현이나 비교 대상이 되는 시스템의 실험 등이 대표적인 예입니다.


여름학기 인턴으로 선발된 학생에게는 여름방학 두 달 동안 매월 50만 원을 지급합니다.


공식 기간은 여름방학 2달입니다. 하지만 시스템 연구의 특성상 방학이 시작하기 전에 저희 연구실에서 개별 연구 방식으로 미리 준비를 하고 방학이 시작되면 본격적으로 시작하는 방식을 권장합니다.


추가로 봄학기, 가을학기 인턴은 직전 겨울학기, 여름학기 인턴분들에게만 제공할 계획입니다. 따라서 저희 연구실에 관심이 있으시면 이번 기회에 꼭 지원해 주시기 바랍니다.


#### 자격요건


엄격한 자격 사항은 아니나 CS330 운영체제를 수강한 학생을 선호합니다.


#### 지원방법


(1) 희망 연구주제 (아래 연구 주제 공지) 1순위와 2순위 (2) 성적표 (3) 간단한 CV


[2026 여름 인턴] 태그를 제목에 붙여서 이메일로 보내주세요. email 주소: yjkwon@casys.kaist.ac.kr


#### 연구 주제


올해는 다음과 같은 8가지 주제로 인턴을 모집합니다.


1. eBPF 기반 메모리 관리 프레임워크 설계 


2. SSD를 활용한 Retrieval-based Speculative Decoding 최적화 연구


3. 상태 머신을 활용한 하이퍼바이저 퍼징 연구


4. Looped Transformer 서빙 시스템 연구


5. Omni-modal LLM Serving 연구


6. GPU-Centric Storage System Research


7. CXL 기반 Software-Defined Memory (SDM) 프레임워크 개발


8. Confidential Computing 환경에서의 성능 및 보안 최적화 연구


#### 연구 주제들에 대한 구체적인 설명은 다음과 같습니다.


**1.  eBPF 기반 메모리 관리 프레임워크 설계**


본 연구는 메모리 관리를 고정된 커널 메커니즘이 아닌 유저가 바꿀수 있는 인터페이스로 재정의하고, 애플리케이션이 직접 메모리 동작을 제어할 수 있도록 하는 시스템을 설계하는 것을 목표로 합니다. 현재 eBPF 기반 메모리 관리 프레임워크(MPDK)를 중심으로, 성능 최적화(예: huge page, zero-copy I/O), 메모리 안전성(예: UAF 방지), 그리고 새로운 시스템 추상화를 동시에 달성하는 방향으로 연구를 진행하고 있습니다.


인턴 연구 주제는 크게 다음과 같은 방향에서 진행될 수 있습니다:

1. **프로그래머블 메모리 관리 최적화**

    - MPDK를 활용한 새로운 메모리 정책 설계 (NUMA-aware allocation, memory migration 등)

    - 실제 워크로드(데이터베이스, 웹 서버 등)에서의 성능 분석 및 최적화

2. **메모리 안전성 및 보안**

    - UAF/OOB 탐지를 위한 커널-유저 협력 구조 설계

    - ESAN과 같은 경량 메모리 안전성 기법 개발 및 평가

3. **컴파일러 및 런타임 연계**

    - LLVM 정보를 활용한 메모리 접근 패턴 분석 및 최적화

    - 프로그램 의미 정보를 기반으로 한 메모리 정책 자동화

4. **자동화 및 AI 기반 시스템 최적화**

    - LLM을 활용한 eBPF 정책 자동 생성 및 검증

    - 안전하고 효율적인 정책 생성을 위한 제한된 DSL 설계


인턴은 단순 구현이 아닌, 문제 정의 → 설계 → 구현 → 평가까지의 전체 연구 과정을 경험하게 되며, 실제 시스템 코드와 성능 실험을 통해 연구 결과를 도출하는 것을 목표로 합니다. 시스템, 운영체제, 보안, 또는 컴파일러에 관심 있는 학생들의 지원을 환영합니다.


**2. SSD를 활용한 Retrieval-based Speculative Decoding 최적화 연구**

최근 대규모 AI 모델이 폭발적으로 성장하면서 모델 추론 과정의 효율성이 점점 더 중요한 이슈로 떠오르고 있습니다. 특히 Decoding은 모델이 이전까지 생성한 토큰들을 기반으로 다음 토큰을 하나씩 순차적으로 생성하는 과정으로, 한 번에 하나의 토큰만 생성할 수 있다는 구조적 한계로 인해 GPU 자원의 활용도가 낮아지는 문제가 있습니다. 이 한계를 극복하기 위해 제안된 Speculative Decoding은 작은 모델 혹은 datastore를 활용하여 여러 개의 후보 token을 미리 생성한 뒤, 이를 한 번의 연산으로 GPU에서 검증하는 방식으로 한 번의 Decoding 과정에서 더 많은 token을 생성할 수 있도록 합니다. 저희는 datastore를 활용하는 retrieval-based speculative decoding에서 SSD를 활용해 datastore의 크기를 확정하고, 이에 적합한 효율적인 데이터 구조를 설계하는 것을 목표로 합니다. 또한, 대규모 datastore 환경에서 품질 높은 후보 token을 효과적으로 선택하는 방법을 함께 연구합니다.


**3. 상태 머신을 활용한 하이퍼바이저 퍼징 연구**

시스템 분야의 도메인 지식을 활용하여 기존 소프트웨어 테스팅 기법의 한계를 극복하고 효과적인 시스템 소프트웨어 테스팅을 수행하는 것을 목표로 하는 연구입니다. 보안 측면에서, OS, 하이퍼바이저, 컨테이너와 같은 시스템 소프트웨어에 존재하는 취약점은 일반 소프트웨어에서의 취약점보다 더 심각한 결과를 불러올 수 있습니다. 이를 효과적으로 탐색하기 위하여 최근 많은 연구에서 퍼징 기법을 도입하고 있습니다. 저희 연구실에서는 현재 하이퍼바이저를 타겟으로 한 퍼징 연구를 진행중에 있습니다. 기존 하이퍼바이저 퍼징 연구의 한계를 분석하고, 퍼징 영역 및 탐색 전략을 확장함에 따라 나타나는 문제를 해결하고자 합니다.


**4. Looped Transformer 서빙 시스템 연구**

최근 Looped Transformer가 차세대 LLM 아키텍처의 한 방향으로 다시 주목받고 있습니다. Looped Transformer는 모델을 단순히 더 깊고 크게 만드는 대신, 같은 중간 블록을 여러 번 반복 실행하여 추가 compute를 사용하는 방식으로, parameter 수를 크게 늘리지 않으면서도 성능을 끌어올릴 수 있다는 점에서 흥미로운 접근입니다. 이러한 looped 구조를 실제 서빙 시스템에서 어떻게 효율적으로 실행할 수 있을지를 연구해 보고자 합니다. 같은 블록을 반복 호출하는 구조는 기존 Transformer serving과는 다른 시스템 최적화 포인트를 가지며, 예를 들어 KV cache 관리, 반복 block 실행 스케줄링, iteration-aware batching, memory locality, prefill/decode 분리 환경에서의 효율적 실행 등 새로운 시스템 문제를 만들어냅니다. 반대로 보면, 이 구조적 특성을 잘 활용하면 추론 효율과 자원 활용 측면에서 새로운 기회를 만들 수도 있습니다.


**5. Omni-modal LLM Serving 연구**

Omni-modal LLM은 text, image, audio, video 등 다양한 modality를 하나의 모델에서 처리하는 방향으로 발전하고 있습니다. 하지만 실제 서비스에서는 input-output modality 조합에 따라 workload 특성이 크게 달라집니다. 예를 들어 text→text, image+text→text, audio→text, text→image는 필요한 compute path, latency requirement, batching/scheduling policy가 모두 다릅니다. 저희는 이러한 차이를 반영해 input-output modality-aware serving system을 설계하는 연구를 진행하려고 합니다. 주요 관심사는 modality별 workload 분석, batching/scheduling/resource allocation, streaming 및 long-context multi-modal inference 최적화, 그리고 실제 serving engine 위에서의 prototype 구현과 평가입니다.


**6. GPU-Centric Storage System Research**

Modern data-intensive workloads, such as long-context LLM inference, large-scale graph analytics, vector search, and recommendation, are increasingly bottlenecked by the storage path rather than by compute. When working sets exceed GPU memory, data must spill to CPU memory or NVMe SSD, and the conventional CPU-mediated I/O path (including GPUDirect Storage) suffers from submission overhead, round-trip latency, and parallelism capped by CPU core count. These costs are especially severe for fine-grained, data-dependent access patterns, where per-request latency dominates end-to-end performance and access locations cannot be predicted in advance.

A recent line of work explores an alternative: letting the GPU directly submit I/O requests to NVMe SSDs, bypassing the CPU control plane entirely. Your task is to port well-known workloads onto this feature to build strong baselines and evaluate the performance in the real world.

This work suits students interested in LLM architectures, GPU programming models, and deep experimentation on real hardware. Participants will gain experience with Linux driver modules, NVMe/PCIe/GDS, CUDA kernel programming, and large-scale systems evaluation.


**7. CXL 기반 Software-Defined Memory (SDM) 프레임워크 개발**

차세대 AI 워크로드(RAG, GNN, 대규모 KV store 등)는 단일 노드의 물리적 메모리 용량을 초월하는 거대 데이터셋과 불규칙·동적인 메모리 접근 패턴을 요구하고 있습니다. CXL(Compute Express Link)은 분산된 이기종 메모리 자원을 하나의 풀(Pool)로 통합하는 하드웨어적 기반을 마련했지만, 이를 효율적으로 활용하려면 데이터의 위치, 이동, 일관성, 재활용을 지능적으로 제어하는 고수준 소프트웨어 계층이 필수적입니다. 본 프로젝트에서는 CXL 기반 이기종 메모리 시스템을 위한 **Software-Defined Memory(SDM) 프레임워크**의 컨트롤 플레인 중추로서 **분산 동시성 가비지 컬렉터**를 개발하고자 합니다. 기존 RDMA 기반 Pooled Disaggregated Memory 시스템(e.g., DRust [OSDI'24])은 공유 객체 접근 시 write serialization으로 인해 확장성이 저하되는 한계가 있는데, 본 프로젝트에서는 CXL.mem의 cache-coherent load/store 특성을 활용하여 이를 극복하고 세 가지 목표를 달성하고자 합니다. 

**(1) Safety:** 분산 reference tracking 및 tracing 기반 자동 회수를 통해 use-after-free를 차단하고 노드 장애 시 객체를 자동 회수합니다. 

**(2) Productivity:** Stop-the-world pause 없는 동시성 GC를 통해 개발자가 복잡한 소유권/수명 관리 부담 없이 공유 객체 모델로 개발할 수 있는 추상화를 제공합니다. 

**(3) Efficiency**: Atlas [OSDI'24]의 hot/cold 분류와 Mako [PLDI'22]의 Heap Indirection Table(HIT) 기반 객체 재배치를 Pooled DM 환경으로 확장한 하이브리드 Defragmentation 전략으로 외부 단편화를 해소하고 global heap utilization을 향상시킵니다. 


본 연구는 CXL 시대의 대규모 분산 메모리 환경에서 안전성, 생산성, 효율성을 모두 갖춘 새로운 메모리 관리 패러다임을 제시하는 것을 목표로 합니다.

#### 8. Confidential Computing 환경에서의 성능 및 보안 최적화 연구

현대 클라우드 인프라는 소프트웨어 스택의 규모와 복잡성이 커짐에 따라 구조적인 보안 및 신뢰성 문제에 직면해 있습니다. 기존 가상 머신(VM) 환경에서는 악의적으로 변조된 클라우드 스택에 의해 사용자의 기밀 정보가 유출되거나 훼손될 위험이 존재합니다. 이를 원천적으로 차단하기 위해, 주요 클라우드 제공자들은 하드웨어 수준의 격리를 통해 VM을 클라우드 인프라로부터 안전하게 분리하는 Confidential Computing 기술을 적극 도입하고 있습니다.

Confidential VM은 클라우드 제공자로부터 완전히 분리된 신뢰 실행 공간에서 워크로드를 처리하며, 이를 위해 다양한 시스템 컴포넌트들이 새로운 API를 기반으로 제한적이고 안전하게 상호작용합니다. 저희 연구실은 이러한 복잡한 아키텍처 내에서 발생할 수 있는 성능 병목 현상과 새로운 보안 문제를 식별하고, 이를 해결하기 위한 구조적 방안을 탐색합니다.

현재는 서버리스(Serverless) 환경에서의 Confidential VM 부팅 최적화 연구에 집중하고 있습니다. 특히, VM의 무결성 보장을 위한 추가적인 검증 오버헤드가 서버리스의 핵심 요구사항인 Fast Instantiation과 상충한다는 점에 주목했습니다. 이에 따라 강력한 보안 수준을 타협하지 않으면서도 부팅 지연을 최소화할 수 있는 시스템 차원의 가속화 방안을 설계하고 있습니다.