NPU 기반 AI 추론 컴퓨팅 자동 병렬화 핵심 기술 연구 (With ETRI)
Ray 기반 가속기 자원 관리 및 멀티프로세싱 기법
XLA/TVM 컴파일러를 활용한 모델 병렬화 및 분산 알고리즘 최적화
DPU 기반 AI 분산 컴퓨팅 소프트웨어 구조 연구 (With ETRI)
DPU 기반 네트워크 오프로딩 기법
ONNX/TensorRT/CUDA Graphs를 활용한 GPU 커널 런칭 최적화 기법
P2P 기반 연합학습 구조 연구 (With NRF)
DHT(Chord/CAN) 기반 구조를 활용한 개인화 연합학습 성능 최적화
NVIDIA MPS 및 Docker 기반 대규모(100개 이상) 노드 환경에서의 연합학습 병렬화 및 자원 효율화 기법
MoE (Mixture of Experts)구조 기반 LLM 모델의 GPU 메모리 최적화 연구
GPU/CPU 캐싱을 활용한 GPU VRAM 효율화 및 LLM 추론 최적화 기법
CXL (Compute eXpress Link) 기반 시스템 SW 연구 (With KISTI)
CXL기반 메모리/스토리지 스택 SW연구
Rack-scale Computing SW 연구