2026
[2026.03.03] ย "Function Approximation in Reinforcement Learning " ย by ํ์ํย
์์ฝ: ๋ณธ ์ธ๋ฏธ๋๋ ๋๊ท๋ชจ ์ํ ๊ณต๊ฐ์์ ๊ฐํํ์ต์ ๊ตฌํํ๊ธฐ ์ํ ํจ์ ๊ทผ์ฌ(Function Approximation)์ ์๋ฆฌ์ ์์ ์ฑ ๋ฌธ์ , ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ํด๊ฒฐํ๋ ์ด๋ก ์ ์ ๊ทผ์ ๋ค๋ฃฌ๋ค. ํนํ, ํจ์ ๊ทผ์ฌ์ Bootstrapping๊ณผ Off-Policy Learning์ด ๊ฒฐํฉ๋ ๋ ๋ฐ์ํ๋ Deadly Triad ๋ฌธ์ ๋ฅผ ๋ถ์ํ๊ณ , ์ด๋ฅผ ์ํํ๊ธฐ ์ํด Projection์ ๋์ ํ์ฌ ์๋ ด์ฑ์ ์ด๋ก ์ ์ผ๋ก ๋ณด์ฅํ๋ Gradient TD ๊ธฐ๋ฒ์ ์ดํด๋ณธ๋ค. ์ด์ด Bias-Variance Trade-Off๋ฅผ ์กฐ์ ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ ์ค ํ๋์ธ ฮป-Return์ ์๊ฐํ๊ณ , ์ด๋ฅผ Online ํ๊ฒฝ์์ ๊ตฌํํ ์ ์๋๋ก ํ๋ Eligibility Trace ๊ธฐ๋ฐ Backward View ๋ฉ์ปค๋์ฆ์ ์ค๋ช ํ๋ค. ์ด๋ ๋ฏธ๋ ์ ๋ณด๋ฅผ ์ง์ ๊ธฐ๋ค๋ฆฌ์ง ์์ผ๋ฉด์๋ ๋์ผํ ํ์ต ํจ๊ณผ๋ฅผ ์ฌํํ๋ ๊ตฌ์กฐ์ ์ ํ์ ๋ณด์ฌ์ค๋ค. ๋ง์ง๋ง์ผ๋ก ๊ฐ์น ์ถ์ ์ ํตํด ์ ์ฑ ์ ๊ฐ์ ์ ์ผ๋ก ๊ฐ์ ํ๋ Value-Based ๋ฐฉ์์์ ๋ฒ์ด๋, ์ ์ฑ ์ ์ง์ ์ต์ ํํ๋ Policy-Based ๋ฐฉ์์ ์ด์ ์ ์ ๋ฆฌํ๋ค. ์์ธ๋ฌ ๊ณ ๋ถ์ฐ ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด ๊ฐ์น ํจ์๋ฅผ ๊ธฐ์ค์ (Baseline)์ผ๋ก ์ค์ ํ์ฌ ์ ์ฑ Update๋ฅผ ์์ ํํ๋ Actor-Critic ๊ตฌ์กฐ์ ํจ์จ์ฑ์ ์กฐ๋งํ๋ฉฐ ๋ง๋ฌด๋ฆฌํ๋ค. ย
[2026.02.23] ย "MRFP: Learning Generalizable Semantic Segmentation from Sim-2-Real with Multi-Resolution Feature Perturbation " ย by ๊ณ ์์ฑ
์์ฝ: ํด๋น ์ธ๋ฏธ๋๋ semantic segmentation์์ synthetic source domain์ผ๋ก ํ์ตํ ๋ชจ๋ธ์ด domain gap์ผ๋ก ์ธํด real target domain์ ์ ์ผ๋ฐํ๋์ง ์๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ค์ Multi-Resolution Feature Perturbation(MRFP)๋ผ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์์ผ๋ฉฐ, ์ด๋ ๋คํธ์ํฌ์ feature ๊ณต๊ฐ์์ coarse feature์ style ์ ๋ณด์ fine-grained feature๋ฅผ ์๋์ ์ผ๋ก perturbationํ์ฌ domain-specific ํน์ฑ์ ๋ํ ์์กด์ ์ค์ด๊ณ domain-invariant feature๋ฅผ ํ์ตํ๋๋ก ์ ๋ํ๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ค์ํ segmentation ๋ฐ์ดํฐ์ ์์ synthetic-to-real generalization ์ฑ๋ฅ์ด ํฅ์๋์์ผ๋ฉฐ, MRFP๋ ์ถ๊ฐ์ ์ธ ํ์ต ํ๋ผ๋ฏธํฐ๋ ๋ณ๋์ loss ์์ด ๋ค๋ฅธ ๋คํธ์ํฌ์์๋ ๊ฐ๋จํ ์ ์ฉํ ์ ์๋ ํจ์จ์ ์ธ ๋ชจ๋์์ ๋ณด์ฌ์ค๋ค.
[2026.02.02] ย "PDE-Refiner: Achieving Accurate Long Rollouts with Neural PDE Solvers" ย by ์ด์งํ
์์ฝ: ๋ณธ ์ธ๋ฏธ๋๋ ๊ธฐ์กด surrogate model์ด autoregressive ๋ฐฉ์์ผ๋ก ๋์ํ๋ ๊ณผ์ ์์ ์ค์ฐจ๊ฐ ๋์ ๋์ด ์ฅ๊ธฐ ์์ธก ์ฑ๋ฅ์ด ์ ํ๋๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ PDE-Refiner๋ฅผ ์๊ฐํ๋ค. PDE ๋ชจ๋ธ๋ง ๋ฌธ์ ๋ ๊ณ์ฐ ๋น์ฉ์ด ๋งค์ฐ ํฌ๊ธฐ ๋๋ฌธ์, ๋ฅ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ surrogate model์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์งํ๋๊ณ ์๋ค. ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ PDE ํด๋ฒ์ด ์ค์ ๋ก ์ ์ฉํ๋ ค๋ฉด, ์ฅ์๊ฐ ์์ธก ๊ตฌ๊ฐ์์๋ ์ ํํ๊ณ ์์ ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ ์ ์์ด์ผ ํ๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ฅ๊ธฐ ์์ธก ์ฑ๋ฅ์ด ์ ํ๋๋ ์์ธ์ผ๋ก, ์ ๊ฒฝ๋ง ์๋ฒ๊ฐ ์งํญ์ด ์์ ๋น์ง๋ฐฐ์ ์ฃผํ์ ์ฑ๋ถ์ ์ถฉ๋ถํ ํ์ตํ์ง ๋ชปํ๋ ํ์์ ์ง์ ํ๋ค. ๋ํ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ ์ฒด ์ฃผํ์ ์คํํธ๋ผ์ ๋ํด ์ ํํ ์์ธก์ ์ป๋ ๊ฒ์ ๋ชฉํ๋ก ๋ฐ๋ณต์ ์ธ refinement ๊ณผ์ ์ ์ฌ์ฉํ๋ ์๋ก์ด ๋ชจ๋ธ ๊ณ์ด์ธ PDE-Refiner๋ฅผ ์ ์ํ๋ค. PDE-Refiner์ refinement ๋จ๊ณ๋ diffusion model์ denoising ์์ด๋์ด๋ฅผ ํ์ฉํ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋นํด ๋กค์์ ์ ํ๋๊ฐ ํฌ๊ฒ ํฅ์๋์์์ ๋ณด์ธ๋ค.ย
[2026.01.26] ย "Introduction to Reinforcement Learning" ย by ํ์ํ
์์ฝ: ๋ณธ ์ธ๋ฏธ๋๋ ๊ฐํํ์ต์ ๋ชฉ์ ๊ณผ ์ฃผ์ ๊ฐ๋ ์ ์ ๋ฆฌํ๊ณ , ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ๋ค์ ์๋ ์๋ฆฌ๋ฅผ ๋ค๋ฃฌ๋ค. ๊ฐํํ์ต์ ์ด๋ก ์ ๊ทผ๊ฐ์ธ Bellman Equation์ ๋ฐํ์ผ๋ก ํ๊ฒฝ ๋ชจ๋ธ์ ์ ๋ฌด, Update ์์ /๋ฐฉ์์ ๋ฐ๋ฅธ DP, MC, TD์ ์ฐจ์ด๋ฅผ ๋น๊ตํ๋ค. ์ด์ด Target Policy์ Behavior Policy์ ์ผ์น ์ฌ๋ถ์ ๋ฐ๋ผ ๊ตฌ๋ถ๋๋ On-Policy์ Off-Policy์ ํ์ต ์ ๋ต์ ๋ถ์ํ๋ค. ๋ํ, ์๋ก ๋ค๋ฅธ ๊ฐ์น ์ถ์ ๊ธฐ๋ฒ์ ํ๋์ ํ๋ก ํตํฉํ๋ n-Step Bootstrapping์ ๊ธฐ๋ณธ ์๋ฆฌ๋ฅผ ์ดํด๋ณธ๋ค. ๋์๊ฐ Model-Based RL๊น์ง ๋ฒ์๋ฅผ ํ์ฅํ์ฌ, ๋ํ์ ์ ๊ทผ์ธ World Model๊ณผ Model-Free ๋ฐ Model-Based์ ํน์ฑ์ ํจ๊ป ๋ฐ์ํ I2A(Imagination-Augmented Agents)๋ฅผ ํ๊ตฌํ๋ค. ์ด๋ฅผ ํตํด ๊ฐํํ์ต์ ๋ฐ์ ๊ณผ ํ์ฅ์ ๋ํ ํ๋ฆ์ ์กฐ๋งํ๋ค. ์ด์ฒ๋ผ ๋ณธ ์ธ๋ฏธ๋๋ ๊ฐํํ์ต์ ํต์ฌ ๋ฉ์ปค๋์ฆ ์ ๋ฐ์ ๊ฐ๋ ์ ํ๋ฆ ์์์ ์๊ฐํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํ๋ค.ย
[2026.01.26] ย "Dreamer v1 Deep-Dive" ย by ๊น๋ฏผ์ฌ
์์ฝ: World Model์ 2018๋ , David Ha์ ์ํด์ ์ ์๋ Model-Based Reinforcement Learning์ ๋ํ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ด๋ค. World Model์ ํ๊ฒฝ์ ๋์ญํ์ ํ์ตํ์ฌ, ๊ณ์ฐ๋์ด ๋์ ์ปดํจํ ์๋ฎฌ๋ ์ด์ ์ด๋, ์ค์ ํ๊ฒฝ์ ์ง์ ์คํํ์ง ์๊ณ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ , ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ฒ ์ธ๋ฏธ๋์์๋ World Model์ ์ด์ฉํด ์ต์ด๋ก ์์ฐ ๋ฐ์ดํฐ ์์ด ๋ง์ธํฌ๋ํํธ ํ๊ฒฝ ๋ค์ด์๋ชฌ๋ ํ๋ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ Dreamer v3 ์๊ณ ๋ฆฌ์ฆ์ ์ํ, Dreamer v1์ ๊ตฌ์กฐ๋ฅผ ํํค์น๋ค. ์ด๋ฅผ ์ํด, World Models โ PlaNet โ Dreamer v1์ผ๋ก์ ๋ฐ์ ๊ณผ์ ์ V-M-C ๊ตฌ์กฐ์ ๊ตฌํ๊ณผ ๋ณํ์ ์ดํดํ๊ณ , ํ์ต-์ถ๋ก ๋ฐฉ์์ ๋ํด ํ๊ตฌํ๋ค.ย
[2026.01.19] ย "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor" ย by ์ด์ฐฝ์ฃผ
์์ฝ: maximum entropy๋ฅผ objective function์ ๋ฃ์ด Actor-Critic์ ๊ตฌํํ ๋ ผ๋ฌธ์ ๋ํด์ ์๊ฐํ๋ค. entropy๋ฅผ ํตํ์ฌ, ํ์์ ์ฅ๋ คํด ๋ณต์กํ task์์ ํ์ต์ ์์ ์ฑ ๋ฐ ์๋๋ฅผ ๋์ธ๋ค. ๊ทธ๋ฆฌ๊ณ double Q-function ๋ฐ Exponential Moving Average(soft update) ๋ฐฉ์์ ํ์ฉํ ๋ณ๋์ Target Network ์ ๋ฐ์ดํธ์ ๊ฐ์ ํ์ต ์์ ํ ์ฅ์น๋ฅผ ํ์ฉํด ํ์ต์ ์์ ์ฑ์ ๋์ฑ ๋์๋ค. ์ด ๋๋ถ์ ํ์ฌ๊น์ง๋, continuous action space์์ ๋ณดํธ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์๋ฆฌ ์ก์๋ค.ย
[2026.01.12] ย "Denoising Diffusion Probabilistic Models" ย by ์ตํธ์ง
์์ฝ: Diffusion Model์ ๊ธฐ๋ณธ ๊ฐ๋ ๋ถํฐ ์์ํ์ฌ ์ต๊ทผ์ ์ฌ์ฉ๋๋ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ Diffusion Model์ ๊ธฐ๋ณธ์ด ๋๋ ๋ ผ๋ฌธ์ ๋ํด์ ์๊ฐํ๋ค. Diffusion Model์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๊ณ ๋ ธ์ด์ฆ๋ฅผ ์กฐ๊ธ์กฐ๊ธ์ฉ ์ ๊ฑฐํด๋๊ฐ๋ฉด์ ์๋ณธ ์ด๋ฏธ์ง ํน์ ๋ฐ์ดํฐ ํจํด์ ์์ฑํ๊ธฐ ์ํด์ ์ด๋ป๊ฒ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๋์ง์ ๋ํด์ ์์๋ณด๊ณ Loss function์ ๊ตฌ์กฐ ๋ฐ ์๋ฏธ๋ฅผ ์์๋ณธ๋ค. Diffusion Model์ Loss function์ผ๋ก๋ถํฐ DDPM์ผ๋ก ๋์ด์ค๋ฉด์ Loss function์ด ์ด๋ป๊ฒ ๋ณํ๋์์ด ์ ์ฉ๋์๋์ง๊น์ง ์๊ฐํ๋ค. ๋ง์ง๋ง์ผ๋ก Diffusion Model์ ํ์ฉ ๋ฐฉ์์ ๋ํด์ ์์๋ณด๊ณ ์ฐ๊ตฌ ํธ๋ ๋๊ฐ ์ด๋ป๊ฒ ๋๋์ง๊น์ง ์์๋ณด์๋ค.ย
2025
[2025.10.20] ย "DayDreamer: World Model for Physical Robot Learning" ย by ์ด์ฐฝ์ฃผ
์์ฝ: "Dreamer" ๋ชจ๋ธ์ ์นด๋ฉ๋ผ์ ์ผ์๋ฅผ ํ์ฉํด ์ธ์์ ์ดํดํ๋ ๋ฐ ํ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค. ๊ทธ๋ฌ๋ ๊ทธ ์ฑ๊ณผ๋ ๋๋ถ๋ถ ๋น๋์ค ๊ฒ์๊ณผ ๊ฐ์ ๊ฐ์ ํ๊ฒฝ์์๋ง ๊ฒ์ฆ๋์ด์๋ค. ๋ณธ ์ธ๋ฏธ๋์ ๋ ผ๋ฌธ์์๋ "Dreamer" ๋ชจ๋ธ์ ์ค์ ๋ก๋ด๊ณผ ํ์ค ํ๊ฒฝ์์ ํ ์คํธํ์ฌ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ณ ์ ํ์๋ค. ์คํ์์๋ ๋ก๋ด์ ํต์ฌ ๋์์ธ "์ด๋", "๋ฌผ์ฒด ์กฐ์", "๊ธธ ์ฐพ๊ธฐ"๋ฅผ ์ํํ๋ฉฐ ๊ธฐ์กด์ ์ต์ ๊ธฐ์ ๋ค๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, 1์๊ฐ ๋ง์ ์๋ฎฌ๋ ์ด์ ์์ด 4์กฑ ๋ณดํ์ ํ์ตํ๋ ๋ฑ, Dreamer ๋ชจ๋ธ์ด ์ค์ ํ๊ฒฝ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํจ์ ํ์ธํ ์ ์์๋ค.ย
[2025.09.29] ย "Bayesian Optimization of Risk Measures" ย by ๊น์ ํธ
์์ฝ: ๋ฒ ์ด์ง์ ์ต์ ํ๋ ๋ธ๋๋ฐ์ค ํจ์์์ ๋น๊ต์ ๋ฎ์ ๋น์ฉ์ผ๋ก ์ต์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ๋๋ฆฌ ํ์ฉ๋๊ณ ์๋ค. ๊ทธ๋ฌ๋ ํ๊ฒฝ ๋ถํ์ค์ฑ์ด ์กด์ฌํ ๋ ๊ธฐ์กด BO๋ E[F(x,W)] (a.k.a ํ๊ท ์น)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํด ์ต์ ํ๊ฐ ์ด๋ค์ง๋ฉฐ, ์ด๋ ๊ผฌ๋ฆฌ ์ํ์ ๋์น๊ฒ ๋ผ High-stakesํ task์๋ ๋ถ์ ์ ํ ์ ์๋ค. ์ด๋ฒ์ ์๊ฐํ๋ Bayesian Optimization of Risk Measures๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๊ณ ๋ คํด, ๊ผฌ๋ฆฌ ์ํ์ ๋ํ๋ด๋ ์ํ์งํ ฯ(VaR, CVaR)๋ฅผ ์ต์ ํ ๋์ ๋ชฉ์ ์ผ๋ก ํ์ฌ, ์ต์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋์ถํ๋ค. ์ด๋ฅผ ์ํด GP๋ชจ๋ธ ์ค์ , ํ๋ ํจ์ ์๊ณ ๋ฆฌ์ฆ, ๋ฐ๋๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ธํด ์ฆ๊ฐํ๋ ๊ณ์ฐ ๋น์ฉ ์ ๊ฐ ๋ฑ์ ์ํํ๋ฉฐ, ์ด๋ฅผ ์์์ ์ผ๋ก ํ์ด๋ธ๋ค. ์คํ ๊ฒฐ๊ณผ ์ฌ๋ฌ ๋ฒค์น ๋งํฌ์์ ๋์ผ ์ฑ๋ฅ ๋๋ฌ๊น์ง ํ๊ฐ ํ์๊ฐ ๋ํญ ๊ฐ์ํจ์ ๋ณด์ธ๋ค.ย
[2025.09.29] ย "Mamba Linear-Time Sequence Modeling with Selective State Spaces" ย by ์ด์งํ
์์ฝ: ๋ณธ ์ธ๋ฏธ๋์์๋ ์ํ์ค ๋ชจ๋ธ์์ ๊ณ์ฐ๋๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ ๋ณ๋ชฉ์ ์ค์ด๊ธฐ ์ํ ๋์์ผ๋ก ์ ์๋, SSM ๊ณ์ด์ HiPPO, S4 ๋ฐ Mamba๋ฅผ ์๊ฐํ์๋ค. S4๋ ๊ธด ์ํ์ค์์ ํจ์จ์ ์ธ ๊ณ์ฐ์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์์ผ๋, LTI(Linear Time Invariant) ๋ชจ๋ธ์ ๊ฐ์ ํ๋ค๋ ํ๊ณ๊ฐ ์กด์ฌํ๋ค. ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด Selective SSM์ธ Mamba๊ฐ ๋ฑ์ฅํ์๋ค. Mamba๋ ์ ๋ ฅ์ ๋ฐ๋ผ ์ ๋ณด๋ฅผ ์ ์ฅํ๊ฑฐ๋ ๋ฌด์ํ๋ ๋น์จ์ ๋์ ์ผ๋ก ์กฐ์ ํ ์ ์๋ selection mechanism์ ๋์ ํ์ฌ SSM์ ์ฃผ์ ๊ณ์๋ค์ ์ ๋ ฅ์ ๋ฐ๋ฅธ ํจ์๋ก ํ์ตํจ์ผ๋ก์จ ๋ ์ ์ฐํ ์ํ์ค ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ฉฐ ๊ณ์ฐ ํจ์จ์ฑ ๋ฐ ์ฑ๋ฅ์ ๋ชจ๋ ๋ฌ์ฑํ ๋ชจ๋ธ์ด๋ค.
[2025.09.22] ย "Sim2Real-Fire: A Multi-modal Simulation Dataset for Forecast and Backtracking of Real-world Forest Fire" ย by ๊ณ ์์ฑ
์์ฝ: ๋ณธ ์ธ๋ฏธ๋ ๋ ผ๋ฌธ์ ํ์ฌ์ ํ์ฐ, ๊ทธ๋ฆฌ๊ณ ์ญ์ถ์ ์ ๋ํ task๋ฅผ ์๋ฎฌ๋ ์ดํฐ ๊ด์ ์์ ํด๊ฒฐ์ ์ ์ํ๋ค. ๋ค์ํ ์๊ฐ์ , ๊ณต๊ฐ์ ์ ๋ณด๋ฅผ ํฌํจ์ํจ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ ์ ์ ์ ๊ณตํด์ฃผ๊ณ ํฌ๋ก์ค ์ดํ ์ ๊ตฌ์กฐ๋ก ์ค๊ณ๋ ๋ชจ๋ธ์ ํตํด ์ ๋ ฅ ๋ฐ์ดํฐ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ์ ํ์ตํ ๋ชจ๋ธ์ ์ ์ํ๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๋ค์ํ ์๋ฎฌ๋ ์ดํฐ ๋ฐ์ดํฐ๋ฅผ ํฌํจ์ํจ ๋ฐ์ดํฐ์ ์ดํ ์ ๊ตฌ์กฐ์ ๋ชจ๋ธ ์ค๊ณ๋ก ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ง์ผ๋ก sim2real gap์ ์๋นํ ์ค์ธ๊ฒ์ผ๋ก ํฐ ์๋ฏธ๊ฐ ์๋คย
[2025.09.15] ย "Facing Off World Model Backbones: RNNs, Transformers, and S4ย " ย by ๊น๋ฏผ์ฌ
์์ฝ: ์ง๋ ๋ช ๋ ๊ฐ Transformers๋ฅผ ๋์ฒดํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ SSM(State Space Model) ๊ธฐ๋ฐ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ด ๋ฑ์ฅํ๊ณ ์๋ค. ๊ทธ ์ค Structured State Space Sequence Model(S4)๋ Transformer๋ฅผ ๋น๋กฏํ ๊ธฐ์กด์ ๋ชจ๋ ์๊ณ์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์๊ณ ๋ฆฌ์ฆ์ด ํด๊ฒฐํ์ง ๋ชปํ Path-X task๋ฅผ ํด๊ฒฐํ ์ต์ด์ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ๋ณธ ์ธ๋ฏธ๋์์ ์๊ฐํ๊ณ ์ ํ๋ ๋ ผ๋ฌธ์ ์ ์๋ ์ ๊ฒฝ๋ง์ ํตํด ์ค์ ํ๊ฒฝ๊ณผ ์ํธ์์ฉ์ ์ํํ์ง ์๊ณ โ๊ฐ์์ ํ๊ฒฝ(Imagination)โ ์์์ ์ํธ์์ฉ์ ํตํด ๋ณด๋ค ์ฃผ์ด์ง ์ํ์ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๋ World Model์์ S4์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ณ ์ ํ๋ค. ๊ฐ๊ฐ ๋ชจ๋ธ์ Backbone์ด RNN, Transformer, S4์ธ ๊ฒฝ์ฐ์ ๋ํด์ Imagination ์ World Model์ ์ฑ๋ฅ์ ๋น๊ตํ๋ค. ๊ธด ์๊ณ์ด์ ๋ฉ๋ชจ๋ฆฌ ์ฑ๋ฅ์ ์๊ตฌํ๋ ์ฌ๋ฌ tasks๋ฅผ ์ฌ์ฉํด ๊ฐ๊ฐ์ backbone์ Imagination ์ ์ค์ ํ๊ฒฝ์ ๋ชจ์ฌ ์ ํ๋๋ฅผ ์ธก์ ํ๋ค.ย
[2025.08.11] ย "Sim2Real and Domain Randomization " ย by ๊น์์
์์ฝ: ์๋ฎฌ๋ ์ดํฐ์ ํ์ค ๊ฐ ๋ถํฌ ๋ถ์ผ์น(Sim2Real Gap)๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์ ์๋ ๊ธฐ๋ฒ ์ค Domain Randomization(DR)์ ๋ํ ๋ฌธ์ ์ ์์ ๋ฐฐ๊ฒฝ์ ์๊ฐํ์๋ค. DR์ ๋ฌผ๋ฆฌ, ์ผ์, ํ๊ฒฝ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฌด์์๋ก ๋ณํ์์ผ ๋ค์ํ ์ํฉ์ ๊ฐ๊ฑดํ ์ ์ฑ ์ ํ์ตํ๋ฉฐ ์ค์ ํ๊ฒฝ์ randomized ํ๊ฒฝ์ผ๋ก ๊ฐ์ฃผํจ์ผ๋ก์จ zero-shot transfer๋ฅผ ๋ฌ์ฑํ ์ ์๋ค. ํ์ง๋ง ํ์ต ๋์ด๋์ ์ฐ์ฐ ๋น์ฉ ์ฆ๊ฐ, ๋ถํฌ ์ค๊ณ์ ๊ฒฝํ ์์กด์ฑ ๋ฑ์ ํ์์ ๋จ์ ์ ๊ฐ์ง๋ฉฐ, ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด ํ๋ผ๋ฏธํฐ ๋ถํฌ๋ฅผ ์กฐ์ ํ๋ Guided Domain Randomization(GDR)์ ๋ํด ์ดํด๋ณด์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ์ค์ ์ฑ๋ฅ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ์ต์ ํ(bi-level optimization, RL/BO), ๋ฉํํ์ต ๊ธฐ๋ฐ ์ ์, ์ค์ ๋ฐ์ดํฐ ์ ํฉ(SimOpt, RCAN), ์๋ฎฌ๋ ์ดํฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ฐ์ด๋(DeceptionNet, ADR) ๋ฑ ๋ค์ํ ๋ณํ ๊ธฐ๋ฒ๋ค์ ์๊ฐํ์๋ค.ย ย
[2025.08.01] ย "์ฉ์ ์ ํ๋ก์ ํธ: ์ ๊ฒ์ถ" ย by ๊น์ ํธ
์์ฝ: ๋น์ ํ ์ฉ์ ํ๊ฒฝ์์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด YOLO ๊ธฐ๋ฐ ROI ์ถ์ถ๊ณผ ์์ ๋ณด์ ์ ๊ฑฐ์ณ ์์ ์ ์ธ ์ ๋ ฅ์ ํ๋ณดํ๊ณ , ์ฌ๋ฌ ์ ๊ฒ์ถ ์๊ณ ๋ฆฌ์ฆ๊ณผ ๊ฐ์ค์น ๊ธฐ๋ฐ RANSAC์ ํ์ฉํด ์ฉ์ ์ ์ ๋ฐฉํฅ์ ์ถ์ ํ์๋ค. ์ด์ด์ ROI ์ค์ฌยท๊ธฐ์ธ๊ธฐ ์กฐ๊ฑด ๋ฐ ๋ถ์ฌ ํ์๋ณ ๊ท์น์ ์ ์ฉํด Outlier๋ฅผ ์ ๊ฑฐํ๊ณ ๋์ ์ ๊ฒฐ์ ํจ์ผ๋ก์จ, ๋ค์ํ ๋ถ์ฌ ์กฐํฉ ๋ฐ ํ๊ฒฝ์ ์ ์ฐํ๊ฒ ๋์ํ ์ ์๋ ์ฉ์ ์ ๊ฒ์ถ ๊ธฐ๋ฒ์ ์ ์ํ๋ค.ย ย
[2025.07.25] ย "CDA ์์คํ ๋ฉํํด๋ฆฌ์คํฑ ๊ธฐ๋ฐ ์ต์ ์กฐํฉ ๋์ถ ๊ธฐ๋ฒ ์๊ฐ" ย by ์ตํธ์ง
์์ฝ: ๋ฉํํด๋ฆฌ์คํฑ ๊ธฐ๋ฐ CDA ์์คํ ์๋ชจ์ ๋ ฅ ์ต์ํ ๊ณผ์ ๋ฅผ ๊ฐ๋ตํ ์๊ฐํ๊ณ , ์์ถ๊ธฐ ๋ชจ๋ธ๋ง ๋ฐ AI ๊ธฐ๋ฐ ์ต์ํ๋ฅผ ์ํ ํ์ ์ฐ๊ตฌ๋ฅผ ๋ฐฉํฅ์ ์๊ฐํ์๋ค. ๋ฉํํด๋ฆฌ์คํฑ ๊ธฐ๋ฐ ์ต์ ์กฐํฉ ๋์ถ ๊ธฐ๋ฒ์ ๋ชฉํ ์ ๋์ ๋ง์กฑ์ํค๊ธฐ ์ํด ๊ฐ ์์ถ๊ธฐ์ ์ ๋ ์กฐํฉ์ SA๋ฅผ ๊ธฐ๋ฐ ํ์ํ๋ค. ์จ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด๊ธฐ์๋ ๊ด๋ฒ์ํ๊ฒ ์กฐํฉ์ ํ์ํ๋ค๊ฐ ์จ๋๊ฐ ์ ์ฐจ ๊ฐ์ํจ์ ๋ฐ๋ผ ํ์ ๋ฒ์๋ฅผ ์ค์ฌ ์ค์ต์ ์กฐํฉ์ ํ์ํด๋๊ฐ๋ค. ๋์๊ฐ branch ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ํ์ ์๋ ๋ฐ ์ฑ๋ฅ์ ๋์์ผ๋ฉฐ, ๊ฒฐ๊ณผ๋ฅผ ๊ณต์ ํ๊ณ ์ด์ ๋ํ ๋ ผ์๋ฅผ ์งํํ์๋ค.ย
[2025.07.18] ย "Neural Netwok๊ธฐ๋ฐ MRAC, DSM(Deep Surrogate Model) ์ฐ๊ตฌ ์๊ฐ" ย by ์ด์งํ
์์ฝ: Neural-Network ๊ธฐ๋ฐ MRAC ๊ณผ์ ์ ๋ฐฐ๊ฒฝ๊ณผ ์ฑ๊ณผ๋ฅผ ๊ฐ๋ตํ ์๊ฐํ๊ณ , ํ์ ์ฐ๊ตฌ์ธ DSM(Deep Surrogate Model)์ ์งํ ํํฉ์ ๋ฐํํ์๋ค. DSM์ ๋ณต์กํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์ ๋์ ํน์ฑ์ ์ ๊ฒฝ๋ง์ผ๋ก ๋ชจ์ฌํ์ฌ ์๋ฎฌ๋ ์ด์ ์๊ฐ์ ๋ํญ ๋จ์ถํ๊ณ , ๊ฐ๋ฐ ํจ์จ์ ํฅ์์ํค๋ ๊ธฐ๋ฒ์ด๋ค. DSM ์ถ๋ก ์, auto-regressive ๋ฐฉ์์ ์ฌ์ฉํ ๊ฒฝ์ฐ ์ด์ ๋จ๊ณ์์ ๋ฐ์ํ ์ถ๋ ฅ ์ค์ฐจ๊ฐ ๋ค์ ๋จ๊ณ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฌ์ฉ๋๋ฉด์, ์ค์ฐจ๊ฐ ์ฆํญ๋๋ exposureย bias ํ์์ด ๋ฐ์ํ๋ค. ๋ณธ ์ธ๋ฏธ๋์์๋ ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด Scheduled Sampling, Multi-step loss ๋ฑ์ ๊ธฐ๋ฒ์ ์ ์ฉํ๋ ๋ค์ํ ๋ฐฉ์์ ๋ํด ๋ ผ์ํ์๋ค.ย
[2025.07.14] ย "Bayesian Optimization" ย by ๊น์์
์์ฝ: ๋ธ๋๋ฐ์ค ํจ์ ์ต์ ํ๋ฅผ ์ํํ๋ Bayesian Optimization(BO) ๊ธฐ๋ฒ์ KCC ํํ ๋ฆฌ์ผ ์๋ฃ๋ฅผ ํ ๋๋ก ๊ฐ๋ตํ ์๊ฐํ์๋ค. BO๋ ๋ธ๋๋ฐ์ค ํจ์๋ฅผ ๊ทผ์ฌํ๋ ๋์ฒด๋ชจ๋ธ๊ณผ, ๊ทธ ๋ชจ๋ธ์ ์์ธก๊ฐ/๋ถํ์ค์ฑ์ ํ ๋๋ก ๋ค์ ํ์ ์์น๋ฅผ ๊ฒฐ์ ํ๋ ํ๋ํจ์๋ก ๊ตฌ์ฑ๋๋ค. ๋์ฒด๋ชจ๋ธ์ ์ฃผ๋ก ๋ค๋ณ๋ ์ ๊ท๋ถํฌ๋ฅผ ๋ํ๋ด๋ Gaussian Process์ ๊ณต๋ถ์ฐ ํจ์๋ฅผ ๋ ์ ๋ ฅ๊ฐ ์ฌ์ด์ ์ ์ฌ๋๋ฅผ ๋ํ๋ด๋ ์ปค๋๋ก ์ฌ์ฉํ๋ค. (์ ๋ ฅ ๊ฐ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ์๋ก ๋ถํ์ค์ฑ์ด ์ปค์ง๋ ๊ฒ์ ํํ) ๋ํ, High-dimensional BO ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ฐ์ฐ๋ชจ๋ธ(์ฐจ์์ถ๋ ฅ ํฉ์ฐ), ๋ถ๋ถ๊ณต๊ฐ(์ฐจ์์ ํ์ถ์), ์ ์ฌ๊ณต๊ฐ(๋น์ ํ์๋ฒ ๋ฉ) ํ์ฉ ๊ธฐ๋ฒ์ ์๊ฐํ์๋ค.ย
[2025.06.09] ย "Dreamer Supplement" ย by ์ด์ฐฝ๋ฏผ
์์ฝ: ์ด ์ธ๋ฏธ๋์์๋ World Model์์ ๊ฐ์ฅ ์ค์ํ๋ค๊ณ ํ ์ ์๋ Transition Model์ ๊ตฌ์กฐ์ธ RSSM์ ๋ํด์ ์ดํด๋ณธ๋ค. ํด๋น ๊ตฌ์กฐ๋ Deterministic Latent State์ Stochastic Latent State ๋ชจ๋๊ฐ ์๊ณ์ด ์ ๋ณด๋ฅผ ๊ฐ์ง๋ฉด์ ์ ์ด๋๋ ํํ๋ก, ์ด์ ์ํ๋ฅผ ์ ํํ๊ฒ ๋ฐ์ํ๋ฉด์๋ ๋ถํ์ค์ฑ์ ๋ฐ์ํ ์ ์๋ค. ๋ํ ํด๋น RSSM์ด ์ ๊ฒฝ๋ง ์์ค์์ ์ ํํ๊ฒ ์ด๋ป๊ฒ ๊ตฌ์ฑ๋๋ ์ง ํ์ธํ๊ณ , RSSM์ ์ผ๋ถ๋ถ์ ๊ณต์ ํ๋ Representation Model์ ์ถ๊ฐํ์ฌ Dreamer์์ Dynamics์ ํ์ต์ด ์ด๋ป๊ฒ ์งํ๋๋ ์ง ์์ธํ๊ฒ ์์๋ณด์๋ค.
[2025.05.26] ย "Dreamer v1, v2, v3: Model-Based Reinforcement Learning with world models" ย by ๊น๋ฏผ์ฌ
์์ฝ: World Models๋ ๊ธฐ์กด Model-Based Reinforcement Learning์ ๊ฑธ๋ฆผ๋์ธ Compounding Error๋ฅผ ๊ทน๋ณตํ๊ณ ์ Recurrent State Space Model(RSSM)๊ตฌ์กฐ๋ฅผ ์ ์ํ์๋ค. Dreamer Algorithms๋ World Models๋ฅผ ์ฌ์ฉํ์ฌ DMC, Atari๋ฅผ ๋น๋กฏํด ์ฝ 150๊ฐ์ tasks์ ์ ์ฉํ๋๋ฐ ์ฑ๊ณตํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.Dreamer Algorithm์ ๋ํ ๋ ผ๋ฌธ์ ์ด ์ธ ํธ์ผ๋ก, ๋ณธ ์ธ๋ฏธ๋์์๋ ๊ธฐ๋ณธ์ด ๋๋ Dreamer v1 ์๊ณ ๋ฆฌ์ฆ์ ์๊ฐํ๊ณ , v2 ๋ฐ v3 ์๊ณ ๋ฆฌ์ฆ์์ ์ถ๊ฐ๋ ๊ธฐ๋ฒ์ ์ค๋ช ํ๋ค. ๋ํ ๊ฐ๊ฐ์ ๊ธฐ๋ฒ์ด ์ด๋ค ์๋ฆฌ๋ก ์ ์ฉ๋๊ณ , ์ฑ๋ฅ์ ํฅ์์์ผฐ๋์ง์ ๋ํด ๋ฐํํ๋ค.
[2025.05.12] ย "Surrogate Model without Simulation Data" ย by ์ตํธ์ง
์์ฝ: ๋ณธ ์ธ๋ฏธ๋๋ simulation data ์์ด surrogate model์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋ํด์ ์๊ฐํ๋ค. ์ค์ ์ ์ฒด์ญํ์์ ์ฌ์ฉ๋๋ CFD simulator์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ๋ฌผ๋ฆฌ์์์ ๊ธฐ๋ฐ์ผ๋ก loss function์ ์ค๊ณํ๊ณ surrogate model์ ํ์ต๋จ๊ณ๋ถํฐ ๋ค์ํ ์กฐ๊ฑด์ ํจ๊ป ๊ณ ๋ คํ์ฌ ์ถ๋ ฅ์ ์์ฑํ๋๋ก ์ค๊ณํ๋ค. ์ค์ CFD ๊ฒฐ๊ณผ์ surrogate model์ ์ฑ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ๊ณ ์์๋ง์ผ๋ก๋ surrogate model ํ์ต์ด ๊ฐ๋ฅํ ๊ฒ์ ์คํ๊ฒฐ๊ณผ๋ฅผ ํตํด ๋ณด์ฌ์ค๋ค.
[2025.04.28] ย "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances(saycan)" ย by ๊ณ ์์ฑ
์์ฝ: SayCan์ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ผ๋ฐ์ ์ง์๊ณผ ๋ก๋ด์ ์ค์ ํ๋ ๊ฐ๋ฅ์ฑ(Affordance)์ ๊ฒฐํฉํ์ฌ ๋ก๋ด์ ์์ ์ํ ๋ฅ๋ ฅ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ ๋ชจ๋ธ์ด๋ค. LLM(Say)์ ์ฌ์ฉ์์ ๋ช ๋ น์ ์ดํดํ๊ณ ์ด๋ค ํ๋์ด ์ ํฉํ์ง ํ๋ฅ ์ ์ผ๋ก ํ๋จํ๋ฉฐ, ๊ฐ์นํจ์(Value Function)๋ฅผ ์ฌ์ฉํ๋ ํ๋๊ฐ๋ฅ์ฑ ๋ชจ๋ธ(Can)์ ๋ก๋ด์ด ํ์ฌ ์ํ์์ ํน์ ํ๋์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ ํ๋ฅ ์ ํ๊ฐํ์ฌ ํ์ค ํ๊ฒฝ์ ์ ์ฝ์ ๋ฐ์ํ๋ค. SayCan์ ์ด ๋ ๊ฐ์ง ํ๋ฅ ์ ๊ฒฐํฉํ์ฌ ๋ก๋ด์ด ์ค์ ํ๊ฒฝ์์ ๊ฐ์ฅ ์ ํฉํ๊ณ ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ด ๋์ ํ๋์ ์ ํํ๋๋ก ํจ์ผ๋ก์จ, ๋ก๋ด์ด ์ํ ๊ฐ๋ฅํ ํ์ค์ ์ธ ํ๋์ ํจ๊ณผ์ ์ผ๋ก ๊ณํํ๊ณ ์ํํ ์ ์๋๋ก ๊ฐ์ ํ๋ค.
[2025.04.21] ย "LLAMBO: large language models to enhance Bayesian optimization" ย by ๊น์ ํธ
์์ฝ: ๊ณ ์ฐจ์ ๋ธ๋๋ฐ์ค ํจ์๋ฅผ ์ต์ ํ ํ๋๋ฐ ์ฐ์ด๋ BO์๋ ์ฌ์ค ์ฝ์ ์ด ๋ง๋ค. ๊ธฐ์กด์ ๊ทธ๋ฆฌ๋ ์์น์ ๋๋ค ์์น ๋๋น ์ ์ํ ์ต์ ํ์ ๋ ์ ์ ๋ฐ์ดํฐ์ ํ์๋ฅผ ํ๋ฐฉํ์ง๋ง, ๊ด์ธก ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๋ฉด ํ์ ํจ์จ์ด ์ ํ๋๊ณ , ์ด๊ธฐ ๋ฐ์ดํฐ๊ฐ ์๋ค๋ฉด ๋ฌด์์ ์ด๊ธฐํ์ ์์กดํ๊ฒ ๋๋ฉฐ ๊ทธ์ ๋ฐ๋ผ ๋ฐ์ํ๋ ์ด๋ฐ ๋จ๊ณ์ ์ํ ์ฐฉ์ค๊ฐ surrogate model์ ํธํฅ์ ๋ฐ์ ์ํฌ ์ ์๋ค. LLAMBO๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ LLM๊ณผ ํ๋กฌํํธ ์์ง๋์ด๋ง๋ง์ ํ์ฉํด ํด๊ฒฐํ์๋ค.
[2025.04.14] ย "Transformer-Based Surrogate Model" ย by ์ด์งํ
์์ฝ: ๋ฐ์ดํฐ ์ผํฐ์ ์จ๋ ์ ์ด๋ฅผ ์ํด surrogate model์ ์ ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ์๋๋ฅผ ํฅ์์ํจ ์ฐ๊ตฌ๋ฅผ ์๊ฐํ์๋ค. ์ด ์ฐ๊ตฌ์์๋ Transformer์ self-attention ๋ฉ์ปค๋์ฆ์ ํ์ฉํ์ฌ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์๊ฐ์ , ๊ณต๊ฐ์ ์ฐ๊ด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๋๋ก surrogate model์ ์ค๊ณํ์๋ค. ๋ํ, ๋ฌผ๋ฆฌ์ ๋ณํ ์์ธก์ด๋ผ๋ ๋ชฉํ์ ๋ง๊ฒ ์ ์ถ๋ ฅ ๊ตฌ์กฐ๋ฅผ ๊ตฌ์ฑํ์ฌ, ๊ธฐ์กด ๋ชจ๋ธ ๋๋น ์๋ฎฌ๋ ์ด์ ์๋์ ์์ธก ์ ํ๋ ํฅ์์ ๋ฌ์ฑํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ์๋ค.
[2025.04.07] ย "Robot Foundation Model 2" ย by ์ด์ฐฝ๋ฏผ
์์ฝ: RT-1, PaLM-E, RT-2, pi0๊น์ง ๋ฐ์ ํ RFM๋ค์ ์ดํด๋ณด์๋ค.ย ๋ก๋ด๋ง๋ค ๊ด์ ์ ํฌ๊ธฐ๋ ์นด๋ฉ๋ผ ์์น๋ ๋ฌ๋ผ์ง๊ณ , ๊ฐ์ ๋ก๋ด์ด๋ผ๋ task specificํ๊ฒ ํ๋ จ์ด ๋์๊ธฐ ๋๋ฌธ์ ์์ฐ์ด ์ฒ๋ฆฌ, ๋น์ ๋ถ์ผ์ ๋ค๋ฅด๊ฒ ๋ก๋ด์ ๋ก๋ด specificํ ํ๊ณ๋ก Foundation Model์ด ๋ฑ์ฅํ์ง ๋ชปํ๊ณ ์์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์๋๋ฅผ ์ง๋ Robot Foundation Model 1 ์ธ๋ฏธ๋์์ ์๊ฐํ์๊ณ , (๋ฐ์ดํฐ ์ ํฌ๊ธฐ ํค์ฐ๊ธฐ, ๋ชจ๋ธ ํฌ๊ธฐ ํค์ฐ๊ธฐ, ์๋ ํฅ์์ ์ํ ์ํคํ ์ฒ ๊ณ ์) ์ด๋ฒ ์ธ๋ฏธ๋์์๋ ์ด๋ป๊ฒ โ์ถ๊ฐ์ ์ธ ์ฑ๋ฅ ํฅ์โ์ ์ด๋ฃจ์๋์ง ์ดํด๋ณด์๋ค. RT-2๋ ์์ฐ์ด ๋ฐ ์ด๋ฏธ์ง ์ ๋ ฅ์ low-level์ ๋ก๋ด ์ก์ ์ผ๋ก ์ถ๋ ฅํจ์ผ๋ก์จ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์๋ค. pi0๋ Mixture of Experts(VLM๊ณผ Action Expert), Flow Matching(Diffusion ๊ธฐ๋ฐ์ ์์ฑํ ๋ชจ๋ธ) ๋ฑ ์ต์ ๋ฐฉ๋ฒ๋ก ๋ค์ Robot Learning์ ๋ง๋๋ก ๋ณํํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ฑ ๋์ด์ฌ๋ ธ๋ค.ย
[2025.03.31] ย "Reinforcement Learning with Intrinsic Reward: ICM, RND using Unity" ย by ๊น๋ฏผ์ฌ
์์ฝ: Intrinsic Reward๋ Sparse Reward ํ๊ฒฝ์ ๋ํ์ฌ Exploration์ ๊ฐํํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ณธ ์ธ๋ฏธ๋์์ Intrinsic Reward์ ๋ฐฉ๋ฒ๊ณผ ์์์ ๋ํด ์๊ฐํ๊ณ , ์ด๋ฅผ ์์ฉํด ๋ง๋ค์ด์ง ๋ ๊ฐ์ง Intrinsic Reward ์๊ณ ๋ฆฌ์ฆ ICM, RND์ ๋ ผ๋ฌธ์ ๋ฐํ์ผ๋ก ์๊ฐํ์๋ค. ๋ํ, Unity์์ ๊ฐ๋จํ Sparse Reward ํ๊ฒฝ์ธ ๋ฏธ๋ก์ฐพ๊ธฐ๋ฅผ ๊ตฌํํ๊ณ , ICM, RND๋ฅผ ๊ตฌํํ์ฌ ํด๋น ํ๊ฒฝ์์ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ๋ค.
[2025.03.24] ย "Knowledge Distillation of LLMs" ย by ๊ณ ์์ฑ
์์ฝ: ์ต๊ทผ ์ง์ ์ฆ๋ฅ๊ฐ ํ๋ฐํ ํ์ฉ๋๊ณ ์๋ LLM ๋ถ์ผ์์, ์ง์ ์ฆ๋ฅ๊ฐ ์ด๋ป๊ฒ ์ ์ฉ๋๋ ์ง๋ฅผ ์ดํดํ๊ณ , ํนํ MiniLLM ๋ ผ๋ฌธ์ ํตํด ์ต์ LLM ์ง์ ์ฆ๋ฅ ๊ธฐ๋ฒ์ ๋ํด ์ดํด๋ณด์๋ค. MiniMML์ ๊ธฐ์กด ์ง์ ์ฆ๋ฅ์์ ํํ ์ฌ์ฉ๋๋ KL-Divergence๋ฅผ ์ญ๋ฐฉํฅ์ผ๋ก ์ ์ฉํจ์ผ๋ก์จ, LLM์ ๋ณด๋ค ์ ํฉํ ๋ชฉ์ ํจ์๋ฅผ ์ ์ํ ๊ธฐ๋ฒ์ด๋ค.
[2025.03.17] ย "Meta-Heuristic" ย by ์ตํธ์ง
์์ฝ: Meta-heuristic Algorithm์ด๋ Heuristic Algorithm๊ณผ ๊ฐ์ด good solution์ ๊ตฌํ๋ Algorithm์ด์ง๋ง ํน์ ๋ฌธ์ ์ ์ข ์๋์ง ์๊ณ ๋ค์ํ ๋ฌธ์ ์ ์ ์ฉ์ด ๊ฐ๋ฅํ Frame work๊ฐ ๋๋ Algorithm์ด๋ค. ๋ณธ ์ธ๋ฏธ๋๋ Meta-heuristic ์๋ฒ ์ด ๋ ผ๋ฌธ์ ๊ธฐ๋ฐ์ผ๋ก, ์ฌ๋ฌ Meta-heuristic Algorithm ๊ธฐ๋ฒ์ ์๊ฐํ๋ค. Genetic Algorithm (GA), Particle Swarm Optimization (PSO), Ant Colony Optimization (ACO), Artificial Bee Colony (ABC), Simulated Annealing (SA) ์ด 5๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ ์ปจ์ ๋ฐ ๋์ ๋ฐฉ์์ TSP๋ฅผ ์ ์ฉํ ์์ ์ฝ๋๋ฅผ ํ์ฉํ์ฌ ์๊ฐํ์์ผ๋ฉฐ ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ฐจ์ด์ ์ ๋น๊ตํ์๋ค.ย
[2025.03.10] ย "AutoML" ย by ์ด์งํ
์์ฝ: AutoML์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ ์ฒด์ ์ธ ํ์ดํ๋ผ์ธ์ ์๋ํํ๋ ๊ฐ๋ ์ด๋ค. ๋ณธ ์ธ๋ฏธ๋์์๋ AutoML ๊ด๋ จ ์๋ฒ ์ด ๋ ผ๋ฌธ์ ๋ฐํ์ผ๋ก, ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ตฌ์ถ ๊ณผ์ ์ธ ๋ฐ์ดํฐ ์ค๋น(Data Preparation), ํน์ง ์์ง๋์ด๋ง(Feature Engineering), ๋ชจ๋ธ ์์ฑ(Model Generation) ์์ผ๋ก ์ฃผ์ ์ฐ๊ตฌ ๋ถ์ผ๋ฅผ ์๊ฐํ์๋ค. ํนํ, ๋ชจ๋ธ ์์ฑ(Model Generation) ๋จ๊ณ์์ ๋ํ์ ์ธ ๊ธฐ๋ฒ์ธ NAS(Neural Architecture Search)์ ๊ธฐ๋ณธ ๊ฐ๋ ๊ณผ ์ฃผ์ ํ์ ๋ฐฉ๋ฒ์ ์ค์ ์ ์ผ๋ก ๋ค๋ฃจ์๋ค.
[2025.03.10] ย "Robot Foundation Model" ย by ์ด์ฐฝ๋ฏผ
์์ฝ: LLM์ด๋ Vision ๋ถ์ผ๋ ๋๋ฆ๋๋ก Foundation Model์ด๋ผ ๋ถ๋ฆฌ๋ ๋ชจ๋ธ๋ค์ด ์กด์ฌํ๋ค. GPT๋, SAM์ด ๊ทธ์ ํด๋นํ๋ค. ํ์ง๋ง ๋ก๋ด์ Task Specificํ ํน์ฑ์ ์ฌ๋ฌ ๋ก๋ด์ ๋ฌผ๋ก ์ด๊ณ , ์ฌ๋ฌ Task์์กฐ์ฐจ ๋ฒ์ฉ์ ์ ์ฉ์ด ๊ฐ๋ฅํ ๋ชจ๋ธ์ด ์กด์ฌํ๊ธฐ ์ด๋ ต๋ค. ์ด๋ฌํ ํ๊ณ๋ฅผ ์กฐ๊ธ์ด๋๋ง ๊ทน๋ณตํ๊ธฐ ์ํด ์ฒ์ ๋ฑ์ฅํ ๋ชจ๋ธ์ด RT-1์ด๋ค. RT-1์ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ฉด์ ์ถ๋ก ์๋๊ฐ ์ ํ๋์ง ์๋๋ก ์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค. ๋จผ์ ์ด๋ฏธ์ง๋ฅผ ํจ์จ์ ์ผ๋ก ํ ํฐ์ผ๋ก ๋ณ๊ฒฝํ๋ EfficientNet์ ์ฌ์ฉํ์๊ณ , Instruction์ ์ ๋ณด ๋ํ FiLM์ ํตํด ํตํฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ต์ข ์ ์ผ๋ก ์์ฑ๋ ํ ํฐ์ Transformer์ Decoder์ ์ ๋ ฅ์ผ๋ก ์ ๋ฌํ๊ณ , 256๊ฐ๋ก ์ด์ฐํ๋ ์ก์ ์ ์ถ๋ ฅํ๋ค. ์ด ๊ณผ์ ๋ ์ ๋ ฅ์ ์ฐจ์์ ๋ฐ๋ผ ์์ ์๊ฐ์ด ์ ๊ณฑ์ผ๋ก ์ฆ๊ฐํ๋ ์์ ์ธ๋ฐ, TokenLearner ๊ตฌ์กฐ๋ฅผ ์ ์ฉํ์ฌ ์ถ๋ก ์๊ฐ์ ์ค์๋ค.
[2025.02.24] ย "GAN" ย by ๊น์ ํธ
์์ฝ: GAN์ ๊ธฐ์กด ์์ฑ ๋ชจ๋ธ๋ค์ด ํ๋ฅ ๋ถํฌ๋ฅผ ์ง์ ์ถ์ ํ๋ MLE ๊ธฐ๋ฐ ๋ฐฉ์์ ํ์ต ๋์ด๋์ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ๊ธฐ๋ฒ์ด๋ค. ์ ๋์ ํ์ต์ ํตํด ์์ฑ์(G)์ ํ๋ณ์(D)๊ฐ ๊ฒฝ์ํ๋ฉฐ ์ ์ ๋ ํ์ค์ ์ธ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋๋ก ์ ๋ํ์ง๋ง, ๋ชจ๋ ๋ถ๊ดด, ํ์ต ๋ถ์์ ์ฑ, ํ๊ฐ ๊ธฐ์ค ๋ถ์กฑ ๋ฑ์ ํ๊ณ๋ฅผ ๊ฐ์ง๋ค. ๋ณธ ์ธ๋ฏธ๋์์๋ ์ด๋ฌํ GAN์ ์ดํดํ๊ธฐ ์ํด ํ์ํ ๋ฐฐ๊ฒฝ์ง์๊ณผ, ์ด๋ป๊ฒ GAN์ผ๋ก ์ค์ ๋ฐ์ดํฐ์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ถ์ข ํ๋ ๊ฒ์ด ๊ฐ๋ฅํ๊ฐ์ ๋ํด ๋ค๋ฃฌ๋ค.
[2025.02.24] ย "Knowledge Distillation" ย by ๊ณ ์์ฑ
์์ฝ: Knowledge Distillation์ด๋ ๋ชจ๋ธ์ ๊ท๋ชจ๊ฐ ํฐ ๋ชจ๋ธ(Teacher model)์ ์ง์์ ์์ ๋ชจ๋ธ(Student model)์๊ฒ ์ ๋ฌํ์ฌ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๋ํ์ ์ธ ๋ชจ๋ธ ๊ฒฝ๋ํ ๋ฐฉ๋ฒ ์ค ํ๋์ด๋ค. ๋๋ฉ์ธ๊ณผ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋ค์ํ KD ๋ฐฉ๋ฒ์ด ์ฐ๊ตฌ๋๊ณ ์์ผ๋ฉฐ, ์ด๋ฒ ์ธ๋ฏธ๋์์๋ ๊ธฐ๋ณธ์ ์ธ Vanilla KD๋ฅผ ๋น๋กฏํด, Teacher model์์ ํ์ฉ๋๋ Knowledge์ ๊ฐ๋ ๊ณผ ์ฐ๊ตฌ ๋ํฅ์ ์๊ฐํ์๋ค.
[2025.02.10] ย "Surrogate Model" ย by ์ด์งํ
์์ฝ: Surrogate model(๋์ฒด๋ชจ๋ธ)์ด๋ ๋ณต์กํ ์์คํ ์ ์ ์ถ๋ ฅ ํน์ฑ์ ๊ทผ์ฌํด ๊ณ์ฐ๋์ ํฌ๊ฒ ์ค์ด๋ฉด์ ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ ๋ชจ๋ธ์ด๋ค. ์๋ฅผ ๋ค์ด, ๋ฉฐ์น ์ด ์์๋๋ ์๋์ฐจ/ํญ๊ณต๊ธฐ ์ค๊ณ ์๋ฎฌ๋ ์ด์ ์ด๋ ์ต์ ํ ๊ณผ์ ์ ๋์ฒด๋ชจ๋ธ๋ก ๋จ์ถํ ์ ์์ผ๋ฉฐ, ์ต๊ทผ์๋ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๊ตฌํ์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค. ํ์ฉ ์ฌ๋ก๋ก, ์ธ์ ๋ฐ์ดํฐ๊ฐ ์ ์ฌํ ๋ ๋์ฒด ๋ชจ๋ธ์ CNN์ผ๋ก ๊ตฌํํ๋ ๋ฐฉ๋ฒ, ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๋์ฒด๋ชจ๋ธ์ loss function์ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ฐ์ํ๋ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ LSTM-AE๋ก ๋์ฒด๋ชจ๋ธ์ ์ ์ถ๋ ฅ ์ฐจ์์ ์ถ์ํ๋ ๋ฐฉ๋ฒ ๋ฑ์ ์๊ฐํ์๋ค.
[2025.02.10] ย "Letโs dive into World Model with Genie" ย by ์ด์ฐฝ๋ฏผ
์์ฝ: ํ์ฌ์ World model์ video generation model์ ์ผ์ข ์ผ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ๊ธด ์์ ์์ฑ, 3D ๋ชจ๋ธ๋ง์ด ํ์ํ์ง ์์ cost-effective simulation, ์ฌ์ฉ์ ์ํธ์์ฉ ๋ฑ์ ํน์ง์ ๊ฐ์ง๋ค. ์ธ๋ฏธ๋์์๋ World model ์ค ํ๋์ธ Genie์ ์ธ ์ปดํฌ๋ํธ๋ฅผ ์ดํด๋ดค์ผ๋ฉฐ, (1)Video Tokenizer๋ video frames์ discrete tokens๋ก ๋ณํํ๊ณ , (2)Latent Action Model๋ training phase์๋ง ์ฌ์ฉ๋๋ฉฐ frames ์ฌ์ด์ action(8๊ฐ์ ์ด์ฐ์ ์ก์ )์ ์ถ๋ก ํ๊ณ , (3)Dynamics Model์ video tokens(from VT)์ action(from LAM)์ ๋ฐ์ ๋ค์ video tokens์ ์์ฑํ๋ค.
[2025.01.27] ย "ImageBind: One Embedding Space To Bind Them All" ย by ๊น์ ํธ
์์ฝ: CLIP, BLIP์ ์ด์ด ImageBind๊ฐ ๋ฐ๊ฒฌํ ํ์์ ์๊ฐํ์๋ค. CLIP์ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ๊ณตํต ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ์ ๋ ฌํ์ฌ ๋์กฐ ํ์ต (์ด๋ฏธ์ง-ํ ์คํธ ์์ ํฌ๋กค๋งํ์ฌ, ๊ฐ ์๋ณ ์ธ์ฝ๋ฉ ๊ฒฐ๊ณผ ๋ฒกํฐ ์ ์ฌ๋๊ฐ ๋๊ฒ ๋์ค๊ณ ๋ค๋ฅธ ์์ ์ ์ฌ๋๋ ๋ฎ๊ฒ ๋์ค๋๋ก ํ์ต) ์ํํ๊ณ , BLIP์ ํฌ๋กค๋ง ์ค๋ฅ๋ฅผ CapFilt(์ฌ์ ํ์ต๋ ๋ชจ๋ธ๋ก ์ด๋ฏธ์ง-ํ ์คํธ ์ ์ค๋ฅ ๊ฒ์ถ ํ ์ ํํ ์บก์ ์์ฑํ์ฌ ํ์ต) ๋ฑ์ผ๋ก ํด๊ฒฐํ๋ ๋ฑ Vision-Language Model์ ์ ๊ทผ๋ฒ์ ์ ์ํ์๋ค. ImageBind๋ ์ฌ๊ธฐ์ ์ด์ด ์ด๋ฏธ์ง๋ฅผ ์ค์ฌ์ผ๋ก ํ ์คํธ, ์ค๋์ค, IMU, Depth ๋ฑ์ CLIP ๋ฐฉ์์ผ๋ก ๋์กฐ ํ์ตํ๋๋ ์ง์ ํ์ตํ์ง ์์ ์ฐ๊ด๋ ์ (์ค๋์ค-ํ ์คํธ)์ ์ ์ฌ๋๊ฐ ๋๊ฒ ๋์ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค.
[2025.01.20] ย "Actor-Critic Deep Reinforcement Learning for Solving Job Shop Scheduling Problems" ย by ์ตํธ์ง
์์ฝ: CNN ๊ธฐ๋ฐ Actor-Critic ๋ชจ๋ธ์ ํ์ฉํ Job-Shop Scheduling Problem ํด๊ฒฐ ๋ฐฉ๋ฒ ์๊ฐ
[2025.01.20] ย "Segment Anything(SAM)" ย by ๊ณ ์์ฑ
์์ฝ: zero-shot generalizaion์ ํตํ segmentation ๊ณ์ foundation model์ ๋ง๋ค๋ ค๋ meta์ SAM(Segment Anything Model), ์ค์๊ฐ ๋น๋์ค ๋ถํ ๊น์ง ๊ฐ๋ฅํ๊ฒ ํ SAM2 ๊ทธ๋ฆฌ๊ณ ๊ทธ์ ํ์ฉ์ ๋ํ ์๊ฐ
[2025.01.13] ย "Mutual Information State Intrinsic Control" ย by ์ด์ฐฝ๋ฏผ
์์ฝ: Mutual Information ๊ธฐ๋ฐ ๋ณด์์ผ๋ก Agent์ Surrounding์ ์ํธ์์ฉ์ ํ์ตํ์ฌ RL ์ฑ๋ฅ์ ํฅ์์ํค๋ MUSIC ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
[2025.01.06] ย "Policy-Based Reinforcement Learning: A Comparative Analysis of Six Algorithms" ย by ์ด์งํ
์์ฝ: ์ฌ์ฏ ๊ฐ์ง ์ ์ฑ ๊ธฐ๋ฐ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ๊ณผ ํน์ง ์๊ฐ ๋ฐ ๋น๊ต ๋ถ์
2024
[2024.12.24] ย "Job-Shop Scheduling Problem and DRL" ย by ์ตํธ์ง
์์ฝ: ๊ฐํํ์ต์ ํ์ฉํ Job-Shop Scheduling Problem ํด๊ฒฐ ๋ฐฉ๋ฒ ์๊ฐ
[2024.12.24] ย "Vision Transformer" ย by ๊น์ ํธ
์์ฝ: Transformer ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ViT๋ฅผ ํตํ ์ด๋ฏธ์ง ์ธ์ ๊ธฐ์ ์ ํ์ฅ์ฑ์ ์๊ฐํ๋ฉฐ, Attention ๋ฉ์ปค๋์ฆ์ ๋ํด ์ค๋ช
[2024.12.13] ย "LayoutLM: Pre-training of Text and Layout for Document Image Understanding" ย by ๊ณ ์์ฑ
์์ฝ: DocVQA ํด๊ฒฐ์ ์ํด ์๊ฐ์ ์ ๋ณด์ ๋ ์ด์์๊น์ง ์ดํดํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ ์ํ LayoutLM ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
[2024.12.06] ย "Panoptic Segmentation" ย by ์ตํธ์ง
์์ฝ: Semantic & Instance Segmentation ์ค๋ช ๋ฐ Panoptic Segmentation ์๊ฐ ๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ ์ค๋ช
[2024.11.22] ย "Gen2Sim: Scaling up Robot Learning in Simulation with Generative Models" ย by ๊น์ ํธ
์์ฝ: ์์ฑ ๋ชจ๋ธ๊ณผ LLM์ ํ์ฉํด ๋ก๋ด ํ์ต์ ์ ๊ณผ์ ์ ์๋ํํ๋ฉฐ, ์๋ฎฌ๋ ์ดํฐ์ ์ค์ ํ๊ฒฝ ๊ฐ์ ๊ฐ๊ทน์ ์ค์ด๊ธฐ ์ํ ํ๋ ์์ํฌ์ธ Gen2Sim์ ์๊ฐ
[2024.11.22] ย "Tree of Thoughts: Deliberate Problem Solving with Large Language Models" ย by ์ด์ฐฝ๋ฏผ
์์ฝ: LLM์ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ํ Tree of Thoughts ๊ธฐ๋ฒ ์๊ฐ
[2024.11.08] ย "InfographicVQA & ์๊ฐ์ฅ์ ์ธ ๋ณดํ๋ณด์กฐ ์์คํ " ย by ๊ณ ์์ฑ
์์ฝ: ์ด๋ ค์ด ์ค์ ๋ฌธ์ ๋ค์ ์ธ๊ณต์ง๋ฅ๊ณผ ์๊ณ ๋ฆฌ์ฆ์ ํตํด ํด๊ฒฐํ๊ณ ์ ํ๋ ๋ฐํ์์ ํ๋ก์ ํธ๋ค ์๊ฐ
[2024.10.25] ย "DeepLSD" ย by ๊น์ ํธ
์์ฝ: ์ ํต์ ์ธ ์ ๋ถ ๊ฒ์ถ ๊ธฐ๋ฒ๊ณผ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ๊ธฐ๋ฒ์ ํตํฉํ ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์์ผ๋ก, ์ ๋ฐ์ฑ๊ณผ ๊ฐ์ธ์ฑ์ ํ๋ณดํ ์ ๋ถ ๊ฒ์ถ ๋ฐ ๋ณด์ ์๊ณ ๋ฆฌ์ฆ์ธ DeepLSD๋ฅผ ์๊ฐ
[2024.10.22] ย "Adressing Function Approximation Error in Actor-Critic Methods: TD3" ย by ์ด์งํ
์์ฝ: DDPG(Deep Deterministic Policy Gradient) ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌ์กฐ ๋ฐ ํ๊ณ์ ์ ์ค๋ช ํ๋ฉฐ, ์ด๋ฅผ ๊ฐ์ ํ TD3(Twin Delayed Deep Deterministic Policy Gradient) ์๊ณ ๋ฆฌ์ฆ์ ๋์ ์๋ฆฌ์ ๋ํด ์ค๋ช
[2024.10.15] ย "AirLine" ย by ๊น์ ํธ
์์ฝ: ์ฃ์ง ๊ธฐ๋ฐ์ ์ ๋ถ ๊ฒ์ถ ๋ฐ Conditional Region-grow ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํด ๋์ ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ถ ์ค์๊ฐ ์ ๋ถ ๊ฒ์ถ ๊ธฐ๋ฒ ์๊ฐ
[2024.10.04] ย "Genealogy of Reinforcement Learning" ย by ์ด์ฐฝ๋ฏผ
์์ฝ: ๊ฐํํ์ต ๋ชจ๋ธ์ ์งํ ๊ณผ์ ๊ณผ ๊ฐ ๋ชจ๋ธ์ ๋์ ๋ ์ฃผ์ ๋ฐฉ๋ฒ๋ก ๋ถ์
[2024.09.27] ย "Large Language Models Empowered Autonomous Edge AI for Connected Intelligence" ย by ์ตํธ์ง
์์ฝ: LLM์ ํ์ฉํ ์ฃ์ง AI ์๋ํ ํ๋ ์์ํฌ ์๊ฐ
[2024.09.20] ย "DDPG" ย by ์ด์งํ
์์ฝ: DDPG(Deep Deterministic Policy Gradient) ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌ์กฐ์ ํ์ต ๋ฐฉ์์ ๋ํ ์๊ฐ
[2024.08.26] ย "์ฐ๋ถ ๋ฉด์ ์ฐ์ถ ๋ชจ๋ธ ๊ด๋ จ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ" ย by ์ตํธ์ง
์์ฝ: ์ฐ๋ถ ๋ฉด์ ์ฐ์ถ์ ์ํ ์ฉ์ด ์ ๋ฆฌ ๋ฐ fire frontline ์ฐ์ถ ๋ฐฉ๋ฒ ์๊ฐ
[2024.07.29] ย "Resource Allocation ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ" ย by ์ตํธ์ง
์์ฝ: ์ฃ์ง ์ปดํจํ ํ๊ฒฝ์์์ resource allocation ๊ด๋ จ ์ต๊ทผ ์ฐ๊ตฌ ๋ํฅ ์๊ฐ ๋ฐ ๋ณด์ ๋ ผ๋ฌธ ์๊ฐ
[2024.07.22] ย "์ ์ฑ ๊ธฐ๋ฐ ๊ฐํ ํ์ต" ย by ์ด์งํ
์์ฝ: ์ฐ์์ ํ๋ ๊ณต๊ฐ์ ์ ์ฉ ๊ฐ๋ฅํ ์ ์ฑ ๊ธฐ๋ฐ ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ ๋ฐ DPG(Deterministic Policy Gradient) ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌ์กฐ์ ๋์ ์๋ฆฌ์ ๋ํด ์๊ฐ
[2024.07.15] ย "Reinforcement Learning ๊ธฐ์ด" ย by ์ด์ฐฝ๋ฏผ
์์ฝ: ๊ฐํ ํ์ต์ ๊ธฐ๋ณธ ๊ฐ๋ ์ ๋ํ ์๊ฐ
[2024.07.08] ย "Resource Allocation Survey" ย by ์ตํธ์ง
์์ฝ: ์ฃ์ง ์ปดํจํ ํ๊ฒฝ์์์ resource allocation ๊ด๋ จ ์ต๊ทผ ์ฐ๊ตฌ ๋ํฅ ์๊ฐ
[2024.05.20] ย "ROS(Robot Operating System)2" ย by ์ด์งํ
์์ฝ: ๋ก๋ด ์ด์ ์ฒด์ ์ธ ROS2์ ๊ฐ๋ ๊ณผ ํต์ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช ํ๊ณ , ๊ฐ๋จํ ์ค์ต ์์๋ฅผ ํตํ ํ์ฉ ๋ฐฉ๋ฒ ์๊ฐ
[2024.05.07] ย "PI and MRAC" ย by ์ด์งํ
์์ฝ: ์์๋ฅผ ํ์ฉํ์ฌ PI ์ ์ด๊ธฐ์ ์๋ฆฌ์ ๋ํด ์ค๋ช ํ๊ณ , ์ ์ํ ์ ์ด๊ธฐ์ธ MRAC(Model Reference Adaptive Control)์ ๋ํด ์ค๋ช
[2024.03.11] ย "๊ฐํํ์ต ๋ฐ ํด๋ผ์ฐ๋" ย by ์ด์งํ
์์ฝ: ๊ฐํํ์ต์ ๊ฐ๋
๊ณผ Q-learning, Deep Q-learning ์๊ณ ๋ฆฌ์ฆ ๋ฐ DQN(Deep Q-Network)์ ๋ํ ์ค๋ช
ํด๋ผ์ฐ๋ ๋ค์ดํฐ๋ธ ์ ํ๋ฆฌ์ผ์ด์
์ ํน์ง์ธ ๋ง์ดํฌ๋ก์๋น์ค, ์ปจํ
์ด๋ ๊ฐ์ํ, DevOps ๋ฐ CI/CD์ ๋ํ ์ ๋ฐ์ ์ธ ์๊ฐ
[2024.02.08] ย "๋จธ์ ๋ฌ๋๊ณผ ๋ฅ๋ฌ๋" ย by ์ด์งํ
์์ฝ: ๋จธ์ ๋ฌ๋์ ๊ธฐ๋ณธ ๊ฐ๋ ์์๋ถํฐ CNN(Convolutional Neural Network) ๋ฐ RNN(Recurrent Neural Network)์ ์๋ฆฌ์ ์์ฉ์ ๋ํ ์๊ฐ
2023
[2023.12.04] ย "OpenCV/CNN ๊ธฐ๋ฐ ์์จ์ฃผํ ํ์ธํ ๋ก๋ด" ย by ๊น์ ํธ
์์ฝ: YOLOv8๊ณผ Airline ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํด ๋์ฅ๋ฉด ๊ธฐ์ค์ ์ ์ธ์ํ๋ ๊ธฐ๋ฒ๊ณผ ํด๋น ๊ธฐ๋ฒ์ ํ ์คํธ ํ ์ ์๋ ์๋ฎฌ๋ ์ดํฐ์ ๋ํด ์๊ฐ
[2023.12.04] ย "๊ฐ์ฒด์ธ์ง ๊ธฐ๋ฐ ์์จ์ฃผํ" ย by ์ด์งํ
์์ฝ: 3D Lidar๋ฅผ ํ์ฉํ์ฌ ๊ฐ์์ 2D Laser Scan ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ ์ด๋ฅผ ์ด์ฉํด ๋งต์ ๊ตฌ์ถํ๋ฉฐ, YOLOv8์ ์ ์ฉํ ๊ฐ์ฒด ์ธ์ ์ฑ๋ฅ์ ๊ฐ์ถ ์์จ์ฃผํ ๋ก๋ด ๊ฐ๋ฐ ํ๋ก์ ํธ๋ฅผ ์งํ ๋ฐ ์๊ฐ
[2023.08.21] ย "A Neural Network Based Recursive Least Square Multilateration Technique for Indoor Positioning" ย by ์ํ๊ธฐ
์์ฝ: ์ค๋ด ์์น ์ถ์ ์ ์ํ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ multilateration ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ RMSE๋ฅผ ์ค์ด๊ณ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ๋ฎ์ถ๋ ๋ฐฉ๋ฒ๋ก ์๊ฐ
[2023.05.17] ย "Unity - Configuration of cinemachine for cameras' complicated movement" ย by ๊น์ ํธ
์์ฝ: ์คํฌ๋ฆฝํ ์์ด๋ ๋ค์ํ ์นด๋ฉ๋ผ ์ํฌ๋ฅผ ๊ตฌํํ ์ ์๋ ๋ชจ๋๋ก, Virtual Camera์ Brain Camera๋ฅผ ํ์ฉํด ์ ์ฐํ๊ณ ํจ์จ์ ์ธ ์นด๋ฉ๋ผ ์์ง์ ๋ฐ ์ ํ์ ์ ๊ณตํ๋ ํด ์๊ฐ
[2023.04.24] ย "Unity - Lightmap and Raycast" ย by ๊น์ ํธ
์์ฝ: Unity์์ ํ์ฉ๋๋ ์กฐ๋ช ๊ธฐ๋ฒ์ธ ๋ผ์ดํธ๋งต(Baked/Realtime), ๋ผ์ดํธ ํ๋ก๋ธ, ๋ฆฌํ๋ ์ ํ๋ก๋ธ๊ฐ ์ ์ฉ๋๋ ๋ฐฉ์ ์๊ฐ
[2023.04.18] ย "3D Radiometric Mapping by Means of LiDAR SLAM and Thermal Camera Data Fusion" ย by ์ตํธ์ง
์์ฝ: LiDAR๋ฅผ ํ์ฉํ 3D ๊ณต๊ฐ ๊ตฌ์ถ ๋ฐฉ๋ฒ ๋ฐ ์ดํ์ ๋ฐ์ดํฐ ํจ์ ๊ธฐ๋ฒ ์๊ฐ
[2023.03.27] ย "๋น์ ์ ํ์ฉํ ์ฉ์ ๋ถ์ฌ ์ ๋ณด ์ธ์ ๋ฐ ์ฉ์ ์ ์ถ์ถ" ย by ๊นํฌ์ค
์์ฝ: ์ผ์ฑ ๋ฐ์ดํฐ์ YOLO๋ฅผ ํ์ฉํ ์ฉ์ ์ ์ถ์ถ ๋ฐ ๋ถ์ฌ ์ ๋ณด ์๋ํ ์ฐ๊ตฌ ๋ถ์
[2023.01.03] ย "Data interpolation in UWB RTLS System" ย by ์ํ๊ธฐ
์์ฝ: UWB RTLS ์์คํ ์์ ๋ฐ์ดํฐ ๋ณด๊ฐ ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ๋๋ฝ๋ ๋ฐ์ดํฐ๋ฅผ ๋ณต์ํ๊ณ ์์น ์ถ์ ์ ํ๋๋ฅผ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ ์๊ฐ
2022
[2022.12.04] ย "A Low-Cost Indoor RTLS Based on TDoA Estimation of UWB Pulse Sequences" ย by ์ํ๊ธฐ
์์ฝ: Low-Cost UWB-TDoA ๊ธฐ๋ฐ ์ค๋ด ์์น ์ถ์ ์์คํ ์ค๊ณ์ ์ดํด์๋ ๊ธฐ์ ์ ํ์ฉํ ์ ํ๋ ๊ฐ์ ๋ฐฉ์ย ์๊ฐ
[2022.12.04] ย "Lidar Sensor and SLAM algorithm" ย by ์ตํธ์ง
์์ฝ: LiDAR ๋์ ๋ฐฉ์ ์๊ฐ ๋ฐ SLAM ์๊ณ ๋ฆฌ์ฆ ์๊ฐ
[2022.08.21] ย "Real-Time Location System on UWB" ย by ์ํ๊ธฐ
์์ฝ: UWB ๊ธฐ๋ฐ์ ์ค์๊ฐ ์์น ์ถ์ ์์คํ (RTLS)์ ๋ํ ์ฃผ์ ๊ธฐ์ (TWR, ToA, TDoA, AoA)์ ์ฅ๋จ์ ๊ณผ ๊ตฌํ ๋ฐฉ๋ฒ ์ค๋ช
[2022.05.17] ย "์ปฌ๋ฌ ๋ชจ๋ธ ๋ถ์ ๋ฐ ์ปดํจํฐ ๋น์ ๊ณผ ๊ด๋ จ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ์๊ฐ" ย by ์ตํธ์ง
์์ฝ: ๋ค์ํ ์ปฌ๋ฌ ๋ชจ๋ธ ์๊ฐ ๋ฐ CNN ๋ชจ๋ธ ์๊ฐ