工業工程雜誌-主題文章

現代系統模擬「Sim-to-Real」的理論與運用

✎【國立清華大學工業工程與工程管理學系】陳子立教授 | 2025-03-10

系統模擬（System Simulation）是一種透過電腦軟體建立虛擬模型來模仿真實系統行為的方法，其主要目的是預測系統在不同條件或情境下的表現，以協助決策者進行有效的分析與判斷。進行系統模擬時，首先需將真實系統抽象化為數學或邏輯模型，透過模擬軟體執行，觀察與記錄系統在特定輸入條件下的輸出結果與行為變化，再經由數據分析，找出系統可能存在的問題或改進空間。系統模擬廣泛運用在工業生產流程、交通運輸規劃、醫療服務流程改善、金融風險分析、軍事戰略推演與環境影響評估等領域。透過系統模擬，不僅能有效節省進行實際測試的成本及時間，也能避免直接操作真實系統時可能面臨的各種風險，進而提高決策的可靠性與精準度，為系統的設計、改善與營運提供寶貴的參考依據。

陳子立教授

國立清華大學工業工程與工程管理學系副教授
國立清華大學工業工程與工程管理學系博士

傳統系統模擬具有以下幾種功能與角色：

解說(Explanatory devices)：此角色旨在透過模擬來清楚定義或解釋一個系統的流程或行為，以更直觀、生動的方式展示系統運作，尤其適合複雜系統的理解與展示。
設計評估(Design assessors)：此角色通常用於系統設計初期階段，利用模擬分析不同方案的效益與缺點，協助決策者評估、比較各種可行方案。例如：工廠規劃初期，評估不同機台配置方案的績效。
分析(Analysis variables)：模擬透過統計實驗設計法（如因子分析）來辨識並分析影響系統績效的重要因素，確定關鍵參數的適當設定水準，以利系統績效改善與最佳化。
預測( Predictors )：模擬可用於預測未來某段期間內系統可能出現的狀況，作為決策時的重要依據。例如：半導體廠利用模擬預測特定投料與派工規則下的未來產能、效率與可能瓶頸位置。

然而，在人工智慧（AI）技術快速推進之下，系統模擬的角色也逐漸產生重要的轉變，進而衍生出一個全新且重要的概念，即「Sim-to-Real」（Simulation to Reality）。所謂「Sim-to-Real」是指透過電腦模擬技術建立一個高度逼真且多元化的虛擬環境，並在其中大量產生虛擬與合成的訓練數據，提供機器學習或強化學習所需的AI智慧系統（稱為AI智能體，Agent）一個安全、可控且低成本的訓練與驗證平台。這樣的訓練方式，使智慧系統能在虛擬環境中不斷地進行試錯、學習與優化，以達到穩定且優秀的性能表現後，再直接或僅需少量調整即可移轉到真實世界中的控制器或系統進行實際應用。這種創新且有效的方法，主要為了解決在AI發展過程中經常面臨的困境，例如真實世界資料取得困難、標記資料成本過高、實體系統驗證複雜性大、實驗風險過高等問題。藉由在模擬環境中快速且大量地產生多樣化且高品質的資料，「Sim-to-Real」得以大幅降低智慧系統開發與驗證的成本和時間，並可提前發現AI模型可能存在的問題，提升系統的安全性與穩定性。

「Sim-to-Real」方法已逐漸成為AI實務應用中不可或缺的重要策略，廣泛應用於對安全性與精確度要求極高的領域，例如：自駕車的路況識別與駕駛控制、工業機器人的精密操作與任務學習、無人機的導航與任務規劃，以及智慧製造產線的流程最佳化等。在這些領域中，「Sim-to-Real」方法不僅有效提高了AI系統部署時的可靠性與成功率，也加速了從AI原型研發階段到實際產品落地商業化的進程，逐漸成為現代AI系統模擬技術的重要主流趨勢。圖1以機械手臂（Robot）訓練為例，說明「Sim-to-Real」方法的具體實現流程如下：

第一步：建立系統模擬環境（Simulation model）

建立系統模擬環境（Simulation Model）透過專業的3D物理模擬軟體（如Gazebo、PyBullet或MuJoCo）或是數位雙生平台(如Nvida Omniverse與Issac Sim機器人模擬平台)，建構虛擬的機器手臂模型、環境與任務場景，模擬真實操作，例如：機器人夾取物品、行進路線或其他指定動作。

第二步：在模擬環境中進行AI模型訓練

在模擬環境中進行AI模型訓練於虛擬環境中使用強化學習（Reinforcement Learning）或其他適當的機器學習技術，透過反覆試錯與環境互動，讓機器人逐步學習並優化其控制策略。例如，機械手臂經由大量模擬訓練，能穩定夾取不同形狀或重量的物體。

第三步：從模擬到真實環境（Sim-to-Real Transfer）

從模擬環境轉移至真實環境（Sim-to-Real Transfer）當模擬環境中的AI模型達到預期效能後，將控制策略直接或透過少量微調，部署至實際的機器人硬體上，完成真實世界中的任務，例如：將模擬中訓練的夾取動作導入實體機械手臂進行實務操作。

第四步：真實世界的驗證與微調

真實環境驗證與微調在真實世界進行實際測試與驗證，觀察模擬訓練成果的表現。如發現模擬與實際環境間的落差（Reality Gap），可透過領域隨機化（Domain Randomization）或遷移學習（Transfer Learning）等技術進行模型微調，有效降低模擬環境與現實世界之間的差異，提升整體系統的效能與穩定性。

▲圖1 「Sim-to-Real」方法的具體實現流程 (Zhao et al., 2021; Salimpour et al., 2025)

「Sim-to-Real」技術融合了多種機器學習與控制理論，旨在克服模擬環境與真實世界之間的差異，確保AI模型能夠順利遷移並在現實應用中保持高效、穩定的性能。該技術透過以下核心方法來實現模擬到現實的平滑轉移：

1. 領域適應（Domain Adaptation）

模擬環境與真實環境在物理特性、感測器輸出與環境變數上存在顯著差異。領域適應技術用於減少這些不一致性，使AI模型能夠在不同環境中保持穩定效能。

領域隨機化（Domain Randomization）：在模擬環境中隨機變化物理參數（如摩擦、重力）、視覺特徵（如光照、材質）及感測器噪聲，以提升模型對現實環境的泛化能力。
對抗式領域適應（Adversarial Domain Adaptation）：透過生成對抗網絡（GAN）或其他深度學習技術，使模擬與真實數據的特徵對齊，減少模型在不同環境中的表現差距。

2. 遷移學習（Transfer Learning）

在模擬環境訓練的AI模型通常需要微調後才能適應真實環境。遷移學習技術能夠加速適應過程，降低對大量真實數據的需求。

零次轉移（Zero-Shot Transfer）：直接將在模擬環境訓練的模型應用於真實世界，無需額外調整，通常依賴領域隨機化來提高適應力。
少次轉移（Few-Shot Transfer）：利用少量真實環境數據來進行模型微調，以提升模型在現實應用中的準確性與穩定性。
微調（Fine-Tuning）：在真實環境中收集部分數據來調整模型權重，使其更適應物理世界的細微變化。

3. 強化學習（Reinforcement Learning, RL）

強化學習技術讓AI智能體透過試錯學習最優策略，能夠適應複雜動態環境，在模擬中訓練後再轉移至真實世界。

模型無關強化學習（Model-Free RL）：如PPO（近端策略優化）、DDPG（深度確定性策略梯度），透過純粹的試錯學習來優化決策策略，無需預測環境模型。
模型為基礎強化學習（Model-Based RL）：建立環境動態模型，使智能體能夠在模擬中進行預測與決策，減少在真實環境中試錯的需求，提高學習效率。

4. 課程學習（Curriculum Learning）

透過逐步提升訓練難度，使模型能夠循序漸進地學習更具挑戰性的任務，從而提高泛化能力。

階段式學習（Progressive Learning）：初始訓練在簡單環境（如無障礙物移動），隨著學習進展，逐步加入靜態與動態障礙，提高環境複雜度。
動態難度調整（Adaptive Curriculum）：根據模型的學習狀況，自動調整環境的挑戰性，使其始終處於最佳學習狀態。

5. 系統辨識（System Identification）

模擬環境的物理模型可能與真實世界存在誤差，系統辨識技術用於校正模擬環境，使其更準確地反映現實環境的物理特性。

數據驅動建模（Data-Driven Modeling）：透過機器學習方法分析真實環境數據，估計物理系統的關鍵參數，如摩擦係數、質量、感測器誤差等。
參數調整（Parameter Tuning）：使用最佳化演算法來調整模擬環境中的參數，縮小虛擬與真實世界的落差。

6. 數位孿生（Digital Twin）

數位孿生技術建立與真實系統即時同步的虛擬模型，使模擬環境能夠準確地反映現實世界，從而提升Sim-to-Real的精準度與可靠性。

即時數據同步（Real-Time Data Synchronization）：透過感測器收集機器人當前狀態，將其映射到數位模型中，以動態調整模擬環境。
虛實對照測試（Virtual-Physical Validation）：在數位孿生環境中測試不同的控制策略，確保其適用於真實環境，減少直接在實體機器上測試的風險。

除了機器手臂外，自主移動機器人（AMR）在智慧製造與工業自動化中擔任關鍵的搬運與物流角色，特別是多負載自主移動機器人（Multi-load AMR）能夠同時搬運多個工件或貨物，提高搬運效率的同時，也帶來更為複雜的搬運決策與控制挑戰，如搬運任務分配（Task Assignment）、多台 AMR 路徑規劃（Path Planning）、AMR 充電管理（Charging Decision）等，因此，在 AMR 的開發與導入階段，必須設計高效的控制邏輯並將其嵌入物料搬送控制系統（Material Control System, MCS）以進行即時搬運調度，然而，傳統以人為經驗為基礎的Rule-based 控制演算法往往面臨諸多挑戰，包括：(1) 無法涵蓋所有可能的搬運情境、(2) 由於系統運作高度複雜，難以手動設計可行的控制規則、(3) 不同角色人員對於控制邏輯的設計角度不同，影響一致性、(4) Rule-based 控制策略難以實現系統整體的最佳化，因此需尋求更智能化與數據驅動的解決方案，以提升 AMR 的自主性與運行效率。

因此，可應用「Sim-to-Real」技術與方法來建立與優化AMR 搬運控制策略。首先透過 Gazebo、Isaac Sim 或 FlexSim 軟體與系統辨識（System Identification）技術，來建立具有AMR 搬運生產系統或倉儲系統的高解析度模擬環境，涵蓋產線流程布局、機台加工行為、充電站設置、動態障礙物配置及不同類型的任務分佈等，以模擬真實運行條件。接著，運用領域隨機化（Domain Randomization）技術，在模擬環境中產生不同的環境變數與資料（如充電站位置、電池衰退、工件到達排程、機台加工時間等），這些資料必須要能夠完整涵蓋真實世界所發生的情境數據，並依據這些不同情境資料建立深度強化學習模型來進行對模擬環境中的AMR 代理人(AMR Agent)進行搬運控制策略的學習與訓練，而訓練過程中則可以採用課程學習（Curriculum Learning）方法來從簡單案例到複雜案例的逐步學習。當訓練完成後，深度強化學習模型可生成即時最佳化的搬運控制邏輯。再透過遷移學習（Transfer Learning）將訓練後的模型移植並嵌入至物料搬送控制系統（MCS），並利用少量真實數據進行微調，以確保模型適應實際生產系統的搬運操作。最終，該智慧化 MCS 系統能夠根據生產線狀況即時且動態地對於實際AMR下達最佳的搬運控制策略，提升整體運作效率與穩定性，整體架構如圖 2 所示。

▲圖2「Sim-to-Real」在 AMR 搬運控制策略最佳化中的應用

參考文獻

林則孟(2001)，系統模擬理論與應用，滄海出版社。
Zhao, W., Queralta, J. P. and Westerlund, T. (2021). Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey. 2020 IEEE Symposium Series on Computational Intelligence (SSCI), pp. 737-744
Salimpour, S., Peña-Queralta, J., Paez-Granados, D., Heikkonen, J., & Westerlund, T. (2025). Sim-to-Real Transfer for Mobile Robots with Reinforcement Learning: from NVIDIA Isaac Sim to Gazebo and Real ROS 2 Robots. arXiv preprint arXiv:2501.02902.

Page updated

Report abuse

✎【國立清華大學工業工程與工程管理學系】陳子立 教授 | 2025-03-10

✎【國立清華大學工業工程與工程管理學系】陳子立教授 | 2025-03-10