研究過程介紹
1. 本次專題使用三份不同資料集,分別創建h種不同的基礎模型。
2. 訓練模型前,先使用Vakayil & Joseph (2022) 提出的孿生資料分割法(twinning[4])將原始資料切割成兩個在統計上相似的孿生資料集。
3. 設定各模型參數範圍,並利用Optuna[5]進行多種參數組合。
4. 從h個基礎模型中,對於估計的RMSE做陡坡圖,使用此圖篩選出k個較佳的基礎模型。
5. 計算此k個基礎模型的估計誤差,並使用此估計誤差計算k個基礎模型的共變異矩陣與誤差平均數。
6. 當兩個模型的估計誤差存在高度共線性時,使用主成分分析(PCA)整合這幾個方法的成果。
7. 使用提出的整合方法,計算各模型的最佳權重。
8. 使用此權重對此k種基礎模型的預測值,做加權平均,得到最終的預測值。
*h: 所有模型數量。
*k: 篩選過後的模型數量。
*Optuna: 可以即時調整參數範圍、高效的抽樣和剪枝、運用在不同的場合 。
模型比較