製造數據科學挑戰與人機協作
✎ 李家岩教授 | 2021-04-24
隨著工業4.0推廣,製造現場開始導入人工智能(artificial intelligence,AI)及數據科學(data science)方法論,以改善生產力、提升良率、降低成本、縮短生產週期時間。AI的建構牽涉問題、數據、模型算法、計算資源、決策、及人的參與等面向考量,形成一連串的構析(Analytics)過程。由於預測模型與分類器不斷地推陳出新,模型訓練自動化的成本大幅降低並改善建模過程。因此,為了提升預測與決策效能,焦點轉向數據品質、特徵工程、與決策風險。事實上,這三者在整個專案中扮演關鍵的角色,尤其是皆需「人」的參與。
數據品質:數據是否真實且即時反應了實際現場狀況。例如需要確認目前的數據收集的特徵類型定義(metadata)、數據表單之間的關係(entity-relation model)、其數據值與工程物理特性是否一致等。
特徵工程:用既有收集的特徵來產生新的特徵。例如可以透過每個批量的加工時間,來確定該批量是早班生產或晚班生產,而產生一個新的二元變數特徵代表早晚班別。
決策風險:衡量決策後可能帶來的風險成本及損失。例如某專案開發了兩個預測模型,模型A預測準確度95%,但不準時的決策會造成龐大損失;模型B準確度90%但不準時的決策只會造成些許損失,請問我們要選模型 A還是模型B呢?當思考這問題的時候,其實就將「預測性(predictive)思維」慢慢往「處方性(prescriptive)決策」的方向思考。
近期, Lee與Chien (2021)於期刊Journal of Intelligent Manufacturing發表相關研究,該文章指出了製造數據科學實務中常見的12種迷思與其可能的建議。迷思包含如下:
迷思1:如何啟動一個智慧製造數據科學分析專案?
迷思2:如何收集數據集?我們需要多少數據?如何解決數據不平衡的問題?我們應該為同一機台群組的所有機台訓練一個單一AI模型,還是為不同的機台分別訓練各自的模型?
迷思 3:合併不同來源的數據表單可能會產生大量的遺漏值
迷思4:若一個變量/行(或觀察值/列)有大量的遺漏值,是否需要填補?
迷思5:數據科學一定可以找出重要的變量/特徵嗎?如果所選變量不具物理因果關係又該如何?
迷思6:我們可以將所有原始變量都放入特徵選擇技術讓電腦來為我們挑選嗎?
迷思7:如果透過one-hot編碼將類別變量轉換為虛擬(二元)變量時,若產生太多新的變量如何處理?
迷思8:如何增強自變量(x)和應變量(y)間的可解釋性?
迷思9:多重共線性(multicollinearity)問題重要嗎?
迷思10:從數據科學得出的結論有多可靠?
迷思11:模型預測準確度較高是否支持更好的決策?
迷思12:如何為智能工廠發展未來技術藍圖?
我們可以發現,要回答以上的每一個問題,一方面透過「機器」學習,一方面也需要「人」及「領域知識(domain knowledge) 」的參與,以期達到人機協作(human-robot collaboration)的理想。迷思與人機整合,構成了數據科學構析六階段的過程,如圖一所示。此思想延伸「見識謀斷行」決策的基本架構(毛治國,2013),其與《中庸》所陳述的「博學、審問、慎思、明辨、篤行」相互對照,此處數據科學以「喜」為表達滿足人性的最終目標。
最後,AI不只是IT單位的事情,更是業務需求單位應全心全力投入,以資訊技術重新打造企業流程(Davenport,1998)。人機環境下的組織再造,就是新世代製造哲學轉變的最佳詮釋。
▲ 圖一 數據科學構析六階段
毛治國,2013。決策,天下雜誌。
Davenport, T. H. (1998). Putting the Enterprise into the Enterprise System. Harvard Business Review, July-August, pp. 121-131.
Lee, C.-Y., and Chien, C.-F., 2021. Pitfalls and Protocols of Data Science in Manufacturing Practice. Journal of Intelligent Manufacturing. https://doi.org/10.1007/s10845-020-01711-w