課程類型:微學程 學程名稱:智慧數據分析與應用微學程 指導老師:經濟學系 王偉芳老師、蔡明熹老師、阮榮裕老師
本組組員皆來自於非相關科系之學生,我們好奇,對於跨領域背景的學生,在缺乏統計與機器學習相關訓練的情況下,如何運用大型語言模型(LLM),如 ChatGPT,來完成一項資料科學專案。
因此,我們選擇 Kaggle 平台上著名的信用卡詐騙偵測資料集作為實踐對象。這個資料集包含大量交易數據,但存在嚴重類別不平衡(詐欺交易僅佔總數的 0.172%),且特徵經過 PCA 匿名化,對初學者而言具備挑戰性。
此專案的核心動機,是希望藉由 AI 的協助,驗證在毫無相關背景知識下,是否能從零開始學習並完成資料科學任務,藉此展現 AI 助教在跨領域學習中的效能。報告的重點並非僅在最終模型表現,而是強調學生透過與大型語言模型互動所帶來的學習歷程、自我突破以及思維轉變。
無統計及機器學習之相關訓練
如特徵工程、模型訓練皆為陌生概念
學習曲線極陡
特徵經PCA匿名化處理,缺乏解釋性
且為高度不平衡資料
回答未必正確、可能產生錯誤資訊
缺乏專家直覺與經驗
需培養提問與思考能力
智慧學習夥伴 以對話形式循序漸進地獲取知識與指導。
問題驅動 AI 給予說明、範例或程式碼。
實際執行 實踐並回饋結果,形成循環迭代的學習模式。
承認無知、從基礎發問:直接提問「典型做法是什麼?」「資料不平衡怎麼影響?」
問題驅動循環:順著 LLM 回答中的關鍵詞持續追問,使對話自然延伸到資料探勘(EDA)的步驟。
把 LLM 當導師並立即實作:依照建議載入/檢視資料,遇到問題再回饋,形成正向迴圈。
針對專業術語深入追問:借由釐清「評估指標」「資料前處理」等術語,讓 LLM 主動闡述名詞解釋與操作方法。
強調「邊做邊學」── 把 LLM 當作實習導師而非外包工。
透過反覆提問、實作、回饋,逐步內化資料探勘與機器學習流程,而非僅接受 AI 一次性產出的結果。
在這個專案中,我們將大型語言模型:ChatGPT 視為隨身的智慧學習夥伴。整個學習過程採問題驅動的模式,根據遇到的困難向 ChatGPT 提問,它則提供解釋、範例或程式碼,我們實踐後再回饋,形成循環迭代的學習模式。
不平衡資料的處理不容忽視
專案初期,我們很快就遇到了一個關鍵性的挑戰:資料極度不平衡。絕大多數的交易資料都是正常的,詐欺樣本僅佔極小比例。初步使用模型訓練後,雖然模型準確率看似很高,但實際上模型幾乎忽略了我們最關心的「詐欺交易」。藉由與 ChatGPT 的問答,我們開始意識到光靠準確率來評估模型是不妥的。
因此我們重新檢視這份資料集,使用 pandas 載入資料,檢視資料維度、摘要統計和類別分佈,找出對模型判斷最具影響力的變數,並理解不平衡資料對模型評估的影響,不能只看準確率。
而後,為了解決資料不平衡的問題,在 ChatGPT 指導下,我們嘗試了特徵工程並實際操作。其中,SMOTE (合成少數類別過抽樣技術) 是一個重要的轉折點。它幫助我們合成更多的詐欺樣本,讓模型能夠「看見」更多少數類的特徵,大幅改善了對詐欺交易的識別能力。
評估指標需因應問題特性選擇
向 ChatGPT 諮詢後,我們選擇了邏輯迴歸作為入門模型,並使用 scikit-learn 撰寫及訓練模型程式碼。在訓練過程中遇到錯誤 (如收斂警告) 時,就根據 ChatGPT 建議調整參數。
前面提到,針對不平衡資料,應更關注模型對少數類別的偵測能力。因此在模型訓練後,我們學習使用 Precision(精確率)、Recall(召回率)、F1-score、混淆矩陣等指標評估模型表現,並透過混淆矩陣理解模型的真正類、假正類、假負類、真負類預測,理解在詐欺偵測中,高召回率通常更為重要。也學習繪製 ROC 曲線並計算 AUC 來衡量模型的區分能力,嘗試分析錯誤預測的樣本並加以理解。
人機協作能有效加速學習
在資料理解、特徵分析、程式碼撰寫與模型調校等階段,ChatGPT 作為協作與學習的夥伴,扮演了即時導師的角色,提供了個人化教學的能力,能根據提問解釋概念、給予實用技巧和程式碼範例,大大加速了自學過程。也幫助我們快速獲取跨領域知識,將原本模糊的概念轉化為實際操作經驗,使我們能在短時間內理解陌生領域的概念和方法。
批判性思考與跨領域的實作經驗,是未來持續成長的關鍵
然而,AI 並非全知全能,無法完全複製專家的洞察力。這讓我們理解到自己與真正資料科學專家之間的差距,不僅在於知識廣度,更在於對問題的敏銳度和創造性解決方案的能力。因此,使用 AI 時必須保持質疑精神,不盲目崇信,而是將其視為一個強大但不完美的顧問,需要結合自己的觀察和其他來源來驗證 AI 的回答。
此專案的價值不局限於模型成果,更核心的意義在於我們學會如何與 AI 共生共長,充分利用其優勢並認識自身不足,從而提升自身的學習效能。這也展現了一種未來學習的新典範:人類與 AI 協作,共同探索未知領域。透過這個過程,讓學生蛻變為具備跨領域探究能力的新世代人才,培養了獨立思考、提問與解決問題的技巧,以及跨領域知識遷移的自信,這些都將成為寶貴的資產。
這不只是一次資料分析的經驗,
更是問題解決能力與跨領域探究能力的扎實訓練。