myRel是一個職缺技能整理及公司資料查詢系統,旨在幫助學生在求職準備階段獲得更全面的資訊,提升職涯規劃效率。使用者可透過本系統的視覺化圖表了解各技能在不同職缺的需求情況、以及國內外的差異比較,也可直接查詢欲了解公司以取得相關詳細資訊。
專題老師 : 鄭伯壎 教授、陳立偉 教授 專題學生 : 何思婷、林宛靜、郭炘穎
myRel是一個職缺技能整理及公司資料查詢系統,旨在幫助學生在求職準備階段獲得更全面的資訊,提升職涯規劃效率。使用者可透過本系統的視覺化圖表了解各技能在不同職缺的需求情況、以及國內外的差異比較,也可直接查詢欲了解公司以取得相關詳細資訊。
專題老師 : 鄭伯壎 教授、陳立偉 教授 專題學生 : 何思婷、林宛靜、郭炘穎
系統架構及頁面
專題成果
使用技術
1.資料抓取
本系統使用Selenium和BeautifulSoup4模組實作,最大的挑戰在於每個網站可能採用不同的反爬蟲機制。這些機制通常需要在實際爬取過程中逐步識別並應對,以下為幾個實例
2.先驗演算法(Apriori Algorithm)
Apriori是經典的挖掘資料關聯性演算法,採用迭代的方法先搜索出第一項集的各Item支持度,並剪去低於最小支持度的第一項集,得到第二項集後再剪去低於最小支持度的第二項集,依次類推下去直到無法找到項集為止。
支持度(Support):意指即某項目集在資料庫中出現的次數比例。
信賴度(Confidence):兩個項目集之間的條件機率,也就是在A出現的情況下,B出現的機率值。
提升度(Lift):當事情X發生的情況下同時發生Y的可能性,且只看Y發生的機率。 提升度>1或越高表示越相關,提升度=1表示為互相獨立,提升度<1或越低代表負相關性越高。
3.主成分分析
是一種經由線性轉換簡化資料的方法,能有效將資料中眾多考量因素(指標)整理成少數幾個更具代表性的綜合指標;也就是將資料降維並得出此資料的「主成分」。
處理多維資料時指標上的選擇相較容易、計算上也更容易;但指標基本只能使用數值型資料做分析,在線性轉換的過程會打亂資料原始的分布。
本次使用scikit-learn模組進行實作,可以簡化繁雜的線性轉換過程更有效率得到所需結果。
開發工具
前端實作:
HTML5、CSS、JavaScript、
Bootstrap v5.3.3
資料庫:MariaDB v10.11
Web框架:
Django v4.2.1
編譯器:
Visual Studio Code v1.95.3
版本控制:GitLab v17.6
程式語言:Python v3.12
資料爬取:
Selenium v4.24.0、
BeautifulSoup v4.12.3
資料分析:
Scikit-learn v1.5.2、
Apriori Algorithm
未來展望
1.新增評價系統:
讓曾經在特定公司實習或工作的學生能夠留下體驗與建議,供學弟妹參考。
2.提升回應效率:
優化系統的數據處理與查詢邏輯,加快用戶操作與響應的速度。
3.提升回應效率:
優化系統的數據處理與查詢邏輯,加快用戶操作與響應的速度。