NKNU.孫培真老師
2022/7/12~2022/7/15
13:00~17:00
2022/7/12
《莊子·列御寇》: 朱泙漫習屠龍於支離益,單千金之家,三年技成,而無所用其巧。
歐巴馬:https://www.youtube.com/watch?v=apB7IUOzaAM
Data Mining:https://www.cs.waikato.ac.nz/ml/weka/book.html
2022/7/13
Data Mining
變項:名義變項、次序變項、等距變項和等比變項
nominal variable 、ordinal variable 、interval variable 、ratio variable 。
名義變項:http://chenchunlin.blogspot.com/2008/10/assignment-ch2-4.html
數值資料、類別資料
數值資料:不一定只是表示數字而已,可以在分成四個等級。
數值資料種類:1.名義變項:由名無實的數字(1=男生、2=女生),2.次序變項:(數字大小代表不同強度,ex:滿意度調查),3.區間變項:,4.等比(比例)變項:
非數值式的數值資料,演算法必須轉換成真正的數值,因此有失真的問題。
Supervization Learing
監督式學習、非監督式學習
輸出表示方式:法則、函數。
法則
演算法四種分類法:分類、分群、關聯、預測,其中「分類」最為重要。法則可以表達知識。
輸入(經驗資料)→機器學習(法則)→知識 (因果關係)
函數
函數也可以表達因果關係,意即函數也可以表達知識。
Q:「分類問題」與「數值問題」何者正確性較高?
A:分類問題是有限的,而數值問題有多樣性(密緻性),所以「分類問題」較有準確性。(任兩個數值之間存在著其他無限的數值)
數值預測
線性迴歸
C:\Program Files\Weka-3-8-6\data\cpu,arff
Prepoocess
Classify
Function - LinerRegression (線性迴歸)
知識表示的兩種型態:類別、數值。
機器學習過程稱之為「model建模」,model是會經過不斷修正、加入變項才能獲得較準確完整的model。
預測未來並不是一件簡單的事情。
演算法輸出表示方式如果是「法則」,則輸入時必須是『類別變項』。
數值轉類別(coding)會有失真問題,必須審慎評估。
類別轉數值實作題,以記事本開啟C:\Program Files\Weka-3-8-6\data\iris.arff,修改輸出為數值變項(class)REAL。
1.Iris-setosa全部改為1,其餘兩種均改為0,存成檔名iris1setosa.arff。
2.Iris-versicolor全部改為1,其餘兩種均改為0,存成檔名iris2versicolor.arff。
3.Iris-virginica全部改為1,其餘兩種均改為0,存成檔名iris3virginica.arff。
執行weka→Explorer→Preprocess - OpenFile→Classify - Choose_
functions: LinerRegression
iris1setosa.arff
Linear Regression Model
class =
0.079 * sepallength +
0.228 * sepalwidth +
-0.2561 * petallength +
0.1382
iris2versicolor.arff
Linear Regression Model
class =
-0.4548 * sepalwidth +
0.2032 * petallength +
-0.4711 * petalwidth +
1.5232
iris3virginica.arff
Linear Regression Model
class =
0.1791 * sepalwidth +
0.513 * petalwidth +
-0.8286
※以上跑出三個不同的線性迴歸。
內部效度:利用範例(訓練、學習)資料來檢驗訓練出來的model的準確度。(已經發生)
外部效度:利用未來資料檢驗是否準確。(還沒發生)
準確度會有問題(疑慮),與期望的百分比有關,不可能百分百。
例如:希望訓練出來的model的準確率必須達80%,未達標則修正演算法或增加資料,一值無法達到則稱為UnderLearing。
UnderLearing(UnderFitting適配不足): 代表使用的演算法不適用,必須換model。
OverLearing(OverFitting過度適配): 超過80%很多、很多,檢測是否OverLearing的方法是拿未來資料預測準確度,若低於80%,則可以確定為OverLearing。(不須更換model)此時應增加訓練資料(已發生的)。
n取10,隨機取1份當外部效度測試資料,9份為內部效度訓練資料、總共跑10個輪迴,共得到10個外部效度與10個內部效度,此為10 fold cross-validation 。
以線性迴歸當分類器的缺點,結果數值是由負無窮大~正無窮大。
Logistic Regression 羅傑斯迴歸 (屬於線性函數)
找出一個輸出結果會介於0~1之間的函數。
https://www.yongxi-stat.com/logistic-regression/
分類是重要議題
函數分類:線性函數、非線性函數。
線性函數:y=ax+b,a是斜率、b是常數,符合線性函數的情況極少,但是外部效度好。
非線性函數:大部分情況是結果不在一條直線上,例如:y=ax2+b
。深度學習就非常適合於此,例如「影像識別」、「語音識別」。
2022/7/15
瀏覽DataMining網站:https://www.cs.waikato.ac.nz/ml/weka/book.html
On Line是Weka PDF(操作、介紹)
機器學習:因→果、時序、預測。。。
機器學習分類方式:監督式、非監督式。
監督式學習:輸入資料內容有x(因)也有y(果),透過機器學習演算法找出x,y對應關係。
非監督式學習:輸入資料內容有各種屬性,不區分誰是x、誰是y,關連與分群的概念。關聯:關心的是變數之間的關聯式,而不是因果關係。
購物車分析:把每個品項都當成一個變項。關聯分析:顧客購買品項之間是否有相關(會牽涉大量計算)。
AND真值表:三維當二維處理,x1(X軸) x2(Y軸) y(黑、白點),y以色球表示,把四個y點(一黑、三白)以一條直線分割成兩邊(分割超平面),y-ax-b=0。
資訊科學教學法
108課綱核心素養:https://12basic.edu.tw/12about-3-1.php
推薦影片:社群網戰
PAPA: 隱私權(Privacy)、精確性(Accuracy)、財產權(Property)、存取權(Accessibility)
![](https://www.google.com/images/icons/product/drive-32.png)
![](https://www.google.com/images/icons/product/drive-32.png)
需求層次理論:https://zh.wikipedia.org/zh-tw/%E9%9C%80%E6%B1%82%E5%B1%82%E6%AC%A1%E7%90%86%E8%AE%BA
系統開發沒有所謂的「銀色子彈」(可以殺死吸血鬼)。
電腦輔助協同學習:Computer-supported collaboration learing (CSCL)
實驗式學習:https://www.brianlinkletter.com/2014/02/psimulator2-graphical-network-simulator/
資訊科技學習工具
多媒體學習
數學媒體庫:https://www.mathwarehouse.com/programming/gifs/binary-search-tree.php
河內塔互動遊戲:https://www.mathsisfun.com/games/towerofhanoi.html
可汗學院:https://www.khanacademy.org/
CPU的模擬軟體:http://www.cs.colby.edu/djskrien/CPUSim/
VISUALGO: https://visualgo.net/
不插電學習活動
不插電的電腦科學:https://www.csunplugged.org/
利用硬體進行學習:Arduino、Raspberry Pi、Micro Bit、Web Bit
程式設計教學方法
視覺化程式設計:Alice、Scratch、Greenfoot、Code.Org
資訊科技的跨領域教學
影像及語音辨識平台(機器學習):https://teachablemachine.withgoogle.com/
※照片素材上傳給平台辨識,必須是同一物品或物種,平台才能辦試出來。※
※辨識口罩成功率算高 辨識男女...失敗率很高。只有貓邊視率比較好 。
螞蟻演算法:https://www.youtube.com/watch?v=hXUCCRiNBOc
蜜蜂演算法:
羅倫佐的油:神經模鞘退化症
神經大條:代表神經細胞門檻值「高」(閥值),要引起興奮的門檻較高、較不易進入興奮狀態。
「閥值」具有權重(weight)概念。(step function)
神經運算基本架構:Y=f(X),n個輸入、一個輸出。
人工網路演算法: