NKNU.孫培真老師

2022/7/12~2022/7/15

13:00~17:00

2022/7/12

《莊子·列御寇》: 朱泙漫習屠龍於支離益,單千金之家,三年技成,而無所用其巧。

歐巴馬:https://www.youtube.com/watch?v=apB7IUOzaAM

Data Mininghttps://www.cs.waikato.ac.nz/ml/weka/book.html

2022/7/13

Data Mining

變項:名義變項、次序變項、等距變項和等比變項

nominal variableordinal variableinterval variableratio variable

名義變項:http://chenchunlin.blogspot.com/2008/10/assignment-ch2-4.html


https://we147121.pixnet.net/blog/post/290515592-%E4%B8%89%E5%88%86%E9%90%98%E6%90%9E%E6%87%82%E8%AE%8A%E9%A0%85%E8%88%87%E9%87%8F%E5%B0%BA



數值資料、類別資料

數值資料:不一定只是表示數字而已,可以在分成四個等級。

數值資料種類:1.名義變項:由名無實的數字(1=男生、2=女生),2.次序變項:(數字大小代表不同強度,ex:滿意度調查),3.區間變項:,4.等比(比例)變項:

非數值式的數值資料,演算法必須轉換成真正的數值,因此有失真的問題。

Supervization Learing

監督式學習、非監督式學習

輸出表示方式:法則、函數。

法則

演算法四種分類法:分類、分群、關聯、預測,其中「分類」最為重要。法則可以表達知識。

輸入(經驗資料)→機器學習(法則)→知識 (因果關係)

函數

函數也可以表達因果關係,意即函數也可以表達知識。

Q:「分類問題」與「數值問題」何者正確性較高?

A:分類問題是有限的,而數值問題有多樣性(密緻性),所以「分類問題」較有準確性。(任兩個數值之間存在著其他無限的數值)

數值預測

線性迴歸

C:\Program Files\Weka-3-8-6\data\cpu,arff

Prepoocess

Classify

Function - LinerRegression (線性迴歸)


知識表示的兩種型態:類別、數值。

機器學習過程稱之為「model建模」,model是會經過不斷修正、加入變項才能獲得較準確完整的model。

預測未來並不是一件簡單的事情。

演算法輸出表示方式如果是「法則」,則輸入時必須是『類別變項』。

數值轉類別(coding)會有失真問題,必須審慎評估。

類別轉數值實作題,以記事本開啟C:\Program Files\Weka-3-8-6\data\iris.arff,修改輸出為數值變項(class)REAL。

1.Iris-setosa全部改為1,其餘兩種均改為0,存成檔名iris1setosa.arff。

2.Iris-versicolor全部改為1,其餘兩種均改為0,存成檔名iris2versicolor.arff。

3.Iris-virginica全部改為1,其餘兩種均改為0,存成檔名iris3virginica.arff。

執行weka→Explorer→Preprocess - OpenFile→Classify - Choose_

functions: LinerRegression

iris1setosa.arff

Linear Regression Model

class =

0.079 * sepallength +

0.228 * sepalwidth +

-0.2561 * petallength +

0.1382

iris2versicolor.arff

Linear Regression Model

class =

-0.4548 * sepalwidth +

0.2032 * petallength +

-0.4711 * petalwidth +

1.5232

iris3virginica.arff

Linear Regression Model

class =

0.1791 * sepalwidth +

0.513 * petalwidth +

-0.8286

※以上跑出三個不同的線性迴歸。


內部效度:利用範例(訓練、學習)資料來檢驗訓練出來的model的準確度。(已經發生)

外部效度:利用未來資料檢驗是否準確。(還沒發生)

準確度會有問題(疑慮),與期望的百分比有關不可能百分百

例如:希望訓練出來的model的準確率必須達80%,未達標則修正演算法或增加資料,一值無法達到則稱為UnderLearing。

UnderLearing(UnderFitting適配不足): 代表使用的演算法不適用,必須換model。

OverLearing(OverFitting過度適配): 超過80%很多、很多,檢測是否OverLearing的方法是拿未來資料預測準確度,若低於80%,則可以確定為OverLearing。(不須更換model)此時應增加訓練資料(已發生的)。

n取10,隨機取1份當外部效度測試資料,9份為內部效度訓練資料、總共跑10個輪迴,共得到10個外部效度與10個內部效度,此為10 fold cross-validation

以線性迴歸當分類器的缺點,結果數值是由負無窮大~正無窮大。

Logistic Regression 羅傑斯迴歸 (屬於線性函數)

找出一個輸出結果會介於0~1之間的函數。

https://www.yongxi-stat.com/logistic-regression/

分類是重要議題

函數分類:線性函數、非線性函數。

線性函數:y=ax+b,a是斜率、b是常數,符合線性函數的情況極少,但是外部效度好。

非線性函數:大部分情況是結果不在一條直線上,例如:y=ax2+b

深度學習就非常適合於此,例如「影像識別」、「語音識別」。

2022/7/15

瀏覽DataMining網站:https://www.cs.waikato.ac.nz/ml/weka/book.html

On Line是Weka PDF(操作、介紹)

機器學習:因→果、時序、預測。。。

機器學習分類方式:監督式、非監督式。

監督式學習:輸入資料內容有x(因)也有y(果),透過機器學習演算法找出x,y對應關係。

非監督式學習:輸入資料內容有各種屬性,不區分誰是x、誰是y,關連與分群的概念。關聯:關心的是變數之間的關聯式,而不是因果關係。

購物車分析:把每個品項都當成一個變項。關聯分析:顧客購買品項之間是否有相關(會牽涉大量計算)。

AND真值表:三維當二維處理,x1(X軸) x2(Y軸) y(黑、白點),y以色球表示,把四個y點(一黑、三白)以一條直線分割成兩邊(分割超平面),y-ax-b=0。

資訊科學教學法

108課綱核心素養:https://12basic.edu.tw/12about-3-1.php

推薦影片:社群網戰

神經網路:https://neuralink.com/

PAPA: 隱私權(Privacy)、精確性(Accuracy)、財產權(Property)、存取權(Accessibility)

科技領域課綱公播版簡報.pdf
科技領域課綱公播版簡報.pptx

需求層次理論:https://zh.wikipedia.org/zh-tw/%E9%9C%80%E6%B1%82%E5%B1%82%E6%AC%A1%E7%90%86%E8%AE%BA

系統開發沒有所謂的「銀色子彈」(可以殺死吸血鬼)。

電腦輔助協同學習:Computer-supported collaboration learing (CSCL)

實驗式學習:https://www.brianlinkletter.com/2014/02/psimulator2-graphical-network-simulator/

資訊科技學習工具

多媒體學習

數學媒體庫:https://www.mathwarehouse.com/programming/gifs/binary-search-tree.php

河內塔互動遊戲:https://www.mathsisfun.com/games/towerofhanoi.html

可汗學院:https://www.khanacademy.org/

CPU的模擬軟體:http://www.cs.colby.edu/djskrien/CPUSim/

VISUALGO: https://visualgo.net/

不插電學習活動

不插電的電腦科學:https://www.csunplugged.org/

利用硬體進行學習:Arduino、Raspberry Pi、Micro Bit、Web Bit

程式設計教學方法

視覺化程式設計:Alice、Scratch、Greenfoot、Code.Org

資訊科技的跨領域教學

影像及語音辨識平台(機器學習):https://teachablemachine.withgoogle.com/

※照片素材上傳給平台辨識,必須是同一物品或物種,平台才能辦試出來。※

※辨識口罩成功率算高 辨識男女...失敗率很高只有貓邊視率比較好

螞蟻演算法:https://www.youtube.com/watch?v=hXUCCRiNBOc

蜜蜂演算法:

羅倫佐的油:神經模鞘退化症

神經大條:代表神經細胞門檻值「高」(閥值),要引起興奮的門檻較高、較不易進入興奮狀態。

閥值」具有權重(weight)概念。(step function)

神經運算基本架構:Y=f(X),n個輸入、一個輸出。

人工網路演算法: