課程名稱：程式設計

NKNU.孫培真老師

2022/7/12~2022/7/15

13:00~17:00

2022/7/12

《莊子·列御寇》: 朱泙漫習屠龍於支離益，單千金之家，三年技成，而無所用其巧。

歐巴馬：https://www.youtube.com/watch?v=apB7IUOzaAM

Data Mining：https://www.cs.waikato.ac.nz/ml/weka/book.html

2022/7/13

Data Mining

變項：名義變項、次序變項、等距變項和等比變項

nominal variable 、ordinal variable 、interval variable 、ratio variable 。

名義變項：http://chenchunlin.blogspot.com/2008/10/assignment-ch2-4.html

https://we147121.pixnet.net/blog/post/290515592-%E4%B8%89%E5%88%86%E9%90%98%E6%90%9E%E6%87%82%E8%AE%8A%E9%A0%85%E8%88%87%E9%87%8F%E5%B0%BA

數值資料、類別資料

數值資料：不一定只是表示數字而已，可以在分成四個等級。

數值資料種類：1.名義變項：由名無實的數字(1=男生、2=女生)，2.次序變項：(數字大小代表不同強度，ex:滿意度調查)，3.區間變項：，4.等比(比例)變項：

非數值式的數值資料，演算法必須轉換成真正的數值，因此有失真的問題。

Supervization Learing

監督式學習、非監督式學習

輸出表示方式：法則、函數。

法則

演算法四種分類法：分類、分群、關聯、預測，其中「分類」最為重要。法則可以表達知識。

輸入(經驗資料)→機器學習(法則)→知識 (因果關係)

函數

函數也可以表達因果關係，意即函數也可以表達知識。

Q:「分類問題」與「數值問題」何者正確性較高？

A:分類問題是有限的，而數值問題有多樣性(密緻性)，所以「分類問題」較有準確性。(任兩個數值之間存在著其他無限的數值)

數值預測

線性迴歸

C:\Program Files\Weka-3-8-6\data\cpu,arff

Prepoocess

Classify

Function - LinerRegression (線性迴歸)

知識表示的兩種型態：類別、數值。

機器學習過程稱之為「model建模」，model是會經過不斷修正、加入變項才能獲得較準確完整的model。

預測未來並不是一件簡單的事情。

演算法輸出表示方式如果是「法則」，則輸入時必須是『類別變項』。

數值轉類別(coding)會有失真問題，必須審慎評估。

類別轉數值實作題，以記事本開啟C:\Program Files\Weka-3-8-6\data\iris.arff，修改輸出為數值變項(class)REAL。

1.Iris-setosa全部改為1，其餘兩種均改為0，存成檔名iris1setosa.arff。

2.Iris-versicolor全部改為1，其餘兩種均改為0，存成檔名iris2versicolor.arff。

3.Iris-virginica全部改為1，其餘兩種均改為0，存成檔名iris3virginica.arff。

執行weka→Explorer→Preprocess - OpenFile→Classify - Choose_

functions: LinerRegression

iris1setosa.arff

Linear Regression Model

class =

0.079 * sepallength +

0.228 * sepalwidth +

-0.2561 * petallength +

0.1382

iris2versicolor.arff

Linear Regression Model

class =

-0.4548 * sepalwidth +

0.2032 * petallength +

-0.4711 * petalwidth +

1.5232

iris3virginica.arff

Linear Regression Model

class =

0.1791 * sepalwidth +

0.513 * petalwidth +

-0.8286

※以上跑出三個不同的線性迴歸。

內部效度：利用範例(訓練、學習)資料來檢驗訓練出來的model的準確度。(已經發生)

外部效度：利用未來資料檢驗是否準確。(還沒發生)

準確度會有問題(疑慮)，與期望的百分比有關，不可能百分百。

例如：希望訓練出來的model的準確率必須達80%，未達標則修正演算法或增加資料，一值無法達到則稱為UnderLearing。

UnderLearing(UnderFitting適配不足): 代表使用的演算法不適用，必須換model。

OverLearing(OverFitting過度適配): 超過80%很多、很多，檢測是否OverLearing的方法是拿未來資料預測準確度，若低於80%，則可以確定為OverLearing。(不須更換model)此時應增加訓練資料(已發生的)。

n取10，隨機取1份當外部效度測試資料，9份為內部效度訓練資料、總共跑10個輪迴，共得到10個外部效度與10個內部效度，此為10 fold cross-validation 。

以線性迴歸當分類器的缺點，結果數值是由負無窮大~正無窮大。

Logistic Regression 羅傑斯迴歸 (屬於線性函數)

找出一個輸出結果會介於0~1之間的函數。

https://www.yongxi-stat.com/logistic-regression/

分類是重要議題

函數分類：線性函數、非線性函數。

線性函數：y=ax+b，a是斜率、b是常數，符合線性函數的情況極少，但是外部效度好。

非線性函數：大部分情況是結果不在一條直線上，例如：y=ax²+b

。深度學習就非常適合於此，例如「影像識別」、「語音識別」。

2022/7/15

瀏覽DataMining網站：https://www.cs.waikato.ac.nz/ml/weka/book.html

On Line是Weka PDF(操作、介紹)

機器學習：因→果、時序、預測。。。

機器學習分類方式：監督式、非監督式。

監督式學習：輸入資料內容有x(因)也有y(果)，透過機器學習演算法找出x,y對應關係。

非監督式學習：輸入資料內容有各種屬性，不區分誰是x、誰是y，關連與分群的概念。關聯：關心的是變數之間的關聯式，而不是因果關係。

購物車分析：把每個品項都當成一個變項。關聯分析：顧客購買品項之間是否有相關(會牽涉大量計算)。

AND真值表：三維當二維處理，x1(X軸) x2(Y軸) y(黑、白點)，y以色球表示，把四個y點(一黑、三白)以一條直線分割成兩邊(分割超平面)，y-ax-b=0。

資訊科學教學法

108課綱核心素養：https://12basic.edu.tw/12about-3-1.php

推薦影片：社群網戰

神經網路：https://neuralink.com/

PAPA: 隱私權(Privacy)、精確性(Accuracy)、財產權(Property)、存取權(Accessibility)

科技領域課綱公播版簡報.pdf

科技領域課綱公播版簡報.pptx

需求層次理論：https://zh.wikipedia.org/zh-tw/%E9%9C%80%E6%B1%82%E5%B1%82%E6%AC%A1%E7%90%86%E8%AE%BA

系統開發沒有所謂的「銀色子彈」(可以殺死吸血鬼)。

電腦輔助協同學習：Computer-supported collaboration learing (CSCL)

實驗式學習：https://www.brianlinkletter.com/2014/02/psimulator2-graphical-network-simulator/

資訊科技學習工具

多媒體學習

數學媒體庫：https://www.mathwarehouse.com/programming/gifs/binary-search-tree.php

河內塔互動遊戲：https://www.mathsisfun.com/games/towerofhanoi.html

可汗學院：https://www.khanacademy.org/

CPU的模擬軟體：http://www.cs.colby.edu/djskrien/CPUSim/

VISUALGO: https://visualgo.net/

不插電學習活動

不插電的電腦科學：https://www.csunplugged.org/

利用硬體進行學習：Arduino、Raspberry Pi、Micro Bit、Web Bit

程式設計教學方法

視覺化程式設計：Alice、Scratch、Greenfoot、Code.Org

資訊科技的跨領域教學

影像及語音辨識平台(機器學習)：https://teachablemachine.withgoogle.com/

※照片素材上傳給平台辨識，必須是同一物品或物種，平台才能辦試出來。※

※辨識口罩成功率算高辨識男女...失敗率很高。只有貓邊視率比較好。

螞蟻演算法：https://www.youtube.com/watch?v=hXUCCRiNBOc

蜜蜂演算法：

羅倫佐的油：神經模鞘退化症

神經大條：代表神經細胞門檻值「高」(閥值)，要引起興奮的門檻較高、較不易進入興奮狀態。

「閥值」具有權重(weight)概念。(step function)

神經運算基本架構：Y=f(X)，n個輸入、一個輸出。

人工網路演算法：