◎上週複習:
核心為認知技術,其實踐步驟:
一、給定目標、經過訓練:感測環境、分析大數據。
二、採取行動及回饋:以實現既定目標。
三、機器學習:學習調整後續行為。
一、數據的來源:
在人工智慧領域裡,想要讓電腦具有處理龐大數據的能力,首先就要準備大量的資料。到底要去哪裡尋找資料呢?以下就是幾種常見的蒐集數據方式:
(一)政府公開資訊:
政府單位將資訊公開在網路上,使用者只要遵守網站資料開放相關規定,便可以在網路上擷取自己所需資料。包含求學進修、求職就業、休閒旅遊、生活安全及品質等各種琳瑯滿目的資訊,皆開放自行下載。
政府資料開放平臺網站之首頁:https://data.gov.tw/
(二)網路爬蟲:
許多人會使用網路搜尋引擎尋找資料,但是當資料多
到上百筆甚至上千筆時,可以使用「網路爬蟲」程式。「網路爬蟲」又稱為「網路蜘蛛」,它就像蜘蛛網一樣,由中心主題往外延伸。
網路爬蟲的原理是透過網頁超連結尋找網頁,從初始網站某一頁面開始讀取網頁內容,找到關鍵字的超連結網址,再透過這些超連結尋找下一個網頁,如此循環,直到瀏覽所有網頁,並將所需資料擷取,這種技術就叫做「網路爬蟲」。
資料探勘(Data Mining),是使用一些技巧和工具所長期蒐集的資料當中截取出有用資訊的方法。
(三)公司行號的API:
API(Application Programming Interface)扮演應用程式和應用程式之間的橋樑。讓開發者可以利用公司提供的資料,進行開發。
例如:Facebook上每分每秒的貼文、回覆、照片、按「讚」數; Google搜尋引擎關鍵字搜尋次數、網站登錄紀錄,這些都屬於大數據的範疇。用以分析、研究、擴展運用,例如:分析消費者喜好、設計行銷策略等。
(四)其他:
除了上述資料蒐集的方法之外,還有許多蒐集資料的資料來源。例如:使用網路攝影機蒐集影像資訊進行人臉辨識、物品分類、場景辨識;使用錄音設備蒐集聲音檔進行語音辨識、歌曲辨識。蒐集資料的方式愈來愈多元,也使得人工智慧可以應用的領域更加廣泛。
二、數據整理:
當我們蒐集到各種資料之後,並不代表全部資料都可使用。利用各種方法蒐集到的資料,必須經過整理、分析才能成為有效的資訊,也才能產生它的價值。因此,錯誤或無法使用的資料,必須在進行機器學習之前先進行整理。
在電腦的領域中,有句話叫做「垃圾進、垃圾出(Garbage in, garbage out,GIGO)」。如果我們輸入電腦的資料是錯誤的或沒有意義的,那無論經過什麼形式的資料處理,電腦回報給我們的資料也會是錯誤的、沒有意義的訊息。
◎剔除Dirty Data:
左圖為阿志蒐集班上1~11號同學鉛筆盒中原子筆長度與重量的數據,為了之後的資料分析,請針對以下原子筆的二種屬性(長度及重量),將表中錯誤的、無用的資料劃掉,並說明它可能錯誤的原因。
三、從數據中發現特徵:
人工智慧系統如果要能正確分類,必須先進行挑選特徵。挑選的特徵越多,可以提供的資訊就會越多,但進行分析時會更耗時,也可能因為過多不相干的資訊導致分類能力下降。因此,不論是挑選的特徵良好與否,或者是所挑選特徵的數量,兩者都很重要。
◎練習一: 蛾的分類
老師帶全班戶外教學,大家在野外看到成群飛舞的蛾。但是每一隻都長得好像,要怎麼分辨牠們呢? 於是老師跟大家介紹水青蛾與帝王蛾的外觀特性,並將16隻蛾(8隻水青蛾、8隻帝王蛾)的分類方式介紹給同學認識。
(一)利用數據,將蛾標示在座標圖上。
(請直接在 作業1-1 上作答)
(二)如何利用這張座標圖,來判斷其他隻蛾的種類呢?
(請直接在 作業1-2 上作答)
圖文來源: 教育部「和AI做朋友-相識篇」