一、 空氣品質
由於測站相當多,且分布相當廣,經由討論及考量後,我們決定只考慮六都(台北市、新北市、桃園市、台中市、台南市、高雄市)的情況,分別收集民國101年至105年六都的測站資料以及疾病資料。其中空氣品質資料包含:空氣中臭氧(O3)、細懸浮微粒(PM2.5)、懸浮微粒(PM10)、一氧化碳(CO)、二氧化硫(SO2)及二氧化氮(NO2)濃度等數值;疾病方面,由衛生福利部統計處查詢民眾就診紀錄中挑選數個我們認為與空氣汙染有相關的疾病做分析,分別有結核病、腫瘤、貧血、糖尿病、精神與行為疾病、神經系統疾病、白內障、高血壓疾病、呼吸系統疾病。此外,我們還將地區區分為工業區、住宅區以及六都,並使用excel內建圖表繪製折線圖,比較是否有顯著差異。
由行政院環保署下載之原始資料為原始資料每天每小時的紀錄,在觀察每一天24小時的折線圖之後,我們發空氣品質變數的變化趨勢都相同,因此,我們使用SAS做資料轉置與合併,把每小時合併成一天,並且只留下CO、、、PM10、PM2.5、。同樣的,在同一測站中,同一月份之30天基本上變化不大,所以,我們再把日資料合併成月資料。之後的分析就以月或是年的資料進行。
二、 疾病資料
疾病資料來自於衛生福利部統計處下載而來的住診合計(包含急診)就診統計,原始資料為當年度每十萬人口、160種疾病之就診率,分性別及年齡以及戶籍地區。我們從中選取了14種我們覺得與空氣汙染或許有相關的疾病,以及戶籍為6都的資料,做進一步的分析。
我們想要分析的目的有兩個1.比較工業區與住宅區之空氣品質差異
2.探討空氣汙染因子與疾病的相關性,因此,我們採用變異數分析與典型相關分析。
一、 變異數分析(Analysis of variance,簡稱ANOVA)
ANOVA是英國現代統計學大師費雪(R.A.Fisher)在1920年代從事農業實驗工作時所創造的統計方法,這項數據分析工具對於解讀實驗資料內所包含的意義十分有用。變異數分析就是利用樣本的組間變異與組內變異,比較多於兩個群體平均數。變異數分析法的基本假設有各群體均為常態分配、各群體的變異數均為相同、抽自各群體的隨機樣本均為獨立。
一、 典型相關分析(Canonical Correlation Analysis,CCA)
若要考慮兩個變數的相關性,我們會使用皮爾森相關係數(Pearson correlation coefficient)、若是考慮兩群變數的相關性,則可以使用典型相關分析。典型相關分析是利用同一組變數之相關係數矩陣計算權重,然後根據此權重合併同一組變數,成為一個新變數;再利用兩組的加權產生的新變數計算相關係數。這些新變數是原來變數的線性組合,稱為典型變數 (Canonical Variable)。