組員心得

傅鈺婷

本學期參與完讀書會後,對於shinyapp的操作有更詳細的了解,且在想要更發展更厲害的App時,連結hardoop大數據平台,因此有了不同的經驗。從一開始對於Yelp資料半矇半知到後期對於yelp資料有一定的了解,非常感謝Tony老師的指導與幫忙,在我們對於修改app不知所措時,能強大的提供協助!

黃天原

能夠有機會參加這個讀書會,真的是非常開心,感謝Tony老師指導,也感謝佳蒨協助籌備,還有一起努力的組員竹秀。

我們這組原本預計是延續暑假讀書會的目標,利用yelp文集的資料,做出一個文字雲的shiny app。不過在過程中,踩了不少Spark的坑,這邊我簡單紀錄幾個點。

Spark跑一跑結果Rstudio server這種就不提了。比較有印象的是,因為Spark的運作方式是"lazy evaluation",意思就是當我們寫一串資料的清理跟篩選,指派成一個新的物件時,它並不會馬上執行,而要等到我們下一次call那個物件的時候,才會把上面的清理一併執行。這樣的運作方式,跟一半我們在課上鍊習資料科學的資料清理時,完全不一樣。以往因為馬上就可以看到結果,所以在做資料清理與探索的時候,我們會養成不斷來回在執行、看結果、畫圖這三個步驟間跳來跳去。因為無論哪個步驟都不花時間,所以就可以不斷試誤,根據結果再回去修改自己的作法。

但Spark「你的物件不是你的物件」的特性,加上每次做資料篩選都要花好長一段時間,讓習慣用以往習慣的探索資料方式,在需要Spark的時候一直碰壁。想跨過這個坑,就只能在真正用Spark幫我們處理大量數據之前,先想清楚我們對資料後續的處理步驟。

沈佳蒨

因為這個讀書會,讓我有機會接觸到更多R語言的應用,從一開始懵懵懂懂,沒用過server、spark,甚至還會在用完spark後忘記放掉,到後期越來越熟悉,也開始有機會接觸到過去一直很想學但沒機會學的shiny app,對我而言都是難忘又富有意義的過程。

真的很謝謝讀書會的大家願意在我決定當召集人時熱情投入,給了我一個很棒的學習機會。看著我們的app慢慢誕生,很感謝我的好夥伴-鈺婷、子婷的幫忙,總是在我不知所措或是因為其他事情無法抽身時幫助我,當然,也很感謝Tony老師耐心的指導與及時的救援,幫助我們一次次度過難關,一次次從難關中成長。

鄭子婷

在讀書會中,我們利用美國 Yelp網站提供的資料為資料集,使用 Spark、Hadoop 處裡大數據資料,並利用 R 語言實作評論與情緒、話題、字根的分析,最後還利用Shiny APP製作出可互動式的APP網頁。

我和我的組員鈺婷、佳蒨都是第一次接觸如此龐大的資料量,在過程中遇到了不少困難,從如何找出每個評論所屬的類別、如何從Spark中將文章抓出、到要如何將做好的東西放到 APP 之中,都經歷了不少的努力和出現了不少的錯誤訊息,十分感謝 Tony 老師每一次都耐心地為我們解惑以及和我們一起Debug,讓我們在這個過程中學習到了許多在資料分析上的知識與技術。

鄭竹秀

很開心能從暑假開始參與讀會並持續到這個學期末,我們處理的資料是國外美食網站-yelp的評論內容來進行大數據分析,因為是第一次處理如此龐大的文集,在剛開始的時候也毫無頭緒,很感謝Tony老師的指導與幫忙,讓我們逐漸有了方向,也少走了許多冤妄路。


雖然在使用Spark的過程中,遇到很多無解的困難,在資料清理的時候也頻頻卡關,有時分析出來的結果更是不慎理想,但非常感謝認真的組員天原,一起努力debug並優化我們的App,在過程中不僅學到很多資料分析的知識,更獲得許多難能可貴的經驗!