Yahoo 架構工程師 Vivek Ratan 也是 Hadoop 框架的開發者之一,他表示:「目前使用 Hadoop 框架的雲端運算,任務規模最大的是 Yahoo 用來建立網頁索引資料庫的運算,同時使用 1萬個 Linux 平臺的處理器核心,處理 1兆個網頁連結,從 4PB 的資料,運算得出 300TB 的索引數據。」他進一步補充:「以相用的機器設 備,改用 Hadoop 來處理相同任務,比起原本利用叢集運算的方式,節省了 1/3 的時間。」
雲端運算用來處理大量資料的優勢,也吸引了許多企業投入。例如 IBM 去年宣布和 Google 合作,在大陸進行藍雲計畫 (Blue Cloud),使用 Hadoop 框架,來處理科學計算或提供雲端運算的服務。
和傳統超級電腦或大型主機的架構相比,Vivek Ratan 認為雲端運算的系統架構是完全不同的設計典範,傳統大型主機是垂直式擴充(Vertical Scaling) 的設計架構,而像 Hadoop 或 Google 的雲端運算,則是採取水平式擴充 (Horizontal scaling) 的設計架構。
垂直式的擴充,是指不斷提高單一臺伺服器的運算能力,例如,盡力讓單一臺伺服器配備更多的運算核心,來提升應用程式可以處理的資料量;而水平式擴 充則是,不斷增加伺服器的數量,就能提高應用程式可以處理的資料量,而不需要提高單一臺伺服器的運算能力。所以,以採取水平式擴充設計的 Hadoop 來說,隨著使用應用程式服務的使用者越來越多,要處理的資料量越來越大,就只需要不斷增加新伺服器即可,而不需要修改原來的應用程式碼。
Vivek 進一步指出水平式擴充的兩個優點,他說:「因為可以藉由大量擴充伺服器來提高運算能力,所以不需要使用很貴的伺服器,一般 PC 等級的電腦就足夠。」買一臺大型主機需要上千萬元,但是企業用相同的費用可買到數百臺個人電腦,透過 Hadoop 整合,就能提供超過單一臺大型主機的運算能力,換 言之,可以使用更低的成本,得到更高的運算效能。
另一個更大的優點是可以提高系統容錯能力。雖然單一臺大型主機的運算能力很高,但就像是將所有雞蛋都放在同一個籃子中,一旦當機,主機所執行的應 用程式就會完全停擺,無法提供服務,即使有備援系統,也需要一段時間來轉換服務。在 Hadoop 的架構下,則是透過一臺 Master 主機將程式切割成很多部分,分配到很多臺電腦中執行,即使有幾臺電腦當機,Master 主機也能馬上將需要運算的部分交給閒置的電腦執行,整體的應用程式服務不會中斷。
Vivek 表示,在單一任務的運算中,甚至是即便有十分之一的電腦當機,運算仍舊可以繼續執行,他說:「雖然效能會變慢,但是不會中斷。」網管人員只需要將作業環境的備份檔,回復到新的機器中,就可以很快再加入 Hadoop 的運算環境中提供服務。
運算成本的降低是雲端運算最明顯的效益,Google 臺灣工程研究所簡立峰表示:「大型企業逐漸感受到單臺伺服器、儲存和維護等成本增加的壓力, 以及管理人力增加的問題,目前臺灣有興趣的企業,多半先看到雲端運算降低成本和人力的好處。」他接著說:「再堅持一段時間,這些企業就會看到雲端運算的速 度價值。」
簡立峰認為過去很多企業所提供的網路應用,往往受到技術上的限制,顧慮到企業使用的運算環境無法勝任大量資料處理及大量使用者連線,因此能提供的 可行服務有限。但是,透過雲端運算,可以用較低的成本來處理大量資料,提供使用者幾乎是即時的資訊服務。簡立峰說:「速度是產生應用的關鍵,隨著資料量越 大,就越能感受到速度的差異。」
趨勢科技正是善用雲端服務的速度,來提供新的網路安全服務。趨勢大約從 4年前開始使用平行運算技術,來提供企業用戶過濾網頁內容的服務。隨著網頁內容檢查的需求越來越高,企業或一般使用者希望趨勢科技的安全防護,可以過濾像是釣魚網站或惡意連結的網頁內容,確保用戶上網時的安全。
但是病毒演化速度越來越快,網頁惡意程式的手法日趨複雜,趨勢科技發現需要龐大的運算能力,才足以分析每天 47億筆的網頁內容,而且病毒碼更新速度也必須隨時更新,才能讓使用者的防護沒有空窗期。
趨勢科技研究開發部專案經理楊覲寧說:「當外面環境快速改變時,使用者希望安全廠商還是能夠提供保障,因而產品更新的速度就很重要。」
再加上,趨勢的研究團隊分散在臺灣、美國與日本等地,每天需要分析的資料量高達 Terabytes 的等級,若要跨國搬移資料,所需連線成本非常高,速度也很慢,連帶也會影響了產品更新的速度。
楊覲寧指出,趨勢利用開源的雲端技術與網格技術,將服務放到雲端 (in-the-cloud),不但可以讓服務的反應速度很快、開發解決方案的速 度很快,還能解決大量資料要跨地域運算的問題。她說:「過去要跑一天的分析任務,現在幾秒鐘就可以得到結果。如果使用者得等一天才能獲得安全防護,根本就 來不及。對資安廠商來說,雲端服務是非做不可。」
趨勢科技很早就體會到雲端運算的威力,當相關技術都還在發展的過程,就已經開始投入。隨著 Google 和 Yahoo 今年都相繼來臺推廣雲端運算, 同時也與臺灣不少大學合作培訓雲端運算的開發人力。簡立峰認為臺灣企業運用雲端運算的時機漸漸成熟,進入門檻將會越來越低,他說:「未來的應用都會跟雲端 運算有關,對想要創新的企業來說,可以開始思考這個技術的可能性。」
Yahoo 於 2前年開始參與開源的雲端運算框架 Hadoop,並將其使用在內部服務中。今年 2月 Yahoo發表了目前最大的 Hadoop 應用,在 2千臺伺服器上面,執行超過 1萬個 Hadoop 虛擬機器,來處理超過 5Petabytes 的網頁內容,分析大約 1兆個網路連結,建立整個網際網路的網頁索引資料,壓縮過的索引資料庫大小,超過 300TB. 目前 Yahoo 已經在日常提供的搜尋服務中,使用 Hadoop 技術。
http://www-07.ibm.com/tw/imc/igs/article/2_1/3.html