雲端計算(分散式系統)

 
雲端計算(Cloud Computing), 雲計算
這個詞老魚想應該只有一半的人認為很有創新, 但在另一半的人心裡一定想說, 這不過是分散式叢集(Distributed Cluster)運算/網格(Grid)的舊瓶新裝, 也許是吧 ..., 但早年這方面的技術被商業型的大公司視為商業機密技術, 不同的公司也對 Computer Cluster 的定義與實作標準都不同, 這導致了幾個新問題:
  1. 獨有的 Cluster 技術並非是最佳甚至友善程度高的系統
  2. 受限於特定廠商的硬體架構
  3. 實作研究的機會受到資源取得限制
  4. 學習的成本困難與高昂
  5. 非開放性的壟斷市場

 那跟今日的 Cloud Computing 有何差別呢 ? 老魚能用來說服自己的有下列的幾點:
  1. 隨著 Internet 佈網全球, 頻寬速度上不在是早年前的狀態, 分散式運算從 Local Site Cluster 變成以 Internet 的全球化佈局, 在當今最成功的案例就是以萬台為單位的 Google 最具代表性.
  2. 實作研究的資源取得, 也逐漸變成一種顯學, 甚至也逐漸出了非正式的標準架構可供參與與實現.
  3. 不同以往, 它伴隨著適用於此類系統的儲存系統來替代傳統關聯式資料庫的配套方案, 例如 Google 的 Bigtable, CODBMS(Columns-Oriented DBMS).
  4. 學習的成本降低了, 建置成本可以學習如同Google一樣的方式, 只須一般的PC規格, 配合GNU/Linux, 就可以創造比高單價的伺服器來的有效率與效果.
  5. 逐漸產生許多開放源始碼(OSS)的相關專案的發展與實作.





Cloud Computing


雲端運算-Google 2008台北程式開發日

是建立一個服務,你可以上去使用軟體應用但硬體更新與變動與您無任何的關係,您只需有個能上網的環境就行了.
  • Service and Data in the cloud,using with browser.
  • Large Scalability.



老魚研究團隊進展記錄 (Private)


(Private by Group, 當前人數: 11)

老魚團隊以 Apache Hadoop Project 為實作研究對象, 老魚為何選 Hadoop 來當雲計算實作研究主題, 最主要的三點理由:
  1. Apache Licence 2.0
  2. 老魚與我的團隊們, 全數人主專注於使用 Java / Linux / Mac OS.
  3. 我們的目標為在 Hadoop 上堆疊自行開發的 Java 套件為方向, 並進行適當的改造 Hadoop 效能與管理為最終理想.
  4. 有著龐大的開放社群Support.




參與研究當前HR分配


  • 統派指揮 * 2
  • 系統工程與安全研究 * 3
  • HBase 欄位導向型DBMS * 3
  • MapReduce * 7
參與者當前認證資格總數:
  • LPIC: 9
  • CCNA: 2
  • SCJP: 7
  • PostgreSQL: 1




研究進展記錄


GAE/J



相關系統分類


序列式應用系統
序列式應 用系統為大多數人們所使用的軟體類別,這類軟體系統係單獨於單一電腦上來執行運作。

分散式應用系統
分散式應用系統係運用多個計算引擎,可於單一或多部電腦上執行,並包含 多個不相互影響的工作。分散式應用系統,像是Monte Carlo 模擬系統,通常會以不同的輸入參數去不斷重複執行同一個演算法。

平行式應用系統
平行式應用系統同樣也運用在多個可於單一或多個電腦上執行的運算引擎,但平行式系統的工作 項目為獨立的且是在軟體執行時相互交換資料的。這些工作常會使用較大的資料集。



反向思考的評論文章


  • 談談所謂雲計算,也就那麼回事
  • 當雲飄到行動平台
    • 當涉及到處理能力 ,行動硬體的性質還是限制了它的發揮。而手機自己要處理的事務越多,電池的壽命就愈加短命。
    • 提出了一個被稱為克隆雲(CloneCloud)的服務,這項新服務使用雲計算為移動電話提供額外的運算處理能力。
    • 克隆雲系統帶來的一個主要好處就是它可以極大的改善手機的性能。比如, Chun就製作了一個可以在執行照片面部識別的測試應用。在移動電話上,它的運行需要100秒。但是如果將任務交給電腦處理,完成同樣的任務只要1秒。
  • Hadoop與Cache Pool 架構關係與區別


Google 機房帶來的省思


  • Google神秘伺服器大公開 
    • 從2005年起,其資料中心加入了標準運輸貨櫃,每個都有1160台伺服器,耗電量可達250 千瓦特(kilowatts)。
    • Jimmy Clidaras透露,該公司的資料中心核心是由標準1AAA貨櫃組成,每個貨櫃裡有1160台伺服器,每座資料中心都有好幾個貨櫃。
  • YouTube看得到Google資料中心設計
  • 系統強韌到能把硬碟直接擺在地上,壞了就拔,想加就加,於是 Gmail 的容量才能不停地成長。今天,連主機都變成那樣了:房間就像一個機箱,簡化過的主板,直接搭在機架上,一格就可以多放好幾片。哪一片的指示燈有問題就下架 換新,也不必檢查了。而且現在聽說還能用機器人自動化地檢查抽換。

    這樣的系統有什麼好處?除了維護成本下降之外,Google 還有一套專門操作這些主機群的代碼,開發者不必知道實際上會用到那一台機器、多少台機器,只管做自己想做的計算就是了。一個例子是,有人把維基百科數據庫 抓回來做自然語言處理的相關研究,terabyte(兆)規模的資料,只消十幾分鐘便處理完畢。事後去看看到底用了多少運算資源?不多,一千台而已。

    我在 P4 2G 的機器上,用普普通通 bi-gram 演算法,對megabyte(百萬)等級的中文維基語料進行斷詞,要...... 六小時。
  • Google比利時數據中心無冷卻劑 靠室外空氣製冷 2009-07-16
    • Google曾在今年春天公開討論過其無需冷卻劑的降溫裝置.該公司表示,根據比利時的氣候條件,每年只有7天左右無法使用自由冷卻方式.在比較炎熱的夏天,Google可以將該數據中心的計算任務轉移到其它數據中心中.
      Google幾乎可以即時性的在不同數據中心之間進行負載轉移,就如同在服務器之間移動數據一樣.Google喜歡把每個數據中心看作一個大機器.



基於Azure雲計算平台的網格計算,第1部分 作者 David Pallmann - 2009年8月27日


News





Stable Storge


  • DFS
    • GFS
    • HDFS
    • KFS

References


  1. Distributed Systems, http://code.google.com/intl/zh-TW/edu/parallel/
  2. 騰雲駕霧程式競賽 - 趨勢科技 2009-05~07



Glossary



Showing 9 items
Full NameChinese Name-TWCN
Sort 
 
Sort 
 
Sort 
 
Full NameChinese Name-TWCN
Chunk server == Data Node   
Chunk Size == Block Size   
Cloud Computing 雲端計算 雲計算 
DFS, Distributed File System 分散式檔案系統  
Distribution File System 分散式檔案系統 分佈文件系統 
GFS, Google File System   
HDFS Hadoop DFS  
Master == Name node   
Parallel Computing 平行運算  
Showing 9 items