黃冠元
《技術部落格Complete Think》
可靠性工程(Reliability Engineering)是系統工程的子項目之一,概念上非常類似於 可用性(Available),依據《Practical Reliability Engineering》一書的定義,可靠性如下:
The probability that an item will perform a required function without failure under stated conditions for a statd period of time. (一個項目在規定的條件與時間內,運行需要的功能,而不發生故障的機率)
這段話有兩個關鍵因子:1) 系統指定的環境;2) 時間之內的成功機率。系統指定的環境我們定義成在哪裡運行?怎樣運行?依賴關係?時間之內的成功率則代表可靠性的定義、達成定義的方法、衡量成功的統計方法,背後隱含的要達到可靠性,必要的捨棄個別功能,得到特定對象的持續運行。
本文會以現代的Web Services 代表前述的「系統」做為主要探討對象,用一個簡單且實際的案例,探討當代分散式系統如何有效的執行可靠度測試,進而一步一步引導可靠性設計的最佳化,包含What(定義)、How(工程實踐),整體內容以WebService 的可靠性測試為主軸,輔以軟體架構設計、系統架構設計兩個面向的可靠度設計。
章節大綱
前言
8.1 定義可靠性
8.1.1 對象
8.1.2 定義範圍
8.1.3 系統分層
8.1.4 小結
8.2 測試可靠性系統:案例分析
8.2.1 產品規格與目標
8.2.2 應用程式輪廓
8.2.3 初次的量測
8.2.4 效能調教與再次量測
8.2.5 重新思考:RPS=1
8.2.6 探索極限:FileSize=1GiB
8.2.7 重新思考:系統可靠性與產品規格
8.2.8 修正後產品規格與設計
8.2.9 小結
8.3 總結
內容預覽
作者簡介
黃冠元(Rick Hwang)
軟體開發者、音樂愛好者,超過20 年專業軟體工程經驗,超過10 年主管經驗,曾任翔威國際駐IBM 資深軟體工程師、Oplink SQA Manager / SDET Lead、91APP Operation and Infrastructure Manager / Architect,2021 年獲得AWS 授予Community Hero 榮譽稱號。
專注分散式系統架構設計、系統分析與設計、軟體測試、AWS、DevOps、SRE、經營管理⋯等領域,著有技術部落格《Complete Think》、個人著作《SRE 實踐與開發平台指南》(2023)、共同著作《軟體測試實務I、II》(2023)、譯著《分散式系統設計》(2019)。
工作之餘喜歡金庸武俠、科幻小說、經典文學、哲學、人文藝術。同時也是音樂愛好者,涉獵涵蓋吉他、鍵盤、編曲、教學,著有音樂部落格《喝咖啡聊音樂》。
技術部落格《Complete Think》 https://rickhw.github.io/
音樂部落格《喝咖啡聊音樂》https://www.gtcafe.com/
本專章收錄於