針對數(shù)據(jù)中心的軟件定義功率
隨著企業(yè)和普通消費者越來越認識到云技術(shù)所能提供的益處,IT行業(yè)將呈現(xiàn)針對數(shù)據(jù)中心處理能力和存儲容量不斷增長的需求。通過云技術(shù),企業(yè)可以避免資本投入和運營自己IT設(shè)施的開銷,同時可以從任何地點訪問信息,并且還可以能夠享受增強的數(shù)據(jù)分析服務(wù)。消費者現(xiàn)在比以往任何時候都更依賴于線上生活,他們不僅僅是喜愛社交媒體和一些照片共享的應(yīng)用,現(xiàn)在他們可以將其財務(wù)、賬單和其他信息委托給基于Web的服務(wù),因而不再擔(dān)心由于硬盤存儲故障、盜竊、火災(zāi)或洪水造成的數(shù)據(jù)丟失。
因而,建立更多的數(shù)據(jù)中心或擴大現(xiàn)有數(shù)據(jù)中心的容量都是非常必要的,但必須要考慮一個廣泛關(guān)注的問題:這些IT巨獸的能源消耗。雖然技術(shù)進步能夠在同樣大小的有限空間實現(xiàn)更高的處理能力或存儲器容量,但這卻提高了系統(tǒng)功率密度,而通常這些系統(tǒng)的總功率也是一個最受限制的因素。同樣需要關(guān)注的包括保持所有設(shè)備機架冷卻的能力,因為冷卻設(shè)備機架也增加了系統(tǒng)的能量需求。產(chǎn)業(yè)所需要的解決方案不再局限于專門為關(guān)鍵任務(wù)提供冗余或針對峰值需求的功率容量,而解決這個問題的答案就是軟件定義功率(Software DefinedPower?)。
在不具備100%冗余情況下如何保證服務(wù)可用性
為了確保處理關(guān)鍵任務(wù)時的高可用性,三級或四級數(shù)據(jù)中心采用的電源架構(gòu)一般需要100%冗余。如圖1中所示,其中每個電源元件,包括從公用設(shè)施電源或發(fā)電機輸入,通過UPS備份,再到對各個服務(wù)器供電的配電單元,都是雙份重復(fù)配置。對于雙線服務(wù)器(dual-corded servers),這種冗余是必要的。但是對于處理不太關(guān)鍵工作負載的單線服務(wù)器(如測試或開發(fā)任務(wù))而言,顯而易見,其一半的功率供應(yīng)并不是真正需要的。
即使一個數(shù)據(jù)中心只有30%的工作負載不重要,這意味著其總功率容量的15%可以釋放到為其他服務(wù)器供電。顯然,如何實現(xiàn)這樣的目標關(guān)鍵是在更高級別管理電源,即采用軟件控制來了解哪些服務(wù)器正在運行關(guān)鍵任務(wù),哪些不是,并且相應(yīng)地連接電源,以確保冗余只用在真正需要的地方。
如何應(yīng)對峰值服務(wù)需求而不需擴展到峰值功率
現(xiàn)代處理器都集成了許多省電功能。因此,CPU在空閑時消耗的功率可以顯著低于100%運行時的功率。這種差異可以在服務(wù)器和機架級進一步放大,特別是當(dāng)服務(wù)器的工作負載可能加劇功耗變化的情況下,使得規(guī)劃整個數(shù)據(jù)中心的功率容量非常具有挑戰(zhàn)性。例如,Google報告顯示,網(wǎng)絡(luò)郵件的平均-峰值功率比約為90%,而執(zhí)行網(wǎng)絡(luò)搜索任務(wù)服務(wù)器的平均-峰值功率比要低于73%.
因此,即使根據(jù)最高的平均-峰值比來配備數(shù)據(jù)中心的功率容量也可能導(dǎo)致相當(dāng)大功率得不到充分利用。更糟糕的是,規(guī)劃人員在功率配備中還包含有一個安全緩沖區(qū),以應(yīng)對實際峰值功率需求可能超過其理論模型的可能性。這在某種程度上就是為什么今天全球數(shù)據(jù)中心的平均功率利用率在考慮冗余配備之前仍然低于40%的原因。
克服這種 為了“預(yù)防萬一”而過度配置功率,需要更好地了解動態(tài)功率使用情況,不僅僅需要在服務(wù)器之間重新分配負載,而且還可能在時間上分配負載,把那些時間不是很關(guān)鍵的任務(wù)調(diào)整到一天較為空閑的時間段。圖2即闡述了這一問題,并展示了一種稱為峰值平滑(peak shaving)的技術(shù)如何可以更好地滿足需求。
采用本地發(fā)電機組來補充功率僅適用于需求峰值具有相對較長的持續(xù)時間,并在發(fā)生的時間上可以預(yù)測。相比之下,電池存儲則是一種更有效的解決方案,在功率需求提高時,這種技術(shù)采用智能軟件將負載切換電池,而在功率需求降低時則可為電池充電。
軟件靈活性和確定任務(wù)優(yōu)先級是解決之道
成功管理數(shù)據(jù)中心功率配備的關(guān)鍵是需要了解清楚服務(wù)器的工作負載,哪些是任務(wù)和/或時間關(guān)鍵型,需要進行功率冗余,包括配備發(fā)電機組和UPS備份;哪些屬于不太重要,可以重新安排到一天中較為空閑的時段,甚至可以在供電故障中斷后可以重新啟動。通過采用恰當(dāng)?shù)墓β氏到y(tǒng)管理,數(shù)據(jù)中心運營者將可以避免時常擔(dān)心的“失電”局面。更令人高興的是,智能控制可以使功率冗余或未充分利用的功率容量得到釋放,從而可以提高數(shù)據(jù)處理和存儲容量,而無需配備額外的功率容量。
軟件定義功率(SDP)技術(shù)可以實現(xiàn)上述功能。 SDP是建立在使用“數(shù)字電源”基礎(chǔ)上,其中調(diào)節(jié)電源輸出的正常反饋環(huán)路是采用數(shù)字式控制。數(shù)據(jù)中心電源架構(gòu)通常是將電源從交流轉(zhuǎn)換為直流,然后依照電壓從高到低依次將功率分配到服務(wù)器機架到服務(wù)器,最后分配給CPU和其他電路。數(shù)字控制允許調(diào)整這些中間和最終的負載電壓,從而優(yōu)化每個供電級的效率。 SDP技術(shù)更進一步,可以監(jiān)控和控制所有電源的負載。
用智能控制能源技術(shù)實現(xiàn)SDP
CUI公司通過與 Virtual Power Systems(虛擬電源系統(tǒng))合作,已經(jīng)在針對IT系統(tǒng)的新型SDP解決方案中實施了峰值平滑的概念。智能能源控制(ICE?)系統(tǒng)結(jié)合了先進的硬件和軟件技術(shù),可以最大限度地提高功率利用率并優(yōu)化性能。機架式電池存儲和切換單元等各種硬件模塊放置在數(shù)據(jù)中心的戰(zhàn)略電源控制位置,以便于軟件對電源選擇進行決策。 ICE操作系統(tǒng)能夠從ICE和其他基礎(chǔ)架構(gòu)硬件處收集遙測數(shù)據(jù)(telemetry data)以支持實時控制,通過使用功率優(yōu)化算法來釋放冗余的功率容量并平滑電源負載。
為了驗證ICE的有效性,一個領(lǐng)先的數(shù)據(jù)中心運營者進行了測試并且證明可以從配備容量為80MW的系統(tǒng)中釋放16MW的功率。這一升級所需要的時間與配備額外16MW功率相比可忽略不計,而成本支出只有1/4,這還不包括降低目前運營支出所帶來的好處。
——————轉(zhuǎn)載自網(wǎng)絡(luò),侵聯(lián)刪