探秘K1 Power:如何打造一臺堅若磐石的高性能小型機?
【IT168 評論】熟悉服務器領域的朋友,必然對浪潮K1小型機或多或少有所了解。在當年關鍵業務主機市場寡頭壟斷的格局下,浪潮400多位工程師耗費4年時間,于2010年成功研制出了K1小型機,為市場注入一股新的血液。使得中國成為除美國、日本之外全球第三個具備關鍵應用主機研制能力的國家,浪潮也成為全球第五家具備關鍵應用主機研制能力的企業。
經過多年的發展,K1小型機獲得了市場的廣泛接納與認可,受到來自金融、交通、政務、能源、醫療等眾多關鍵行業客戶的青睞。與此同時,K1家族產品也不斷升級迭代,持續以強勁性能與靈活可靠的特性,支撐其客戶關鍵業務應用的高效平穩運行。
而隨著2018年浪潮與IBM的合資公司——浪潮商用機器的成立,K1的發展路線圖中更是出現了Power的身影。于是,國產關鍵業務主機的先行者K1,進入了一個新的發展階段。浪潮K1小型機領先的核心技術與系統設計理念,再加上Power處理器強大的性能表現,浪潮商用機器K1 Power系列服務器由此誕生。
浪潮商用機器有限公司副總經理黃家明
據浪潮商用機器有限公司副總經理黃家明介紹,浪潮商用機器分別在北京、濟南兩地建立了Power系統研發實驗室,都配備了專業的電子設計自動化工具(EDA)。K1 Power研發團隊目前有上百位核心人員,均來自于浪潮K1小型機研發團隊,擁有10年以上高端服務器設計經驗,是目前國內高端服務器研發領域最優秀的團隊,具備從系統原理到主板PCB設計的全流程設計能力。此外,實驗室還配備了頂級硬件研發測試平臺,以快速診斷問題,保障產品的高可靠性。
那么,K1 Power服務器究竟是怎樣煉成的?其卓越的性能與可靠性背后是哪些關鍵技術在做支撐?在有幸參加了浪潮商用機器“探秘K1 Power研發之旅”活動之后,筆者終于對此有了一個大體的了解,下面就一一為大家揭秘。
高速內核——POWER9帶來卓越的性能表現
服務器的性能表現自然取決于CPU。與X86處理器相比,最新的POWER9處理器具有顯著的性能優勢,可以說就是為應對數據密集型工作負載、滿足嚴苛的高性能計算需求而生。
上圖是Power 9與X86處理器的橫向對比,我們可以看到,從主頻到帶寬,POWER9均能夠提供兩倍以上的性能提升。與絕大多數X86處理器不同,POWER9支持最新的PCIe 4.0以及NVLink2.0協議,以此帶來極大的內存與I/O帶寬優勢,加速CPU與GPU間的通信,滿足更高的應用負載運行要求。
像K1 Power這樣的中高端服務器,通常用于承載組織的核心數據庫應用,因此在判斷其性能優劣時,對數據庫負載的支持是一個很好的依據。據浪潮商用機器有限公司產品研發部副總經理尹宏偉介紹,在實際測試中,K1 Power服務器對于EDB、DB2和Oracle、SAP等商業數據庫以及MySQL等開源數據庫,都能帶來相對X86服務器兩倍以上的性能提升。
此外還有非常值得一提的一點,是K1 Power對計算資源的高利用率。由于K1 Power服務器具備強大的性能,因此可以在單臺服務器中以分區的形式滿足更多應用負載——作為對比,x86服務器往往是一臺服務器運行一個應用,通過部署更多服務器來運行更多應用。因此在實際運行時,K1 Power服務器的整機硬件負載效率更高,資源利用率更高。
極致可靠——全?煽啃栽O計理念,保障業務持續運行
對于K1 Power服務器而言,在提供優越性能的前提下,保證整個系統的高度可靠是一個同樣重要的課題。K1 Power服務器系統的可靠性設計遵循高RAS(可靠性Reliability、可用性Availability、可服務性Serviceability)特性理念,此外還加入了獨立的服務處理器FSP,全方位偵測潛在故障,幫助及時修復,確保系統持續平穩運行。
K1 Power系統全堆棧可靠性設計包括:冗余、捕獲、重試、隔離、修復。針對每一個環節,都通過領先的技術保證有效性,從而在整體上提供高達99.9994%的可靠性。
·冗余。K1 Power服務器通過冗余設計保證系統持續運行:1、在硬件上,包括DRAM內存芯片、CPU與內存/CPU與CPU之間的鏈路等都是冗余的;2、每個系統控制單元中有兩個冗余的時鐘卡,當任意一個時鐘卡出現故障,另一組時鐘可以無縫切換;3、電源時序控制信號如Enable,Power good等做冗余設計,能實現更加可靠的電源開關控制;4、電源穩壓模塊(VRM)實現N+2冗余設計,以減少單點故障率;5、K1 Power系統關鍵部件如電源、 SMP線纜、時鐘、FSP模塊、I/O控制器等全部冗余設計。
·捕獲。K1 Power服務器裝載了多達16萬個故障檢查器,可以實時監測系統運行狀態。此外,還采用首錯數據捕獲(FFDC,First Failure Data Capture)的機制,在設計階段就進行錯誤模擬,在實際運行階段進行錯誤捕獲。而發生錯誤之后,還可以在維護階段進行錯誤重現。將所有可能產生的錯誤提前做到預警、備案和處理。
·重試。通過校驗與重試設計,讓軟錯誤不影響整體系統運行。除了內存或者緩存本身的糾錯機制外,K1 Power服務器還設計了重試機制,判斷某個故障是不是偶發性的。其中,內存的控制器或指令集的重試機制,是Power服務器特有的。
·隔離與修復。在發生故障時,K1 Power服務器可實現細粒度的隔離,如單個CPU核心隔離,邏輯內存塊隔離。x86服務器CPU內部某一個區域或某一個功能發生故障時,往往整個CPU就會故障。Power處理器可以將發生故障的核心單獨隔離,同時處理器能繼續工作,從而實現在線修復/更換。
鋼鐵之軀——高品質工藝,更嚴苛的標準與測試
服務器的高可靠性的實現不止依靠系統設計,同樣還取決于優秀的制造工藝。K1 Power服務器采用了嚴格的元器件和部件選型標準,并在極限環境下進行嚴苛的測試,力求打造高品質平臺。從物理層面上,進一步提升系統整體可靠性。
由于POWER處理器都是高速信號,因此為了保證信號在CPU、內存、I/O以及加速器之間傳遞的穩定性,K1 Power服務器采用了高達40層的高復雜主板設計,所有與高速信號走線層相鄰的平面層都是地平面,保證高速信號良好的完整性。此外,主板也需經過更嚴苛的板機測試,以保證100%可靠出貨。
在散熱方面,K1 Power服務器采用了更高效的散熱設計和散熱管理。其導熱材質選用銦金屬片,將導熱效率提升了近10倍。而且銦金屬片相對于傳統x86采用的導熱膏來說,導熱穩定性更強,保障長期使用。K1 Power服務器散熱管理采用了動態分區散熱控制技術。這種動態、智能化的散熱控制,既提高了散熱的利用效率,也保障了CPU等元器件的壽命以及性能穩定。
K1 Power服務器采用了高標準的檢測,生產測試功能覆蓋率100%,高端機型測試大項共計660多項,同時測試老化時間達到48小時以上。通過自動化的測試系統,確保每臺機器的檢測的有效性。基于嚴苛的測試環境,確保每臺服務器都能夠在極限電壓和動態頻率下穩定工作,保證品質達到業界最高水準。
不懼威脅——自下而上的安全加固,保護業務數據
在關鍵業務場景下,系統安全性是至關重要的。K1 Power服務器在系統安全方面也進行了充分的考慮,支持多種國際標準和中國政府認證。與此同時,并不僅僅依賴于操作系統層面的安全性,還會在更底層的技術層面進行加固。
一個非常具有代表性的舉措是,K1 Power服務器所有部件的維護都需要通過認證,新更換的部件在沒有認證之前是無法運行的,這樣可以有效避免非認證部件導致的可靠性問題,保證整個系統的一致性。
在操作系統方面,包括浪潮KUX在內的多家本地安全可信操作系統廠商認證了Power服務器平臺,并取得了產品兼容性認證證書。另外,通過浪潮具有自主知識產權的操作系統安全加固模塊SSR(國家等保三級認證),進一步保障系統安全無虞。
最后
不難看出,繼承了浪潮K1小型機核心技術積累和自主創新能力,再融合POWER處理器出色計算能力的K1 Power服務器,既立足于實際場景需求,實現更精細化的設計;同時在生產的每一個環節都以高標準、高水準嚴格要求。這樣的服務器平臺,無疑能夠成為支撐關鍵業務應用持續穩定運行的可靠基石。
- 9-9· K1348次列車上的緊急救治
- 12-21· 聯想 K12 全球版渲染圖曝光:或為改名的 Moto E7
- 11-2· 探秘準時達日本子公司SJL
- 8-11· 探秘|究竟是怎樣的一款車能讓用戶連連稱贊?
- 1-13· K12在線教育平臺清北網校通過教育部APP備案審核
- 12-24· 探秘記憶中的最美城市,蘇寧膳魔師城市杯年貨節雙線首發
- 8-28· K12教育競爭加劇 米樂英語智能化教育角逐少兒英語賽道
- 8-23· K12在線教育下半場仍是頭部舞臺 掌門教育實現多賽道領跑
- 11-13· 一個快遞包裹的旅行——百世集團里水基地探秘
- 4-5· 探秘酸奶市場冷鏈現狀!你喝的酸奶是經過冷鏈運輸的嗎?