最前線自研路越走越遠,阿里云發布云數據中心處理器CIPU
作者 | 鄧詠儀
編輯 | 蘇建勛
6月13日,2022年阿里云峰會正式舉行。會上,阿里云智能總裁張建鋒在峰會上正式發布CIPU(Cloud infrastructure Processing Units)。這是為新型云數據中心設計的專用處理器,未來將替代CPU成為云計算的管控和加速中心。
張建鋒也在會上提及,阿里云今年最重要的策略是“B2B”,也就是“Back to Basic”,重新回歸云計算的基礎技術研發。
軟件和硬件重新走向融合,這是當下云市場不可逆的大趨勢,近年來越來越多的云廠商推出專有芯片等等硬件,與自家產品形成緊耦合。阿里云新處理器的發布,也證明了一點。
為什么要有CIPU?
傳統的云計算架構里,包括三大件——存儲、計算、網絡,這部分是基于CPU為中心運轉的,有arm、x86或者Risc-V等等不同架構;上層是操作系統、軟件等。云廠商做的事情,其實是在底層的計算資源之上做虛擬化,進行統一調度。
但如今用戶側需求發生巨變,云廠商即使在上層做專有應用,也很難迅速滿足算力需求——比如直播、游戲、影視剪輯/渲染等等場景,對數據量、算力規模、對時延的要求都非常高。
這背后的主要原因是,半導體的摩爾定律失效。
“摩爾定律失效,這也是云市場遇到的挑戰——算力需求提升,我們基于CPU架構只能不斷擴充計算核數。但如果一臺服務器核數密度過高,一旦出問題,影響的業務會非常大,這也是云廠商要做底層架構改革的原因。”阿里云技術產品負責人蔣江偉在會后采訪中介紹。
阿里云的自研之路也是自上而下——在成立之初,阿里云自研了云計算操作系統“飛天”,去年推出“倚天”芯片,再到如今CIPU推出。這意味著,阿里云已經從以CPU為中心的體系架構,演變至飛天操作系統+CIPU為中心的體系架構。
從定位上看,新推出的CIPU,向下會對數據中心的計算、存儲、網絡資源快速云化并進行硬件加速,向上澤接入飛天云操作系統,管控阿里云全球上百萬臺服務器。
阿里云也披露了新架構能夠帶來的實際效果。CIPU上線后,底層技術架構的表現都有明顯提升。比如在存儲上,存儲時延最低可至30us(PLX),云端能提供比本地更安全可靠且高性能的存儲能力。而在網絡層,應用上云之后,比自建物理機的集群吞吐量提升了30%,業務高峰期延遲下降了90%。
如今,阿里云自研的產品,也已經囊括了云計算的大部分架構,如飛天操作系統、洛神網絡、神龍計算、盤古存儲、磐久服務器、芯片、數據庫、安全內核等等。
技術革新帶來計算效率提升,另一方面也減少了對能源的使用。本次峰會上,阿里云也重點提及了一些減碳實踐。
目前,阿里云自建的數據中心都已達到國家綠色數據中心標準,全年平均PUE小于1.3。在2020年9月,阿里仁和數據中心落地杭州,是國內首座綠色5A級液冷數據中心,其PUE最低可以達到1.09,每年可省電7000萬度。而位于張北的阿里巴巴數據中心,則成為行業首個碳普惠試點項目。