“把大象搬上云端”,騰訊自研上云進展首次披露
你以為996就是互聯(lián)網(wǎng)人的極致嗎?
有這樣一個神秘工種,7×24隨時隨地待命,全年無休,以至于把7.24過成了他們的專屬節(jié)日——這就是運維。
作為服務(wù)數(shù)十億用戶的互聯(lián)網(wǎng)公司,騰訊運營著亞洲最大的網(wǎng)絡(luò)、服務(wù)器集群和數(shù)據(jù)中心,為億級用戶提供云計費服務(wù)和安全保障。運維就融入在這每一環(huán)中,保障系統(tǒng)持續(xù)運行,產(chǎn)品穩(wěn)定可用。
為致敬運維人,打造開放的運維技術(shù)生態(tài),近日,騰訊云、騰訊技術(shù)工程及CODING聯(lián)合,在深圳舉辦了首屆騰訊運維開放日。來自騰訊和CODING的運維專家,與五百余名運維愛好者一起,分享交流了云計算時代,騰訊運維的技術(shù)沉淀和實踐經(jīng)驗。
從內(nèi)部組件到云原生,全力保障自研業(yè)務(wù)上云
2018年9月,騰訊發(fā)動了一場壯闊的技術(shù)革新,包括成立技術(shù)委員會,開源協(xié)同,全力推動自研業(yè)務(wù)上公有云。騰訊自研上云項目負(fù)責(zé)人周小軍,正是開放日演講嘉賓之一,他生動地把騰訊海量規(guī)模的業(yè)務(wù)上云形容為“把大象搬上云端”。他介紹,在業(yè)務(wù)從私有云遷到公有云的過程,分為五個階段:規(guī)劃、方案、驗證、遷移及運營。其中業(yè)務(wù)適配云原生和龐大數(shù)據(jù)搬遷到云上是最大的難點。
“像QQ,所用的就是從私有組件到公有云的遷移方法。”周小軍介紹,在2017年所有的QQ用戶都還在私有云上,到2019年6月,已經(jīng)有1億的QQ在線用戶在公有云上了。“我們計劃是到2019年底,實現(xiàn)華南、華東和華北三大區(qū)域的100%QQ用戶全部都遷到云上。”
“在業(yè)務(wù)層面,研發(fā)效率更高,資源利用更高效;在工程師層面,他們能夠離開封閉的開發(fā)環(huán)境和組件,使用到整個業(yè)界最標(biāo)準(zhǔn)化的云服務(wù),在客戶層面,可以輸出內(nèi)部優(yōu)秀的工具和服務(wù)到云上,給行業(yè)輸出業(yè)務(wù)遷移上云的經(jīng)驗。”周小軍盤點“自研上云”所帶來的諸多收益。
云原生DevOps,助力企業(yè)上云
CODING創(chuàng)始人張海龍指出,云原生的時代下,研發(fā)團隊的組織方式和工作效率會經(jīng)歷巨大的變革。
在張海龍看來,除了服務(wù)器的上云,更需要架構(gòu)的變革,以充分享用云所帶來的如擴充能力、監(jiān)控能力、云的數(shù)據(jù)庫能力、云的緩存能力等的多種能力。“我們現(xiàn)在也在和騰訊一起合作,做很多DevOps的產(chǎn)品,幫助一些企業(yè)上云,我們希望是做真的上云,是云原生。”
廣泛的使用云廠商提供的 PaaS 及 SaaS 服務(wù),使用工具替代人肉運維,將會大大提升研發(fā)團隊的發(fā)版速度,做到一天數(shù)十次的版本發(fā)布,以便快速響應(yīng)市場需求,持續(xù)交付高標(biāo)準(zhǔn)產(chǎn)品。從目前的客戶案例來看,CODING 和騰訊云為客戶提供的 DevOps + 云能力,給客戶帶來了至少 200% 的效率增長。
騰訊云云函數(shù),小程序云開發(fā)的幕后幫手
騰訊云在2017年的時候上線了FaaS產(chǎn)品騰訊云云函數(shù)SCF。騰訊云中間件產(chǎn)品經(jīng)理張遠哲表示,Serverless是一個比較新的概念,但使用Serverless對用戶來說有著多元的益處。“第一,它會減少服務(wù)器集群的數(shù)量,從而降低開發(fā)和運維的復(fù)雜性。第二,它可以縮短業(yè)務(wù)交付的周期,為用戶提高開發(fā)的效率。第三,它可以使開發(fā)人員專注于業(yè)務(wù)邏輯的開發(fā),使運維人員專注于業(yè)務(wù)的運維,從而提升競爭力。”
以騰訊相冊小程序為例,這是一個在四周內(nèi)開發(fā)出來的能夠支持千萬級用戶的小程序。“如果按照傳統(tǒng)的IaaS模式,至少需要8個星期,這還是最樂觀的估計。”張遠哲說。而通過Serverless的應(yīng)用,這個小程序只經(jīng)過極短的開發(fā)周期以及少量的人力投入,便得以上線。經(jīng)統(tǒng)計,至2018年12月,其累計的用戶數(shù)已經(jīng)突破1億,月活1200萬。
在運維層面,張遠哲則認(rèn)為Serverless能從三個方面為用戶帶來實質(zhì)性的提升:業(yè)務(wù)運維的精細(xì)化、運維系統(tǒng)穩(wěn)定性的提高以及能成為集團業(yè)務(wù)穩(wěn)定性的保障。
2018年9月,騰訊云聯(lián)合微信以FaaS加上BaaS的形式,為小程序開發(fā)者提供了小程序云開發(fā),在張遠哲看來,此舉正大大推進了Serverless架構(gòu)在全國開發(fā)者心中的普及程度。
人機協(xié)同,數(shù)據(jù)中心智能化運維實踐
數(shù)據(jù)中心是云計算最重要的基礎(chǔ)設(shè)施,伴隨騰訊云的飛速發(fā)展,騰訊數(shù)據(jù)中心的運維和管理面臨著更大的挑戰(zhàn)。
業(yè)內(nèi)根據(jù)數(shù)據(jù)中心的智能化運維管理水平,將數(shù)據(jù)中心的運維分成三個階段:S1人工階段、S2半自動化階段、S3人機協(xié)同,自動化、智能化的階段。“騰訊目前正處在S2向S3演進的階段。”騰訊數(shù)據(jù)中心研發(fā)總監(jiān)岳上在會上介紹到。
岳上認(rèn)為,智能運維的技術(shù)方法論,是從傳統(tǒng)的紙質(zhì)表格和對講機為代表的傳統(tǒng)數(shù)據(jù)中心,通過運維活動的標(biāo)準(zhǔn)化、流程化,積累大量的運維數(shù)據(jù),通過數(shù)據(jù)挖掘、數(shù)據(jù)分析以及數(shù)據(jù)洞察的方式,以數(shù)據(jù)化、場景化及平臺化作為抓手,進而建設(shè)成智能化、自動化、現(xiàn)代化、數(shù)字化的數(shù)據(jù)中心。
回顧過去三年間騰訊數(shù)據(jù)中心的數(shù)字化轉(zhuǎn)型過程,岳上認(rèn)為挑戰(zhàn)主要來源于三個層面:硬件,協(xié)議標(biāo)準(zhǔn)不一,網(wǎng)絡(luò)區(qū)域差異化嚴(yán)重,數(shù)據(jù)方面,各地方數(shù)據(jù)難以凝合分析。
對此,騰訊數(shù)據(jù)中心團隊分四個角度逐一突破。“首先我們聯(lián)合了業(yè)界的頭部力量,牽頭行業(yè)標(biāo)準(zhǔn)《互聯(lián)網(wǎng)數(shù)據(jù)中心-基礎(chǔ)設(shè)施監(jiān)控指標(biāo)規(guī)范》、《互聯(lián)網(wǎng)數(shù)據(jù)中心-基礎(chǔ)設(shè)施監(jiān)控系統(tǒng)北向接口規(guī)范》的制定與推廣。第二我們開發(fā)了一系列自動化驗收的工具,驗收廠商的數(shù)據(jù)準(zhǔn)確性和有效性。第三我們搭建了管控網(wǎng)的專網(wǎng),抹平了各個數(shù)據(jù)中心不同的網(wǎng)絡(luò)差異。第四是通過我們的智能化管控平臺,把各個數(shù)據(jù)中心的數(shù)據(jù)統(tǒng)一上升到智能化管控平臺上來,依托騰訊強大的研發(fā)實力,進行統(tǒng)一的分析。”
據(jù)岳上介紹,至今,騰訊數(shù)據(jù)中心管理超過80個IDC、100萬臺服務(wù)器,對現(xiàn)場數(shù)據(jù)進行采集的硬件測點超過600萬,存量數(shù)據(jù)達237T。“特別要指出的是,這個數(shù)據(jù)還在以每年40%的速度在持續(xù)地進行增長。我們也在持續(xù)進行技術(shù)革新以應(yīng)對快速的增長。