一、大數(shù)據(jù)領(lǐng)域的客戶價值遷移
大數(shù)據(jù)10年,從“嘗鮮”到“普惠”
大數(shù)據(jù)技術(shù)已經(jīng)存在了20年的歷程,并且阿里的飛天平臺也有了10年的歷程。上圖是Gartner非常有名的評測機構(gòu),在Emerging Technologies中展示了Hype Cycle。Emerging Technologies是指其中所有的技術(shù)都視為新興技術(shù)。橫軸分為五個部分,從Trigger開始,到達最熱潮,然后到了冷靜期,再繼續(xù)向前發(fā)展。不同的顏色表示在所指的幾年之后相應(yīng)的技術(shù)會變得成熟。在2014年,Big Data已經(jīng)到達了尖峰期的末端狀態(tài)。在2015年,Big Data就不在上圖中了,關(guān)于Big Data應(yīng)該放在哪里的問題,許多人都參與了討論,最終Gartner 的分析員 Betsy Burton給出了總結(jié)性的一句話:“Big Data..has become prevalent in my lives”,其中的含義是指大數(shù)據(jù)已經(jīng)不是一個特定的技術(shù),它是一個普惠的技術(shù)領(lǐng)域。阿里巴巴認為大概在2014年大數(shù)據(jù)會從嘗鮮期到普惠期,并且?guī)砹朔浅6嗟膬r值變化。
大數(shù)據(jù)領(lǐng)域Value Proposition的遷移
上圖所示為嘗鮮期到普惠期的對比。嘗鮮期更注重的是快速上手。其次是靈活性,無論是平臺、配套的東西還是工具鏈都不是特別成熟,怎樣更快的做一些調(diào)節(jié)和修改可以滿足需求是很重要的。另外還需要能達到一些目標,不需要特別全面,甚至不需要很穩(wěn)定,只要能進行試對和試錯就可以。普惠期的特點與嘗鮮期的特點幾乎是不相同的,甚至是對立的。從普惠期開始,成本和性能變得很關(guān)鍵,其中特別關(guān)鍵的是“成本”,因為通過調(diào)研得出用戶對“成本”是很關(guān)注的,用戶的關(guān)注不僅僅是對大數(shù)據(jù)處理上所付得的錢數(shù),更多的關(guān)注是數(shù)據(jù)在海量的增長的情況下,怎樣保證成本在可控的范圍之內(nèi)。當進入到普惠期,進行大規(guī)模應(yīng)用時,企業(yè)級服務(wù)能力就變的很關(guān)鍵。例如,阿里的大數(shù)據(jù)平臺每天都會產(chǎn)生支付寶的商戶對賬單,商戶和商戶之間、商戶和上下游之間、及商戶和銀行之間結(jié)算的系統(tǒng)要求都萬無一失。當從嘗鮮期進入到普惠期之后,應(yīng)該有一個相對豐富且完整的工具鏈和生態(tài)體系,這就需要生態(tài)體系和工具鏈能融合在一起,才能實現(xiàn)整個性能。
從阿里巴巴的角度看 – 飛天平臺發(fā)展歷程
MaxComputer是飛天底座平臺的系統(tǒng),同時支撐了飛天絕大多數(shù)的數(shù)據(jù)存儲和計算力的需求。從阿里的角度來看,在2002年,Oracle是做數(shù)倉型的數(shù)據(jù)建設(shè),包括算賬和inside。在2006年,是亞洲最大的Oracle Rack。在2008年和2009年,分別啟動了Hadoop和飛天的體系,后面是大家熟知的登月系統(tǒng)。在2015年,登月系統(tǒng)完成,所有的數(shù)據(jù)匯集到一起,同時建立了數(shù)據(jù)的底座作為統(tǒng)一的存儲系統(tǒng)、一套中間的統(tǒng)一運算系統(tǒng)以及數(shù)據(jù)中臺,整個系統(tǒng)以中臺體系為核心,成為阿里巴巴內(nèi)部的大數(shù)據(jù)一體化。在2016年,啟動了MaxComputer 2.0項目,幾乎替換了從2010年到2015年的整體,同時開始給國內(nèi)云計算的客戶提供服務(wù)。在2019年,可以轉(zhuǎn)型到MaxComputer 3.0,除了關(guān)注性能和成本之外,隨著數(shù)據(jù)量超大規(guī)模的增長,以及數(shù)據(jù)領(lǐng)域的優(yōu)化幾乎已經(jīng)超出了人類的范疇,中臺的工程師很難靠人的方式完成中臺的建模和優(yōu)化的工作。阿里認為向智能化的方向發(fā)展,通過智能化來優(yōu)化大數(shù)據(jù)是至關(guān)重要的。
二、核心技術(shù)發(fā)展方向
核心技術(shù)發(fā)展方向可以從四個角度分析:
高效能+低成本
包括計算層、存儲層、資源利用層、治理層四個部分。
企業(yè)級的服務(wù)
要求企業(yè)級的穩(wěn)定性、可擴展性和容災(zāi)等能力。
生態(tài)與標準化
主要是將生態(tài)與標準融合。
智能化
“MaxCompute大數(shù)據(jù)成本曲線”(價值中心or成本中心?)
上圖展現(xiàn)的是來自阿里云的上百家客戶調(diào)研數(shù)據(jù)結(jié)果,其中黃色的曲線表示公司和部門業(yè)務(wù)的增長,藍色表示大數(shù)據(jù)開始應(yīng)用的過程,在第一年期間是屬于平穩(wěn)發(fā)展方向,到了普惠期,大家發(fā)現(xiàn)大數(shù)據(jù)的技術(shù)和價值之后,大數(shù)據(jù)就開始向上攀升,剛開始攀升的過程不是平緩的,是一個快速增長的過程。
隨之而來有一個問題,數(shù)據(jù)量和計算量的增長以及對成本的付出超過了已有的增長速度,到后續(xù)階段有可能會繼續(xù)上漲,如果有相關(guān)的系統(tǒng)做匹配,以及很好的優(yōu)化和治理,那么數(shù)據(jù)將會降下來,最終達到應(yīng)用與發(fā)展幾乎匹配的速度,同時保證成本是可持續(xù)的。比如業(yè)務(wù)增長了5倍時,成本只增長了1倍。如果不能將數(shù)據(jù)降下來,則會出現(xiàn)的情況是,數(shù)據(jù)中心變成了成本中心,同時有非常多的數(shù)據(jù)和計算,但是哪些是有價值的是不清楚的。為了解決這個問題,需要提供更好的高性能和低成本的服務(wù)能力,將平臺層的成本降下來,同時可以通過數(shù)據(jù)治理服務(wù)來為數(shù)據(jù)做治理。此外,可以通過智能化方法來優(yōu)化大數(shù)據(jù)以達到相應(yīng)的目的。
構(gòu)建“高效率與低成本”的計算平臺阿里針對構(gòu)建“高效率與低成本”的計算平臺所面對的挑戰(zhàn)分為四個部分:
1、當規(guī)模過萬臺之后就會面臨成本的持續(xù)增長。
2、數(shù)據(jù)或計算爆炸,硬件投入大于業(yè)務(wù)增速。
3、中大型公司的技術(shù)發(fā)展進入開源軟件盲區(qū)。
4、無法形成大集群,多小集群拼湊,導致整體利用率低。
相應(yīng)的,阿里巴巴計算平臺對以上挑戰(zhàn)做了以下四項優(yōu)化:
1、引擎優(yōu)化:核心引擎全自研技術(shù),具備把控力,持續(xù)優(yōu)化。
2、存儲優(yōu)化:保證數(shù)據(jù)不重復,存儲智能分級(1.6),壓縮分級。
3、資源優(yōu)化:云原生統(tǒng)一資源池(以及對應(yīng)的削峰填谷)+在離線混布。特別注意的一點是,資源層面的優(yōu)化要優(yōu)于作業(yè)本身的優(yōu)化,作業(yè)的極值性能追求和極值速度已經(jīng)不是阿里最大的追求,而最大的追求是在整體的情況下將資源利用率提升。
4、數(shù)據(jù)與計算管理與治理。
上圖是以阿里從2015年到2018年雙十一的例子,左邊的圖為單日作業(yè)量,中間的圖為單日處理數(shù)據(jù)量,右邊的圖為成本的曲線。事實證明,阿里通過飛天平臺以及技術(shù)能力,幾乎做到了使業(yè)務(wù)增長的速度和成本增長的速度相適應(yīng)。
在此基礎(chǔ)上又做了以下部分優(yōu)化工作:
1、引擎?zhèn)龋? NativeEngine+LLVM CodeGen,Vectorization+SIMD
? CBO+HBO,Dynamic DAG
? 針對Input/Shuffling海量數(shù)據(jù),新引入“富結(jié)構(gòu)化數(shù)據(jù)”
? 數(shù)據(jù)可以按Range/Hash方式存儲,支持一級Index和Order
2、存儲側(cè):兼容開源Apache ORC,全新的C++ Writer和改進的 C++ Reader,讀取性能對比CFile2和開源ORC均快50%+。
3、資源側(cè):一套跨集群數(shù)據(jù)、計算調(diào)度能力,將多個集群的
服務(wù)器做成一臺計算機。
4、調(diào)度系統(tǒng)優(yōu)化:平均集群利用率70%,除了優(yōu)化單作業(yè)指標,更偏重整個集群的吞吐率。
5、通過混布技術(shù),提升在線服務(wù)器利用率到50%以上。同時支持雙十一場景的業(yè)務(wù)彈性。
部分數(shù)據(jù)和案例:
? 2015年,SortBenchmark,MaxCompute 100TB GreySort冠軍。
? 2016年,SortBenchmark, EMR 100TB CloudSort冠軍。
? 2017年,MaxCompute+PAI,全球首家100TB規(guī)模TPCx-Bigbench測試通過。
? 2018年,MaxCompute+PAI,指BigBench標繼續(xù)提升1X+,繼續(xù)保持全球最高分數(shù)。
? 2018年,F(xiàn)link內(nèi)部版是社區(qū)性能數(shù)倍,2019年開源。
? 2019年,EMR TPC-DS 10TB全球最快
? 2019年,MaxCompute+PAI,指標繼續(xù)提升,保持全球第一,30TB性能快一倍,成本低一半。
上圖是在BigBench上從2017年到2019年的統(tǒng)計圖,可以明顯的看出,幾乎每年增長一倍。
從上圖可以看出,與業(yè)界的其它系統(tǒng)做對比,性能幾乎高出一倍,成本幾乎低一半。
構(gòu)建“多功能的企業(yè)級”計算平臺構(gòu)建“多功能的企業(yè)級”計算平臺是屬于系統(tǒng)后臺的工作,大概分為四個部分:
1、需要可靠的數(shù)據(jù)交匯點(數(shù)據(jù)底盤),因為很多公司的數(shù)據(jù)就是公司的資產(chǎn),數(shù)據(jù)的安全性問題就顯得至關(guān)重要。具體包括以下內(nèi)容:
? EB級規(guī)模,擴展能力(單集群,多級群,全球部署三級擴展)
? 數(shù)據(jù)可靠性(已經(jīng)走過了能用,可用的階段,需要提供萬無一失的保障 能力,例如DC級別的容災(zāi)能力)
? 安全性(從存儲,運算,管理,運維,把數(shù)據(jù)安全做到每一層)
2、針對容災(zāi)部分,是需要企業(yè)自主解決的工作,通過選擇容災(zāi),使得達到某種能力,具體需要包括以下內(nèi)容:
? 基于高性價比硬件
? 自助運維與自動化運維
? 完善的故障容錯(軟件,硬件,網(wǎng)絡(luò),人為)
3、由于隱私泄露的情況是經(jīng)常會發(fā)生的,但是阿里卻不會發(fā)生隱私泄露的情況,主要是因為對數(shù)據(jù)管理、共享與安全性的要求。具體包括以下內(nèi)容:
? 容災(zāi)備份
? 細粒度授權(quán),安全衛(wèi)士,審計,存儲加密
? 數(shù)據(jù)管理能力,數(shù)據(jù)血緣和追蹤,基于數(shù)據(jù)血緣的分析和報表
? 多數(shù)據(jù)/多作業(yè)管理和調(diào)度
? 基于基線保障的調(diào)度能力
4、調(diào)度能力與擴展性作為系統(tǒng)內(nèi)部的優(yōu)化,具體包括以下內(nèi)容:
? 超大規(guī)模,統(tǒng)一的資源池
? 超賣
? 基線保障
? 伸縮能力與混布能力
構(gòu)建“生態(tài)融合的”計算平臺
上圖是飛天MaxCompute平臺融合的案例。其中一層為統(tǒng)一的存儲層,不僅僅可以開放MaxCompute的引擎,也可以開放其他的引擎。中間的抽象層為聯(lián)合計算平臺,聯(lián)合是指將數(shù)據(jù)、資源和接口抽象成一套標準的接口,包括Spark和其他引擎都可以應(yīng)用,形成一套完整的生態(tài)系統(tǒng)。第二條線的生態(tài)是MaxCompute源向外的生態(tài),數(shù)據(jù)源是多種多種的,不僅僅存在阿里自已的存儲里,也可以存在于數(shù)據(jù)庫的系統(tǒng)和文件系統(tǒng)等。此外,可以讓用戶在不搬遷數(shù)據(jù)的情況下和其他系統(tǒng)做聯(lián)動,稱為聯(lián)邦計算的概念。
另外,Blink是當年在Flink社區(qū)的一個單獨的分支,針對阿里內(nèi)部的最佳開發(fā)實踐的系統(tǒng),在1.9的版本上已經(jīng)成為完全默認的社區(qū),在SQL引擎、調(diào)度系統(tǒng)以及Algo on Flink上做出了很多貢獻。隨著和Flink的某公司存在收購關(guān)系之后,將會推動Flink公司一直向前發(fā)展。
最后,是存儲層面的發(fā)展。上圖是有關(guān)壓縮、讀和寫以及數(shù)據(jù)相關(guān)格式的改造,所有的改造都會推進給社區(qū),橙色的字體是按照設(shè)計標準改的。
三、從引擎優(yōu)化到“自動駕駛”
計算引擎的優(yōu)化除了自身的優(yōu)化以外,還涉及到自動駕駛。上圖是使用車的例子,展現(xiàn)了飛天進化的過程。第一個過程為可用階段,比如雙十一當天是否能支撐如此大量的負載以保證系統(tǒng)是可用的。第二個過程是在性能和成本上達到極致的追求。第三個過程是讓性能變得更好。
智能云數(shù)倉(Auto Cloud Data Warehouse)在阿里內(nèi)部已經(jīng)出現(xiàn)了三條關(guān)鍵的挑戰(zhàn):
1、EB級數(shù)據(jù)和百萬級別作業(yè),很難管理。數(shù)據(jù)中臺團隊不再勝任(傳統(tǒng)的DBA模式不能支撐)
2、多種數(shù)據(jù)融在一起,人無法在海量規(guī)模上理解數(shù)據(jù)的所有價值
3、大數(shù)據(jù)系統(tǒng)經(jīng)過多年發(fā)展,如果需要實現(xiàn)“躍遷”式的進步,需要體系結(jié)構(gòu)層面的改造
從智能云數(shù)倉的角度來看,可以從三個方面上做優(yōu)化。第一方面是效率優(yōu)化,包括HBO是基于歷史信息的優(yōu)化,可以理解是一個全新的作業(yè)作用到系統(tǒng)中,當系統(tǒng)對它并不了解時,對資源的分配相應(yīng)的會采用保守的方式,使作業(yè)運行完成。在第一次運行作業(yè)時,系統(tǒng)的調(diào)優(yōu)可能是保守的,慢慢的會越來越貼近自身的運行狀態(tài),到四天之后,所認為的作業(yè)就非常好了。通過HBO優(yōu)化,阿里巴巴的資源利用率達到了70%。此外,還包括Learned Statistics、智能計算重用和智能的數(shù)據(jù)分層。
第二方面是資源規(guī)劃,當云上有十萬臺的機器分布在不同的數(shù)據(jù)中心時,怎樣規(guī)劃數(shù)據(jù)和資源調(diào)動是不屬于人工的過程,應(yīng)屬于自動化的過程,包括作業(yè)運行模式的自動分類,其中有三種不同的運行模式是針對非常大的作業(yè)和交互性非常高的作業(yè)。此外,還包括動態(tài)Quota調(diào)整、縮擴容、作業(yè)運行預測與自動預報警、作業(yè)自動升降級和數(shù)據(jù)排布與跨集群調(diào)度。
第三方面是智能建模,包括相似作業(yè)與數(shù)據(jù)的識別、自動糾錯、作業(yè)運行預測與自動預報警以及作業(yè)自動升降級。
以上這三個方面是在智能數(shù)倉領(lǐng)域可以持續(xù)發(fā)展的方面,上圖中帶*的是阿里已經(jīng)或者馬上要公布的功能。
Auto CDW – 智能索引推薦
通過作業(yè)之間運行的關(guān)系,做cost module的同化,通過這種方式是找到一種index最優(yōu)的調(diào)節(jié)并且進行push。例如,基于MaxCompute,在阿里集團內(nèi)挑選了8W張表的30W個字段 ,從中為4.4W張表推薦出最優(yōu)的Clustering方案,平均Cost節(jié)省43%。
Auto Tired Store - 冷熱數(shù)據(jù)識別和管理
在今年9月1號時,阿里的存儲整體降價了30%,其中一部分計算就來自上圖中的Auto Tired Store技術(shù),包括冷熱數(shù)據(jù)的自動分離,之前的數(shù)據(jù)是通過兩個方式進行分離,第一個方式是系統(tǒng)自動做冷壓縮,降低的成本大概有三分之二。第二個方式是允許用戶通過做flag的方式。但是,當系統(tǒng)里有千萬級別的表時,數(shù)據(jù)開發(fā)工程師時很難甄別出數(shù)據(jù)的使用方式的,這時可以使用經(jīng)濟學的模型,構(gòu)建Access和Storage之間的關(guān)系,針對每個不同作業(yè)的不同分區(qū),自動地定制冷熱的程度。通過這種方式,把阿里的壓縮率從3倍率壓縮到1.6倍率,整體的存儲效率提升了20%。
Yugong – 智能全局數(shù)據(jù)排布與調(diào)度
因為云系統(tǒng)是多個數(shù)據(jù)中心部署在全球各個地方的,數(shù)據(jù)的產(chǎn)生是與業(yè)務(wù)相關(guān)的,但數(shù)據(jù)之間的關(guān)聯(lián)是不許被打破的,把什么樣的數(shù)據(jù)放在什么樣的機房里,什么樣的作業(yè)調(diào)度到最優(yōu)的效果,是屬于全局最優(yōu)匹配的問題。在阿里的內(nèi)部實際上是將作業(yè)的靜態(tài)排布以及動態(tài)的調(diào)度融合了一個系統(tǒng)稱為Yugong。上圖中右邊是兩個原理圖。
DPSAaS– 基于差分隱私的數(shù)據(jù)共享與分析服務(wù)
針對敏感數(shù)據(jù)的計算能力稱為密態(tài)計算,針對隱私的數(shù)據(jù)希望做到可算不可見。上圖表中前三列為敏感數(shù)據(jù),后三列為不敏感數(shù)據(jù)。通過查分隱私的編碼方式,將所有的敏感數(shù)據(jù)都隱蔽掉了,當要care敏感數(shù)據(jù)時是care不到的,但做計算時所有數(shù)據(jù)的計算結(jié)果都是正確的,阿里正在通過這種方式探索如何在數(shù)據(jù)共享與隱私之間找到平衡。
其他面向未來的探索
針對其他面向未來的探索方面,阿里主要涉及的方面包括怎么在基于圖的關(guān)系上做運算、怎樣找到系統(tǒng)之間最優(yōu)的平衡、基于隱私的計算、如何在多種目標的情況下做更好的調(diào)度、在采樣層面如何大幅度的降低數(shù)據(jù)的情況下仍然做的更好。
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
當前題目:阿里巴巴大數(shù)據(jù)技術(shù)關(guān)鍵進展及展望
本文網(wǎng)址:
http://weahome.cn/article/ieieho.html