真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

愛(ài)奇藝:基于龍蜥與Koordinator在離線混部的實(shí)踐解析-創(chuàng)新互聯(lián)

在?2022 云棲大會(huì)龍蜥峰會(huì)云原生專場(chǎng)上,來(lái)自愛(ài)奇藝的基礎(chǔ)架構(gòu)研究員趙慰分享了《基于龍蜥與 Koordinator 的在離線混部實(shí)踐》技術(shù)演講,以下為本次演講內(nèi)容:

創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括文成網(wǎng)站建設(shè)、文成網(wǎng)站制作、文成網(wǎng)頁(yè)制作以及文成網(wǎng)絡(luò)營(yíng)銷策劃等。多年來(lái),我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,文成網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到文成省份的部分城市,未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!一、愛(ài)奇藝離線業(yè)務(wù)混部背景

與眾多互聯(lián)網(wǎng)公司一樣,愛(ài)奇藝常見(jiàn)的負(fù)載類型包括業(yè)務(wù)應(yīng)用、數(shù)據(jù)庫(kù)&中間件以及離線任務(wù)。其中業(yè)務(wù)應(yīng)用包括有狀態(tài)應(yīng)用和無(wú)狀態(tài)應(yīng)用,無(wú)狀態(tài)應(yīng)用可以借助運(yùn)維平臺(tái)在業(yè)務(wù)團(tuán)隊(duì)和運(yùn)維團(tuán)隊(duì)之間做比較清晰的職責(zé)劃分,適合混部;而有狀態(tài)應(yīng)用較為復(fù)雜,混部時(shí)的運(yùn)行質(zhì)量難以保證。數(shù)據(jù)庫(kù)和緩存目前并沒(méi)有運(yùn)行在混部集群中。離線任務(wù)中的非實(shí)時(shí)性任務(wù),比如夜間轉(zhuǎn)碼、數(shù)據(jù)處理等只關(guān)注吞吐量而不關(guān)注時(shí)效的任務(wù)也是混部的對(duì)象。

愛(ài)奇藝在混部上經(jīng)歷了長(zhǎng)時(shí)間的探索。

2013 年,愛(ài)奇藝初次進(jìn)行了計(jì)算存儲(chǔ)混部。進(jìn)入容器時(shí)代后,愛(ài)奇藝在 Mesos 上花費(fèi)了大量精力,最早把在線任務(wù)內(nèi)容生產(chǎn)、 Spark、Storm 等所有工作負(fù)載混部在一個(gè)集群里,沒(méi)有進(jìn)行任何特殊的隔離性處理。在 Docker 上經(jīng)歷了困境后,愛(ài)奇藝將業(yè)務(wù)按節(jié)點(diǎn)、集群進(jìn)行了拆分;這又導(dǎo)致離線任務(wù)集群資源常年不夠用,在線業(yè)務(wù)集群利用率非常低,尤其是夜間利用率甚至只有個(gè)位數(shù)。因此,愛(ài)奇藝考慮將夜間線任務(wù)的資源提供給離線任務(wù)。

2016 年,通過(guò) Mesos Oversubscription 功能引入根據(jù)真實(shí)資源做額外計(jì)數(shù)器的機(jī)制,將任務(wù)分為了延遲敏感和盡力而為兩類進(jìn)行混部。但由于細(xì)粒度的隔離性問(wèn)題,這條道路也無(wú)疾而終。

到了 K8s 階段,由于在線業(yè)務(wù)的伸縮能力的增強(qiáng)和普及,第二套計(jì)數(shù)器不再是強(qiáng)需求,愛(ài)奇藝直接在 K8s 上進(jìn)行了混部,通過(guò)引入 Kata 保證服務(wù)質(zhì)量。

2022 年,龍蜥 + Koordinator 一并被引入,用于構(gòu)建下一步的混部架構(gòu)。

從多年的混部經(jīng)驗(yàn)里,愛(ài)奇藝總結(jié)出了影響混部的關(guān)鍵因素:

  • 服務(wù)質(zhì)量,尤其是在線業(yè)務(wù)的質(zhì)量,脫離了服務(wù)質(zhì)量則混部無(wú)意義。
  • 獲取額外資源。
  • 任務(wù)適配。

獲取額外資源存在有兩個(gè)思路:

其一為使用一套計(jì)數(shù)器,按固定比例超賣資源,直接混用,或者按經(jīng)驗(yàn)比例分配給各個(gè)類型的負(fù)載。

其二為多套資源計(jì)數(shù)器,一種方式是利用經(jīng)驗(yàn)數(shù)據(jù)判斷集群的空閑時(shí)間和空閑資源,另一種方式是通過(guò)類似 Mesos Oversubscription 的方式做空閑資源的實(shí)時(shí)探測(cè)。

服務(wù)質(zhì)量的策略分為靜態(tài)和動(dòng)態(tài)。動(dòng)態(tài)指在離線業(yè)務(wù)或具體的進(jìn)程之間動(dòng)態(tài)進(jìn)行調(diào)整,靜態(tài)則是一旦下發(fā)即固定,即便有影響也不變動(dòng)。

二、龍蜥和 Koordinator 在離線業(yè)務(wù)混部探索

Koordinator 沒(méi)有對(duì)分布架構(gòu)做本質(zhì)上的變動(dòng),而是在云原生的規(guī)范性方面,比如業(yè)務(wù)類型的抽象上做了更多工作,使 K8s 和 Koordinator 有了做通用分布式架構(gòu)的可能性,而不像之前只能針對(duì)特定的業(yè)務(wù)做定制。

Koordinator 可以簡(jiǎn)單理解為給 K8s 增加插件或做了增強(qiáng),首先會(huì)增加一個(gè)調(diào)度器,引入一套資源技術(shù),在節(jié)點(diǎn)上有一個(gè) Koordlet,分別負(fù)責(zé)收集資源和保證任務(wù)的隔離性。

其工作機(jī)制為利用計(jì)數(shù)器在真實(shí)利用率基礎(chǔ)上進(jìn)行二次分配。整機(jī)的真實(shí)使用使用率取決于離線任務(wù)的使用率,保證在線業(yè)務(wù)的質(zhì)量的前提下,水位線可以根據(jù)實(shí)踐隨時(shí)調(diào)整。

Koordinator 在任務(wù)分配方面分為五種類型(圖中只列舉了常用的四種),通過(guò)不同層級(jí)的分類,對(duì)在線業(yè)務(wù)和離線業(yè)務(wù)進(jìn)行了不同層級(jí)的保障。

為進(jìn)一步保證服務(wù)質(zhì)量,愛(ài)奇藝引入了龍蜥操作系統(tǒng)(Anolis OS)。Group Identity 功能和 CPU Burst 功能對(duì)當(dāng)前的混部效果起到了很大的提升作用。

Anolis OS 通過(guò)配置不同的 Group Identity 啟用兩套進(jìn)程調(diào)度,一套作為在線業(yè)務(wù)的調(diào)度器,另一套作為離線任務(wù)的調(diào)度器,在線業(yè)務(wù)優(yōu)先級(jí)整體高于離線任務(wù)。此前,在公平調(diào)度的機(jī)制下,在線業(yè)務(wù)、離線業(yè)務(wù)之間在細(xì)粒度上存在互搶資源;而引入兩套調(diào)度器后,這個(gè)問(wèn)題可以被合理規(guī)避。CPU Burst 的作用是使公平調(diào)度進(jìn)程之間的切換更平滑,避免出現(xiàn)毛刺。

第一個(gè)試點(diǎn)業(yè)務(wù)為某類型內(nèi)容實(shí)時(shí)生產(chǎn),已經(jīng)全量運(yùn)行在混部資源上。從某種意義上它是零成本的,因?yàn)槿繌?fù)用了其他服務(wù)器節(jié)省出來(lái)的資源。目前運(yùn)行非常穩(wěn)定,也沒(méi)有對(duì)在線業(yè)務(wù)造成無(wú)法接受的干擾。

每天對(duì)熱點(diǎn)視頻進(jìn)行二次或更多次編碼也是愛(ài)奇藝一項(xiàng)較重的非實(shí)時(shí)離線計(jì)算任務(wù),目的在于通過(guò)再生產(chǎn)降低碼率或提高質(zhì)量。該任務(wù)目前正在灰度驗(yàn)證階段,期待接入Anolis OS 和 Koordinator 之后能帶來(lái)足夠大的驚喜。

大數(shù)據(jù)離線計(jì)算方面,出于綜合考慮,愛(ài)奇藝目前依然選擇 Kata 作為運(yùn)行時(shí),因此也正在積極和龍蜥社區(qū)進(jìn)行探索,嘗試 Kata 和 Koordinator 的合作。

上圖為試點(diǎn)前后的效果對(duì)比,在驗(yàn)證環(huán)境設(shè)計(jì)比較保守的情況下,利用率整體提升 50% 以上。圖中任務(wù)高峰期 CPU 使用率低于水位線的主要原因是BE任務(wù)申請(qǐng)的資源量沒(méi)有被充分利用導(dǎo)致,涉及到離線任務(wù)的運(yùn)營(yíng)。當(dāng)然,如何通過(guò)技術(shù)手段將真實(shí)的資源進(jìn)行三次、四次甚至無(wú)限次的分配,也是愛(ài)奇藝期望盡快解決的。

三、未來(lái)工作展望

未來(lái),愛(ài)奇藝將與龍蜥社區(qū)攜手同行。首先,爭(zhēng)取將 CPU 利用率提升到 50% 甚至更高。其次,因?yàn)樯婕岸嘧鈶?,需要進(jìn)行資源分配,尤其是離線任務(wù)資源總量不穩(wěn)定,離線池內(nèi)資源分配不合理和資源搶占問(wèn)題時(shí)有發(fā)生,期望能夠在未來(lái)規(guī)避此類問(wèn)題。最后,愛(ài)奇藝將會(huì)在離線任務(wù)質(zhì)量保障方面繼續(xù)探索。

原文鏈接

本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購(gòu),新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧


本文名稱:愛(ài)奇藝:基于龍蜥與Koordinator在離線混部的實(shí)踐解析-創(chuàng)新互聯(lián)
分享URL:http://weahome.cn/article/ceeges.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部