怎么通過準(zhǔn)入控制馴服Apache Impala用戶,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。
十載的疏附網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。全網(wǎng)整合營銷推廣的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整疏附建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)從事“疏附網(wǎng)站設(shè)計(jì)”,“疏附網(wǎng)站推廣”以來,每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。
Apache Impala遇到的一個(gè)常見問題是資源管理。每個(gè)人都想使用盡可能多的資源(即內(nèi)存)來嘗試提高速度和/或隱藏查詢效率低下的情況。但是,這對(duì)其他人不公平,并且可能不利于支持重要業(yè)務(wù)流程的查詢。我們?cè)谠S多客戶那里看到的是,在重新構(gòu)建集群并開始使用初始用例時(shí),會(huì)有大量資源。在繼續(xù)添加更多用例,數(shù)據(jù)科學(xué)家和運(yùn)行即席查詢的業(yè)務(wù)部門之前,這些資源會(huì)消耗足夠的資源以防止那些原始用例按時(shí)完成,因此無需擔(dān)心資源。這會(huì)導(dǎo)致查詢失敗,這可能使用戶感到沮喪,并給現(xiàn)有使用案例帶來問題。為了有效地管理Apache Impala的資源,我們建議使用
準(zhǔn)入控制 功能。借助Admission Control,我們可以為Impala設(shè)置資源池。這意味著限制查詢的數(shù)量,內(nèi)存的數(shù)量,并為資源池中的每個(gè)查詢強(qiáng)制設(shè)置。準(zhǔn)入控制的設(shè)置很多,一開始可能令人生畏。我們將專注于內(nèi)存設(shè)置,這些內(nèi)存設(shè)置對(duì)于已經(jīng)有數(shù)十個(gè)活動(dòng)用戶和應(yīng)用程序運(yùn)行的集群而言至關(guān)重要。步驟1:獲取內(nèi)存統(tǒng)計(jì)信息準(zhǔn)入控制的第一個(gè)挑戰(zhàn)是手動(dòng)收集有關(guān)單個(gè)用戶及其運(yùn)行的查詢的指標(biāo),以嘗試定義資源池的內(nèi)存設(shè)置。
您可以在Cloudera Manager中手動(dòng)使用Apache Impala查詢窗口和圖表構(gòu)建器
來遍歷每個(gè)用戶的查詢以收集一些統(tǒng)計(jì)信息,但是在以后進(jìn)行重新評(píng)估非常耗時(shí)且乏味。
為了對(duì)如何為各種用戶和應(yīng)用程序分配資源做出明智而準(zhǔn)確的決定,我們需要收集詳細(xì)的指標(biāo)。
我們已經(jīng)編寫了Python腳本來簡化此過程。
該腳本可以在GitHub上找到:https://github.com/phdata/blog-2019-10-impala-admcontrol 該腳本會(huì)生成一個(gè)csv報(bào)告,并且不會(huì)進(jìn)行任何更改。請(qǐng)查看Readme文件并在您的環(huán)境中運(yùn)行腳本。csv報(bào)告包含以下方面的總體統(tǒng)計(jì)信息和每個(gè)用戶的統(tǒng)計(jì)信息:? (queries_count)–運(yùn)行的查詢數(shù)? (queries_count_missing_stats)–不帶統(tǒng)計(jì)信息運(yùn)行的查詢數(shù)? (aggregate_avg_gb)–節(jié)點(diǎn)間使用的平均內(nèi)存? (aggregate_99th_gb)–跨節(jié)點(diǎn)使用的最大內(nèi)存為99%? (aggregate_max_gb)–跨節(jié)點(diǎn)使用的最大內(nèi)存? (per_node_avg_gb)–每個(gè)節(jié)點(diǎn)使用的平均內(nèi)存? (per_node_99th_gb)–每個(gè)節(jié)點(diǎn)使用的最大內(nèi)存為99%? (per_node_max_gb)–每個(gè)節(jié)點(diǎn)使用的最大內(nèi)存? (duration_avg_minutes)–平均查詢持續(xù)時(shí)間(以分鐘為單位)? (duration_99th_minutes)– 99%的查詢持續(xù)時(shí)間(以分鐘為單位)? (duration_max_minutes)–最大查詢持續(xù)時(shí)間(以分鐘為單位)步驟
2
:立即采取的行動(dòng)和關(guān)注的問題每個(gè)集群上的每個(gè)工作負(fù)載都將有所不同,并且具有廣泛的要求。
在瀏覽報(bào)告時(shí),有一些高優(yōu)先級(jí)項(xiàng)需要尋找。
首先,運(yùn)行查詢的用戶是否缺少統(tǒng)計(jì)信息?(
count_missing_stats
字段
)如果您看到查詢?cè)谶\(yùn)行時(shí)沒有統(tǒng)計(jì)信息,建議您調(diào)查哪些表缺少統(tǒng)計(jì)信息,并確保計(jì)算統(tǒng)計(jì)信息是您環(huán)境中的標(biāo)準(zhǔn)過程。在第99列中,我們嘗試說明其大部分查詢(占99%)。如果最大列中的任何一個(gè)比第99個(gè)高出10-20%以上,這將使我們能夠解決錯(cuò)誤或錯(cuò)誤的查詢,調(diào)查用戶的最高查詢以查看它們是否為錯(cuò)誤查詢,或者是否可以將這幾個(gè)查詢改進(jìn)為更好地利用資源。? aggregate_max到aggregate_99th? per_node_max至per_node_99th? duration_max至duration_99th步驟
3
:
APACHE IMPALA
中的資源池設(shè)置我們將基于此報(bào)告定義的設(shè)置為:
? 最大運(yùn)行查詢/最大排隊(duì)查詢我們將逐步指導(dǎo)您如何確定必要資源池的每個(gè)設(shè)置。確定后,我們將使用CM中的“創(chuàng)建資源池”向?qū)韯?chuàng)建每個(gè)池,如下圖所示。為了真正衡量這一點(diǎn),我們需要有一個(gè)單獨(dú)的報(bào)告,該報(bào)告記錄了查詢的開始時(shí)間和持續(xù)時(shí)間,以跟蹤每個(gè)用戶的平均、第99個(gè)百分位數(shù)和最大并發(fā)性。對(duì)于此設(shè)置,我們建議您根據(jù)用例將其保持在盡可能低的水平,因?yàn)樗罱K會(huì)影響您希望該用戶或一組用戶能夠使用的最大內(nèi)存。為簡單起見,對(duì)于排隊(duì)查詢的數(shù)量,我們將其設(shè)置為為最大運(yùn)行查詢?cè)O(shè)置的數(shù)量。這是我們要為每個(gè)節(jié)點(diǎn)查詢的最大內(nèi)存量。此設(shè)置最安全的輸入是我們報(bào)告中的per_node_max列。例外情況是,如果您調(diào)查了用戶的最高內(nèi)存使用情況查詢,并發(fā)現(xiàn)per_node_99th可以更好地表示用戶的良好查詢,則請(qǐng)使用per_node_99th。這是根據(jù)(默認(rèn)查詢內(nèi)存限制* 20(Impala主機(jī)數(shù))*最大運(yùn)行查詢數(shù))計(jì)算得出的。例如,如果我們希望資源池每個(gè)節(jié)點(diǎn)的查詢限制為最大4GiB,并且一次能夠運(yùn)行5個(gè)查詢,那么最大內(nèi)存為400GiB。此設(shè)置由并發(fā)性,持續(xù)時(shí)間和查詢的SLA決定。如果查詢必須在30秒內(nèi)運(yùn)行,并且查詢已調(diào)整為在20秒內(nèi)運(yùn)行,則查詢?cè)陉?duì)列中停留的時(shí)間超過10秒,將違反SLA。針對(duì)Apache Impala運(yùn)行的第三方應(yīng)用程序可能會(huì)有自己的查詢超時(shí),這可能會(huì)干擾我們希望返回立即錯(cuò)誤的情況。對(duì)于長期運(yùn)行的ETL工作負(fù)載,這些工作負(fù)載可能最終導(dǎo)致數(shù)據(jù)偏斜增加查詢持續(xù)時(shí)間,您可以延長這些超時(shí)時(shí)間以確保所有查詢都已排隊(duì)并運(yùn)行。像Cloudera的“ 準(zhǔn)入控制示 例 方案 ” 一樣, 我們的集群有20個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)上的Impala內(nèi)存為128gb(Impala總計(jì)2560 GiB)。馬上,我們可以看到需要跟進(jìn)三個(gè)用戶(svc_account3,user1和user4),以查看他們的內(nèi)存狀態(tài)是否可以通過計(jì)算狀態(tài)得到改善,或者他們的幾個(gè)查詢編寫得很差。我們還應(yīng)該研究svc_account1,因?yàn)樗鼈兊腳99th和_max數(shù)字相距甚遠(yuǎn)。用戶的默認(rèn)資源池:這是我們的通用池,適用于平臺(tái)上沒有合理用例的其他資源的任何人。我們預(yù)留了25%的集群資源。? 最大內(nèi)存:640 GiB(集群的25%)? 默認(rèn)查詢內(nèi)存限制:3 GiB服務(wù)帳戶的默認(rèn)資源池:這是用于由應(yīng)用程序或計(jì)劃的進(jìn)程生成的標(biāo)準(zhǔn)工作負(fù)載的常規(guī)資源池。? 默認(rèn)查詢內(nèi)存限制:5 GiB超級(jí)用戶資源池:這是需要更多資源的用戶的資源池。user3可能是唯一符合Power Users資源池條件的用戶。? 默認(rèn)查詢內(nèi)存限制:10 GiBsvc_account2
資源池:在服務(wù)帳戶中,這是我們發(fā)現(xiàn)的唯一一個(gè)真正需要專用資源池的帳戶。? 默認(rèn)查詢內(nèi)存限制:12 GiB我們建議為每個(gè)服務(wù)帳戶創(chuàng)建專用的資源池,以確保資源受到保護(hù),不會(huì)被標(biāo)準(zhǔn)用戶使用。實(shí)施準(zhǔn)入控制的防護(hù)欄后,我們的客戶在工作負(fù)載中將具有更高的可靠性和一致性。但是,需要一些照顧和喂養(yǎng)。在某些情況下,新的用例會(huì)經(jīng)歷一個(gè)過程,即需要請(qǐng)求并證明超出默認(rèn)值之外的資源。提醒一下,每個(gè)集群上的每個(gè)工作負(fù)載都是唯一的,要完全實(shí)施準(zhǔn)入控制,可能需要反復(fù)試驗(yàn)。看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對(duì)創(chuàng)新互聯(lián)的支持。
網(wǎng)站名稱:怎么通過準(zhǔn)入控制馴服ApacheImpala用戶
網(wǎng)頁路徑:
http://weahome.cn/article/jpdspi.html