這篇文章主要介紹“azkaban的使用教程”,在日常操作中,相信很多人在azkaban的使用教程問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對(duì)大家解答”azkaban的使用教程”的疑惑有所幫助!接下來,請(qǐng)跟著小編一起來學(xué)習(xí)吧!
創(chuàng)新互聯(lián)公司-云計(jì)算及IDC服務(wù)提供商,涵蓋公有云、IDC機(jī)房租用、雅安移動(dòng)機(jī)房、等保安全、私有云建設(shè)等企業(yè)級(jí)互聯(lián)網(wǎng)基礎(chǔ)服務(wù),電話聯(lián)系:18980820575
https://localhost:8443
注意是https,采用的是jetty ssl鏈接。輸入賬號(hào)密碼azkaban/azkanban(如果你之前沒有更改的話)
首頁有四個(gè)菜單
projects:最重要的部分,創(chuàng)建一個(gè)工程,所有flows將在工程中運(yùn)行。
scheduling:顯示定時(shí)任務(wù)
executing:顯示當(dāng)前運(yùn)行的任務(wù)
history:顯示歷史運(yùn)行任務(wù)
主要介紹projects部分
首先創(chuàng)建一個(gè)工程,填寫名稱和描述,比如o2olog。
type=command command=echo "data 2 hive"
一個(gè)簡單的job就創(chuàng)建好了,解釋下,type的command,告訴azkaban用unix原生命令去運(yùn)行,比如原生命令或者shell腳本,當(dāng)然也有其他類型,后面說。
一個(gè)工程不可能只有一個(gè)job,我們現(xiàn)在創(chuàng)建多個(gè)依賴job,這也是采用azkaban的首要目的。
我們說過多個(gè)jobs和它們的依賴組成flow。怎么創(chuàng)建依賴,只要指定dependencies參數(shù)就行了。比如導(dǎo)入hive前,需要進(jìn)行數(shù)據(jù)清洗,數(shù)據(jù)清洗前需要上傳,上傳之前需要從ftp獲取日志。
定義5個(gè)job:
o2o_2_hive.job:將清洗完的數(shù)據(jù)入hive庫
o2o_clean_data.job:調(diào)用mr清洗hdfs數(shù)據(jù)
o2o_up_2_hdfs.job:將文件上傳至hdfs
o2o_get_file_ftp1.job:從ftp1獲取日志
o2o_get_file_fip2.job:從ftp2獲取日志
依賴關(guān)系:
3依賴4和5,2依賴3,1依賴2,4和5沒有依賴關(guān)系。
o2o_2_hive.job
type=command # 執(zhí)行sh腳本,建議這樣做,后期只需維護(hù)腳本就行了,azkaban定義工作流程 command=sh /job/o2o_2_hive.sh dependencies=o2o_clean_data
o2o_clean_data.job
type=command # 執(zhí)行sh腳本,建議這樣做,后期只需維護(hù)腳本就行了,azkaban定義工作流程 command=sh /job/o2o_clean_data.sh dependencies=o2o_up_2_hdfs
o2o_up_2_hdfs.job
type=command #需要配置好hadoop命令,建議編寫到shell中,可以后期維護(hù) command=hadoop fs -put /data/* #多個(gè)依賴用逗號(hào)隔開 dependencies=o2o_get_file_ftp1,o2o_get_file_ftp2
o2o_get_file_ftp1.job
type=command command=wget "ftp://file1" -O /data/file1
o2o_get_file_ftp2.job
type=command command=wget "ftp:file2" -O /data/file2
可以運(yùn)行unix命令,也可以運(yùn)行python腳本(強(qiáng)烈推薦)。將上述job打成zip包。
ps:為了測(cè)試流程,我將上述command都改為echo +相應(yīng)命令
上傳:
點(diǎn)擊o2o_2_hive進(jìn)入流程,azkaban流程名稱以最后一個(gè)沒有依賴的job定義的。
右上方是配置執(zhí)行當(dāng)前流程或者執(zhí)行定時(shí)流程。
Flow view:流程視圖??梢越?,啟用某些job
Notification:定義任務(wù)成功或者失敗是否發(fā)送郵件
Failure Options:定義一個(gè)job失敗,剩下的job怎么執(zhí)行
Concurrent:并行任務(wù)執(zhí)行設(shè)置
Flow Parametters:參數(shù)設(shè)置。
1.執(zhí)行一次
設(shè)置好上述參數(shù),點(diǎn)擊execute。
綠色代表成功,藍(lán)色是運(yùn)行,紅色是失敗??梢圆榭磈ob運(yùn)行時(shí)間,依賴和日志,點(diǎn)擊details可以查看各個(gè)job運(yùn)行情況。
我們可以點(diǎn)擊Detail查看詳細(xì)輸出,以及報(bào)錯(cuò)。
2.定時(shí)執(zhí)行
可以定義job依賴另一個(gè)flow,配置
type=flow flow.name=fisrt_flow
可以設(shè)置每個(gè)job中子命令
type=command command=echo "hello" command.1=echo "world"
可以配置job失敗重啟次數(shù),及間隔時(shí)間,比如,上述ftp獲取日志,我可以配置重試12次,每隔5分鐘一次。
type=command command=wget "ftp://file1" -O /data/file1 retries=12 #單位毫秒 retry.backoff=300000
到此,關(guān)于“azkaban的使用教程”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!