事件調(diào)度器是在 MySQL 5.1 中新增的另一個特色功能,可以作為定時任務(wù)調(diào)度器,取代部分原先只能用操作系統(tǒng)任務(wù)調(diào)度器才能完成的定時功能。例如,Linux 中的 crontabe 只能精確到每分鐘執(zhí)行一次,而 MySQL 的事件調(diào)度器則可以實現(xiàn)每秒鐘執(zhí)行一個任務(wù),這在一些對實時性要求較高的環(huán)境下就非常實用了。
為中原等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù),及中原網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都網(wǎng)站制作、成都網(wǎng)站建設(shè)、中原網(wǎng)站設(shè)計,以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!
kettle是一個ETL工具,ETL(Extract-Transform-Load的縮寫,即數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程)。
kettle中文名稱叫水壺,該項目的主程序員MATT 希望把各種數(shù)據(jù)放到一個壺里,然后以一種指定的格式流出。
所以他的重心是用于數(shù)據(jù)
oozie是一個工作流,Oozie工作流是放置在控制依賴DAG(有向無環(huán)圖 Direct Acyclic Graph)中的一組動作(例如,Hadoop的Map/Reduce作業(yè)、Pig作業(yè)等),其中指定了動作執(zhí)行的順序。
oozie工作流中是有數(shù)據(jù)流動的,但是重心是在于工作流的定義。
二者雖然都有相關(guān)功能及數(shù)據(jù)的流動,但是其實用途是不一樣的。
查看幫助
列舉出所有l(wèi)inux上的數(shù)據(jù)庫
列舉出所有Window上的數(shù)據(jù)庫
查看數(shù)據(jù)庫下的所有表
(1)確定mysql服務(wù)啟動正常
查詢控制端口和查詢進(jìn)程來確定,一下兩種辦法可以確認(rèn)mysql是否在啟動狀態(tài)
辦法1:查詢端口
MySQL監(jiān)控的TCP的3306端口,如果顯示3306,證明MySQL服務(wù)在運行中
辦法二:查詢進(jìn)程
可以看見mysql的進(jìn)程
沒有指定數(shù)據(jù)導(dǎo)入到哪個目錄,默認(rèn)是/user/root/表名
原因:
如果表中有主鍵,m的值可以設(shè)置大于1的值;如果沒有主鍵只能將m值設(shè)置成為1;或者要將m值大于1,需要使用--split-by指定一個字段
設(shè)置了-m 1 說明只有一個maptask執(zhí)行數(shù)據(jù)導(dǎo)入,默認(rèn)是4個maptask執(zhí)行導(dǎo)入操作,但是必須指定一個列來作為劃分依據(jù)
導(dǎo)入數(shù)據(jù)到指定目錄
在導(dǎo)入表數(shù)據(jù)到HDFS使用Sqoop導(dǎo)入工具,我們可以指定目標(biāo)目錄。使用參數(shù) --target-dir來指定導(dǎo)出目的地,使用參數(shù)—delete-target-dir來判斷導(dǎo)出目錄是否存在,如果存在就刪掉
查詢導(dǎo)入
提示:must contain '$CONDITIONS' in WHERE clause。
where id =1 匹配條件
$CONDITIONS:傳遞作用。
如果 query 后使用的是雙引號,則 $CONDITIONS前必須加轉(zhuǎn)義符,防止 shell 識別為自己的變量。
--query時不能使用--table一起使用
需要指定--target-dir路徑
導(dǎo)入到hdfs指定目錄并指定要求
數(shù)據(jù)導(dǎo)出儲存方式(數(shù)據(jù)存儲文件格式---( textfil parquet)--as-textfileImports data as plain text (default)--as-parquetfile Imports data to Parquet Files)
導(dǎo)入表數(shù)據(jù)子集到HDFS
sqoop導(dǎo)入blob數(shù)據(jù)到hive
對于CLOB,如xml文本,sqoop可以遷移到Hive表,對應(yīng)字段存儲為字符類型。
對于BLOB,如jpg圖片,sqoop無法直接遷移到Hive表,只能先遷移到HDFS路徑,然后再使用Hive命令加載到Hive表。遷移到HDFS后BLOB字段存儲為16進(jìn)制形式。
2.1.3導(dǎo)入關(guān)系表到Hive
第一步:導(dǎo)入需要的jar包
將我們mysql表當(dāng)中的數(shù)據(jù)直接導(dǎo)入到hive表中的話,我們需要將hive的一個叫做hive-exec-1.1.0-cdh5.14.0.jar的jar包拷貝到sqoop的lib目錄下
第二步:開始導(dǎo)入
導(dǎo)入關(guān)系表到hive并自動創(chuàng)建hive表
們也可以通過命令來將我們的mysql的表直接導(dǎo)入到hive表當(dāng)中去
通過這個命令,我們可以直接將我們mysql表當(dāng)中的數(shù)據(jù)以及表結(jié)構(gòu)一起倒入到hive當(dāng)中去
--incremental 增量模式。
append id 是獲取一個某一列的某個值。
lastmodified “2016-12-15 15:47:35” 獲取某個時間后修改的所有數(shù)據(jù)
-append 附加模式
-merge-key id 合并模式
--check-column 用來指定一些列,可以去指定多個列;通常的是指定主鍵id
--last -value 從哪個值開始增量
==注意:增量導(dǎo)入的時候,一定不能加參數(shù)--delete-target-dir 否則會報錯==
第一種增量導(dǎo)入方式(不常用)
1.Append方式
使用場景:有個訂單表,里面每個訂單有一個唯一標(biāo)識的自增列id,在關(guān)系型數(shù)據(jù)庫中以主鍵的形式存在。之前已經(jīng)將id在0-1000之間的編號的訂單導(dǎo)入到HDFS 中;如果在產(chǎn)生新的訂單,此時我們只需指定incremental參數(shù)為append,--last-value參數(shù)為1000即可,表示只從id大于1000后開始導(dǎo)入。
(1)創(chuàng)建一個MySQL表
(2)創(chuàng)建一個hive表(表結(jié)構(gòu)與mysql一致)
注意:
append 模式不支持寫入到hive表中
2.lastModify方式
此方式要求原有表有time字段,它能指定一個時間戳,讓sqoop把該時間戳之后的數(shù)據(jù)導(dǎo)入到HDFS;因為后續(xù)訂單可能狀體會變化,變化后time字段時間戳也會變化,此時sqoop依然會將相同狀態(tài)更改后的訂單導(dǎo)入HDFS,當(dāng)然我們可以只當(dāng)merge-key參數(shù)為order-id,表示將后續(xù)新的記錄和原有記錄合并。
# 將時間列大于等于閾值的數(shù)據(jù)增量導(dǎo)入HDFS
使用 lastmodified 方式導(dǎo)入數(shù)據(jù),要指定增量數(shù)據(jù)是要 --append(追加)還是要 --merge-key(合并)last-value 指定的值是會包含于增量導(dǎo)入的數(shù)據(jù)中。
第二種增量導(dǎo)入方式(推薦)
==通過where條件選取數(shù)據(jù)更加精準(zhǔn)==
2.1.5從RDBMS到HBase
會報錯
原因:sqoop1.4.6 只支持 HBase1.0.1 之前的版本的自動創(chuàng)建 HBase 表的功能。
解決方案:手動創(chuàng)建 HBase 表
導(dǎo)出前,目標(biāo)表必須存在與目標(biāo)數(shù)據(jù)庫中
默認(rèn)操作是將文件中的數(shù)據(jù)使用insert語句插入到表中
數(shù)據(jù)是在HDFS當(dāng)中的如下目錄/sqoop/emp,數(shù)據(jù)內(nèi)容如下
第一步:創(chuàng)建MySQL表
第二步:執(zhí)行導(dǎo)出命令
通過export來實現(xiàn)數(shù)據(jù)的導(dǎo)出,將hdfs的數(shù)據(jù)導(dǎo)出到mysql當(dāng)中去
全量導(dǎo)出
增量導(dǎo)出
更新導(dǎo)出
總結(jié):
參數(shù)介紹
--update-key 后面也可以接多個關(guān)鍵字列名,可以使用逗號隔開,Sqoop將會匹配多個關(guān)鍵字后再執(zhí)行更新操作。
--export-dir 參數(shù)配合--table或者--call參數(shù)使用,指定了HDFS上需要將數(shù)據(jù)導(dǎo)入到MySQL中的文件集目錄。
--update-mode updateonly和allowinsert。 默認(rèn)模式為updateonly,如果指定--update-mode模式為allowinsert,可以將目標(biāo)數(shù)據(jù)庫中原來不存在的數(shù)據(jù)也導(dǎo)入到數(shù)據(jù)庫表中。即將存在的數(shù)據(jù)更新,不存在數(shù)據(jù)插入。
組合測試及說明
1、當(dāng)指定update-key,且關(guān)系型數(shù)據(jù)庫表存在主鍵時:
A、allowinsert模式時,為更新目標(biāo)數(shù)據(jù)庫表存的內(nèi)容,并且原來不存在的數(shù)據(jù)也導(dǎo)入到數(shù)據(jù)庫表;
B、updateonly模式時,為更新目標(biāo)數(shù)據(jù)庫表存的內(nèi)容,并且原來不存在的數(shù)據(jù)也不導(dǎo)入到數(shù)據(jù)庫表;
2、當(dāng)指定update-key,且關(guān)系型數(shù)據(jù)庫表不存在主鍵時:
A、allowinsert模式時,為全部數(shù)據(jù)追加導(dǎo)入到數(shù)據(jù)庫表;
B、updateonly模式時,為更新目標(biāo)數(shù)據(jù)庫表存的內(nèi)容,并且原來不存在的數(shù)據(jù)也不導(dǎo)入到數(shù)據(jù)庫表;
3、當(dāng)不指定update-key,且關(guān)系型數(shù)據(jù)庫表存在主鍵時:
A、allowinsert模式時,報主鍵沖突,數(shù)據(jù)無變化;
B、updateonly模式時,報主鍵沖突,數(shù)據(jù)無變化;
4、當(dāng)不指定update-key,且關(guān)系型數(shù)據(jù)庫表不存在主鍵時:
A、allowinsert模式時,為全部數(shù)據(jù)追加導(dǎo)入到數(shù)據(jù)庫表;
B、updateonly模式時,為全部數(shù)據(jù)追加導(dǎo)入到數(shù)據(jù)庫表;
實際案例:
(1)mysql批量導(dǎo)入hive
使用shell腳本:
筆者目前用sqoop把mysql數(shù)據(jù)導(dǎo)入到Hive中,最后實現(xiàn)命令行導(dǎo)入,sqoop版本1.4.7,實現(xiàn)如下
最后需要把這個導(dǎo)入搞成job,每天定時去跑,實現(xiàn)數(shù)據(jù)的自動化增量導(dǎo)入,sqoop支持job的管理,可以把導(dǎo)入創(chuàng)建成job重復(fù)去跑,并且它會在metastore中記錄增值,每次執(zhí)行增量導(dǎo)入之前去查詢
創(chuàng)建job命令如下
創(chuàng)建完job就可以去執(zhí)行它了
sqoop job --exec users
可以把該指令設(shè)為Linux定時任務(wù),或者用Azkaban定時去執(zhí)行它
hive導(dǎo)出到MySQL時,date類型數(shù)據(jù)發(fā)生變化?
問題原因:時區(qū)設(shè)置問題,date -R查看服務(wù)器時間,show VARIABLES LIKE "%time_zone"查看Mysql時間,system并不表示中國的標(biāo)準(zhǔn)時間,要將時間設(shè)置為東八區(qū)
(1):對市面上最流行的兩種調(diào)度器,給出以下詳細(xì)對比,以供技術(shù)選型參考??傮w來說,ooize相比azkaban是一個重量級的任務(wù)調(diào)度系統(tǒng),功能全面,但配置使用也更復(fù)雜。如果可以不在意某些功能的缺失,輕量級調(diào)度器azkaban是很不錯的候選對象。
(2):功能:
兩者均可以調(diào)度mapreduce,pig,java,腳本工作流任務(wù);
兩者均可以定時執(zhí)行工作流任務(wù);
(3):工作流定義:
Azkaban使用Properties文件定義工作流;
Oozie使用XML文件定義工作流;
(4):工作流傳參:
Azkaban支持直接傳參,例如${input};
Oozie支持參數(shù)和EL表達(dá)式,例如${fs:dirSize(myInputDir)};
(5):定時執(zhí)行:
Azkaban的定時執(zhí)行任務(wù)是基于時間的;
Oozie的定時執(zhí)行任務(wù)基于時間和輸入數(shù)據(jù);
(6):資源管理:
Azkaban有較嚴(yán)格的權(quán)限控制,如用戶對工作流進(jìn)行讀/寫/執(zhí)行等操作;
Oozie暫無嚴(yán)格的權(quán)限控制;
(7):工作流執(zhí)行:
Azkaban有兩種運行模式,分別是solo server mode(executor server和web server部署在同一臺節(jié)點)和multi server mode(executor server和web server可以部署在不同節(jié)點);
Oozie作為工作流服務(wù)器運行,支持多用戶和多工作流;
(8):工作流管理:
Azkaban支持瀏覽器以及ajax方式操作工作流;
Oozie支持命令行、HTTP REST、Java API、瀏覽器操作工作流;
瀏覽器頁面訪問
使用Oozie時通常整合hue,用戶數(shù)據(jù)倉庫調(diào)度
就是剛才選擇的腳本
腳本里需要的參數(shù),盡量設(shè)置為動態(tài)自動獲取,如 ${date}
第一步的參數(shù)是所有文件和當(dāng)天日期,后面的只需要日期,最后一步是導(dǎo)出所有結(jié)果,相應(yīng)填入
添加文件和設(shè)置相應(yīng)參數(shù)
運行后會有狀態(tài)提示頁面,可以看到任務(wù)進(jìn)度
點擊調(diào)度任務(wù)的頁面情況
修改定時任務(wù)名和描述
添加需要定時調(diào)度的任務(wù)
sm-workflow的參數(shù)都是寫死的,沒有設(shè)置動態(tài),這里的下拉列表就不會有可選項。
設(shè)置參數(shù)
將sm-workflow的日期修改為 ${do_date},保存
進(jìn)入定時計劃sm-dw中,會看到有參數(shù) do_date
填入相應(yīng)參數(shù),前一天日期
Oozie常用系統(tǒng)常量
當(dāng)然,也可以通過這樣將參數(shù)傳入workflow任務(wù)中,代碼或者shell中需要的參數(shù)。
如,修改sm-workflow 中的 sqoop_import.sh,添加一個參數(shù) ${num}。
編輯文件(需要登陸Hue的用戶有對HDFS操作的權(quán)限),修改shell中的一個值為參數(shù),保存。
在workflow中,編輯添加參數(shù) ${num} ,或者num=${num} 保存。
進(jìn)入schedule中,可以看到添加的參數(shù),編輯輸入相應(yīng)參數(shù)即可。
Bundle統(tǒng)一管理所有定時調(diào)度,階段劃分:Bundle Schedule workflow
MySQL從5.1開始支持event功能,類似oracle的job功能。
創(chuàng)建定時器 調(diào)用的存儲過程
DELIMITER $$
DROP PROCEDURE IF EXISTS e_test $$
CREATE PROCEDURE e_test()
BEGIN
update pcdemo set v_isbag=0 where v_isbag=1 and to_days(now())-to_days(d_lasttime)
mysql定時任務(wù)
自 MySQL5.1.6起,增加了一個非常有特色的功能–事件調(diào)度器(Event Scheduler),可以用做定時執(zhí)行某些特定任務(wù)(例如:刪除記錄、對數(shù)據(jù)進(jìn)行匯總等等),來取代原先只能由操作系統(tǒng)的計劃任務(wù)來執(zhí)行的工作。更值得 一提的是MySQL的事件調(diào)度器可以精確到每秒鐘執(zhí)行一個任務(wù),而操作系統(tǒng)的計劃任務(wù)(如:Linux下的CRON或Windows下的任務(wù)計劃)只能精 確到每分鐘執(zhí)行一次。對于一些對數(shù)據(jù)實時性要求比較高的應(yīng)用(例如:股票、賠率、比分等)就非常適合。
如:每隔30秒將執(zhí)行存儲過程test,將當(dāng)前時間更新到examinfo表中id=14的記錄的endtime字段中去.
CREATE PROCEDURE test ()
BEGIN
update examinfo SET endtime = now() WHERE id = 14;
END;
create event if not exists e_test
on schedule every 30 second
on completion preserve
do call test();
2. windows、linux 的定時任務(wù) 這個就不舉例了,通過腳本定時去調(diào)用mysql執(zhí)行
mysql實現(xiàn)定時任務(wù)是有一個時間調(diào)度器,所以首先要查看這個時間調(diào)度器是否開啟。
查看的命令:
show variables like 'event_scheduler'
如果沒有打開,則設(shè)置打開。設(shè)置的命令是:
set global event_scheduler = ON; 或set global event_scheduler = 1;
確定打開事件調(diào)度器后,我們可以創(chuàng)建一個定時任務(wù)。
創(chuàng)建定時任務(wù)的語法為:
create event 定時任務(wù)名稱
ON schedule 定時時間
do
定時任務(wù)所要執(zhí)行的sql;
example:每隔一分鐘往表tt里插入一條數(shù)據(jù)
create event insert_tt
ON schedule every 1 MINUTE
do
insert into tt values(1);
如果要執(zhí)行多條sql則可用多個do
create event insert_tt
ON schedule every 1 MINUTE
do
insert into tt values(1);
do
.......
使用命令查看所有的定時任務(wù)及其狀態(tài):
show processlist
如果要停掉某個定時任務(wù)可以使用:
alter event 定時任務(wù)名 ON
COMPLETION PRESERVE DISABLE;
example:
alter event insert_tt ON
COMPLETION PRESERVE DISABLE;
開啟某個定時任務(wù):
alter event 定時任務(wù)名稱 ON
COMPLETION PRESERVE ENABLE;