同步業(yè)務(wù)庫(kù)的數(shù)據(jù)到ODS層,之前一直是全量同步數(shù)據(jù),主要考慮IO太大,耗時(shí)太長(zhǎng),重復(fù)拉取同樣的數(shù)據(jù),現(xiàn)在考慮增量同步的方式實(shí)現(xiàn),同時(shí)對(duì)庫(kù)表數(shù)據(jù)做分區(qū)。
公司主營(yíng)業(yè)務(wù):成都網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè)、移動(dòng)網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競(jìng)爭(zhēng)能力。成都創(chuàng)新互聯(lián)是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對(duì)我們的高要求,感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn),讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來(lái)驚喜。成都創(chuàng)新互聯(lián)推出倉(cāng)山免費(fèi)做網(wǎng)站回饋大家。
增量同步主要分為兩步,第一步,存量數(shù)據(jù)一次性同步;第二步,在存量數(shù)據(jù)的基礎(chǔ)之上,做增量;后期的每一次同步都是增量同步。以下是具體同步方案:
用Sqoop同步表中全部數(shù)據(jù)到Hive表中;
a.根據(jù)hive中最大更新時(shí)間,用Sqoop提取更新時(shí)間為這個(gè)時(shí)間之后的增量數(shù)據(jù);
1)獲取表的所有列,把datetime和timestamp類型,統(tǒng)一在java中映射成TIMESTAMP類型,腳本如下:
2) 用sqoop import拉取數(shù)據(jù),腳本如下:
1)創(chuàng)建增量同步的sqoop job,腳本如下:
a、從hive中獲取表的最大更新時(shí)間
b、以上面獲取的最大更新時(shí)間,作為起點(diǎn),創(chuàng)建sqoop job,腳本如下:
c、創(chuàng)建sqoop job之后,就是執(zhí)行job了,腳本如下:
具體參數(shù)詳解,參考:
照你的需求來(lái)看,可以有兩種方式,一種是分表,另一種是分區(qū) 首先是分表,就像你自己所說(shuō)的,可以按月分表,可以按用戶ID分表等等,至于采用哪種方式分表,要看你的業(yè)務(wù)邏輯了,分表不好的地方就是查詢有時(shí)候需要跨多個(gè)表。 然后是分區(qū),分區(qū)可以將表分離在若干不同的表空間上,用分而治之的方法來(lái)支撐無(wú)限膨脹的大表,給大表在物理一級(jí)的可管理性。將大表分割成較小的分區(qū)可以改善表的維護(hù)、備份、恢復(fù)、事務(wù)及查詢性能。分區(qū)的好處是分區(qū)的優(yōu)點(diǎn): 1 增強(qiáng)可用性:如果表的一個(gè)分區(qū)由于系統(tǒng)故障而不能使用,表的其余好的分區(qū)仍然可以使用; 2 減少關(guān)閉時(shí)間:如果系統(tǒng)故障只影響表的一部分分區(qū),那么只有這部分分區(qū)需要修復(fù),故能比整個(gè)大表修復(fù)花的時(shí)間更少; 3 維護(hù)輕松:如果需要重建表,獨(dú)立管理每個(gè)分區(qū)比管理單個(gè)大表要輕松得多; 4 均衡I/O:可以把表的不同分區(qū)分配到不同的磁盤來(lái)平衡I/O改善性能; 5 改善性能:對(duì)大表的查詢、增加、修改等操作可以分解到表的不同分區(qū)來(lái)并行執(zhí)行,可使運(yùn)行速度更快; 6 分區(qū)對(duì)用戶透明,最終用戶感覺不到分區(qū)的存在。
建立兩個(gè)單域的表格。一個(gè)表格中為姓名列表(表格名:data)。
另一個(gè)表格中是所插入字符的字符數(shù)(表格名:chars)。在data表格中定義一個(gè)觸發(fā)器。
每次在其中插入一個(gè)新姓名時(shí),chars表格中運(yùn)行的總數(shù)就會(huì)根據(jù)新插入記錄的字符數(shù)目進(jìn)行自動(dòng)更新。
(見列表A)
mysql CREATE TABLE data (name VARCHAR(255));
Query OK, 0 rows affected (0.09 sec)
mysql CREATE TABLE chars (count INT(10));
Query OK, 0 rows affected (0.07 sec)
mysql INSERT INTO chars (count) VALUES (0);
Query OK, 1 row affected (0.00 sec)
mysql CREATE TRIGGER t1 AFTER INSERT ON
data FOR EACH ROW UPDATE chars SET count = count + CHAR_LENGTH(NEW.name);
Query OK, 0 rows affected (0.01 sec)
列表A
理解上面代碼的關(guān)鍵在于CREATE TRIGGER命令,被用來(lái)定義一個(gè)新觸發(fā)器。這個(gè)命令建立一個(gè)新觸發(fā)器,假定的名稱為t1,每次有一個(gè)新記錄插入到data表格中時(shí),t1就被激活。
在這個(gè)觸發(fā)器中有兩個(gè)重要的子句:
AFTER INSERT子句表明觸發(fā)器在新記錄插入data表格后激活。
UPDATE chars SET count = count + CHAR_LENGTH(NEW.name)子句表示觸發(fā)器激活后執(zhí)行的SQL命令。在本例中,該命令表明用新插入的data.name域的字符數(shù)來(lái)更新 chars.count欄。這一信息可通過(guò)內(nèi)置的MySQL函數(shù)CHAR_LENGTH()獲得。
放在源表格域名前面的NEW關(guān)鍵字也值得注意。這個(gè)關(guān)鍵字表明觸發(fā)器應(yīng)考慮域的new值(也就是說(shuō),剛被插入到域中的值)。MySQL還支持相應(yīng)的OLD前綴,可用它來(lái)指域以前的值。
可以通過(guò)調(diào)用SHOW TRIGGER命令來(lái)檢查觸發(fā)器是否被激活,如列表B所示。
mysql SHOW TRIGGERS\G
*************************** 1. row ***************************
?Trigger: t1
?Event: INSERT
?Table: data
Statement: UPDATE chars SET count = count + CHAR_LENGTH(NEW.name)
Timing: AFTER
?Created: NULL
ql_mode:
1 row in set (0.01 sec)
列表B
激活觸發(fā)器后,開始對(duì)它進(jìn)行測(cè)試。試著在data表格中插入幾個(gè)記錄:
mysql INSERT INTO data (name) VALUES ('Sue'), ('Jane');
Query OK, 2 rows affected (0.00 sec)
Records: 2?Duplicates: 0?Warnings: 0
然后檢查chars表格看觸發(fā)器是否完成它該完成的任務(wù):
mysql SELECT * FROM chars;
+-------+
| count |
+-------+
| 7|
+-------+
1 row in set (0.00 sec)
data表格中的INSERT命令激活觸發(fā)器,計(jì)算插入記錄的字符數(shù),并將結(jié)果存儲(chǔ)在chars表格中。如果往data表格中增加另外的記錄,chars.count值也會(huì)相應(yīng)增加。
觸發(fā)器應(yīng)用完畢后,可有DROP TRIGGER命令輕松刪除它。
mysql DROP TRIGGER t1;
Query OK, 0 rows affected (0.00 sec)
注意:理想情況下,你還需要一個(gè)倒轉(zhuǎn)觸發(fā)器,每當(dāng)一個(gè)記錄從源表格中刪除時(shí),它從字符總數(shù)中減去記錄的字符數(shù)。這很容易做到,你可以把它當(dāng)作練習(xí)來(lái)完成。提示:應(yīng)用BEFORE DELETE ON子句是其中一種方法。
現(xiàn)在,要建立一個(gè)審計(jì)記錄來(lái)追蹤對(duì)這個(gè)表格所做的改變。這個(gè)記錄將反映表格的每項(xiàng)改變,并向用戶說(shuō)明由誰(shuí)做出改變以及改變的時(shí)間。需要建立一個(gè)新表格來(lái)存儲(chǔ)這一信息(表格名:audit),如下所示。(列表C)
mysql CREATE TABLE audit (id INT(7), balance FLOAT, user VARCHAR(50)
NOT NULL, time TIMESTAMP NOT NULL);
Query OK, 0 rows affected (0.09 sec)
列表C
接下來(lái),我將在accounts表格中定義一個(gè)觸發(fā)器。(列表D)
mysql CREATE TRIGGER t1 AFTER UPDATEON accounts
FOR EACH ROW INSERT INTO audit (id, balance, user, time)
VALUES (OLD.id, NEW.balance, CURRENT_USER(), NOW());
Query OK, 0 rows affected (0.04 sec)
列表D
要是已經(jīng)走到這一步,就很容易理解。accounts表格每經(jīng)歷一次UPDATE,觸發(fā)器插入(INSERT)對(duì)應(yīng)記錄的id、新的余額、當(dāng)前時(shí)間和登錄audit表格的用戶的名稱。
實(shí)現(xiàn)中的例子:用觸發(fā)器審計(jì)記錄
既然了觸發(fā)器的基本原理,來(lái)看一個(gè)稍稍復(fù)雜的例子。常用觸發(fā)器來(lái)建立一個(gè)自動(dòng)“審計(jì)記錄”,以記錄各種用戶對(duì)數(shù)據(jù)庫(kù)的更改。為了解審計(jì)記錄的實(shí)際應(yīng)用,請(qǐng)看下面的表格(表格名:accounts),它列出了一個(gè)用戶的三個(gè)銀行賬戶余額。(表A)
mysql SELECT * FROM accounts;
+----+------------+---------+
| id | label| balance |
+----+------------+---------+
|1 | Savings #1 |500 |
|2 | Current #1 |2000 |
|3 | Current #2 |3500 |
+----+------------+---------+
3 rows in set (0.00 sec)
表A
然后,檢查觸發(fā)器是否被激活:
mysql SHOW TRIGGERS \G
*************************** 1. row ***************************
?Trigger: t1
?Event: UPDATE
?Table: accounts
Statement: INSERT INTO audit (id, balance, user, time)
VALUES (OLD.id, NEW.balance, CURRENT_USER(), NOW())
Timing: AFTER
?Created: NULL
Sql_mode:
1 row in set (0.01 sec)
再來(lái)看最后的結(jié)果(列表E):
mysql UPDATE accounts SET balance = 500 WHERE id = 1;
Query OK, 1 row affected (0.00 sec)
Rows matched: 1?Changed: 1?Warnings: 0
mysql UPDATE accounts SET balance = 900 WHERE id = 3;
Query OK, 1 row affected (0.01 sec)
Rows matched: 1?Changed: 1?Warnings: 0
mysql UPDATE accounts SET balance = 1900 WHERE id = 1;
Query OK, 1 row affected (0.00 sec)
Rows matched: 1?Changed: 1?Warnings: 0
列表E
注意,對(duì)accounts表格所作的改變已被記錄到audit表格中,將來(lái)如果出現(xiàn)問題,可以方便地從中進(jìn)行恢復(fù)。
mysql SELECT * FROM audit;
+------+---------+----------------+---------------------+
| id| balance | user| time|
+------+---------+----------------+---------------------+
|1 |500 | root@localhost | 2006-04-22 12:52:15 |
|3 |900 | root@localhost | 2006-04-22 12:53:15 |
|1 |1900 | root@localhost | 2006-04-22 12:53:23 |
+------+---------+----------------+---------------------+
3 rows in set (0.00 sec)
分層的主要原因是在管理數(shù)據(jù)的時(shí)候,能對(duì)數(shù)據(jù)有一個(gè)更加清晰的掌控,詳細(xì)來(lái)講,主要有下面幾個(gè)原因:
清晰數(shù)據(jù)結(jié)構(gòu):
每一個(gè)數(shù)據(jù)分層都有它的作用域,這樣我們?cè)谑褂帽淼臅r(shí)候能更方便地定位和理解。
方便數(shù)據(jù)血緣追蹤:
簡(jiǎn)單來(lái)說(shuō),我們最終給業(yè)務(wù)呈現(xiàn)的是一個(gè)能直接使用業(yè)務(wù)表,但是它的來(lái)源有很多,如果有一張來(lái)源表出問題了,我們希望能夠快速準(zhǔn)確地定位到問題,并清楚它的危害范圍。
減少重復(fù)開發(fā):
規(guī)范數(shù)據(jù)分層,開發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復(fù)計(jì)算。
把復(fù)雜問題簡(jiǎn)單化:
將一個(gè)復(fù)雜的任務(wù)分解成多個(gè)步驟來(lái)完成,每一層只處理單一的步驟 ,比較簡(jiǎn)單和容易理解。而且便于維護(hù)數(shù)據(jù)的準(zhǔn)確性,當(dāng)數(shù)據(jù)出現(xiàn)問題之后,可以不用修復(fù)所有的數(shù)據(jù),只需要從有問題的步驟開始修復(fù)。
屏蔽原始數(shù)據(jù)的異常:
屏蔽業(yè)務(wù)的影響,不必改一次業(yè)務(wù)就需要重新接入數(shù)據(jù)
數(shù)據(jù)分層每個(gè)企業(yè)根據(jù)自己的業(yè)務(wù)需求可以分成不同的層次,但是最基礎(chǔ)的分層思想,理論上 數(shù)據(jù)分為三個(gè)層 , 數(shù)據(jù)運(yùn)營(yíng)層 、 數(shù)據(jù)倉(cāng)庫(kù)層 和 數(shù)據(jù)服務(wù)層 。基于這個(gè)基礎(chǔ)分層之上添加新的層次,來(lái)滿足不同的業(yè)務(wù)需求。
數(shù)據(jù)運(yùn)營(yíng)層(ODS)
Operate data store(操作數(shù)據(jù)-存儲(chǔ)),是最接近數(shù)據(jù)源中數(shù)據(jù)的一層,數(shù)據(jù)源中的數(shù)據(jù),經(jīng)過(guò)抽取、洗凈、傳輸,也就說(shuō)傳說(shuō)中的ETL之后,裝入ODS層 。本層的數(shù)據(jù),總體上大多是按照源頭業(yè)務(wù)系統(tǒng)的分類方式而分類的。例如:MySQL里面的一張表可以通過(guò)sqoop之間抽取到ODS層ODS層數(shù)據(jù)的來(lái)源方式:
數(shù)據(jù)倉(cāng)庫(kù)層(DW)
Data warehouse(數(shù)據(jù)倉(cāng)庫(kù)) 。在這里, 從ODS層中獲得的數(shù)據(jù)按照主題建立各種數(shù)據(jù)模型 。例如 以研究人的旅游消費(fèi)為主題的數(shù)據(jù)集中 ,便可以結(jié)合航空公司的登機(jī)出行信息,以及銀聯(lián)系統(tǒng)的刷卡記錄,進(jìn)行結(jié)合分析,產(chǎn)生數(shù)據(jù)集。在這里,我們需要了解四個(gè)概念:維(dimension)、事實(shí)(Fact)、指標(biāo)(Index)和粒度( Granularity)。
數(shù)據(jù)服務(wù)層/應(yīng)用層(ADS): ????????
Application Data Service(應(yīng)用數(shù)據(jù)服務(wù))。該層主要是提供數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析使用 的數(shù)據(jù),一般會(huì)存放在ES、MySQL等系統(tǒng)中供線上系統(tǒng)使用,也可能會(huì)存在Hive或者Druid中供數(shù)據(jù)分析和數(shù)據(jù)挖掘使用。例如:我們經(jīng)常說(shuō)的報(bào)表數(shù)據(jù),或者說(shuō)那種大寬表,一般就放在這里。
ODS 數(shù)據(jù)準(zhǔn)備層
功能:?????????
? ?? ODS層是數(shù)據(jù)倉(cāng)庫(kù)準(zhǔn)備區(qū),為DWD層提供基礎(chǔ)原始數(shù)據(jù),可減少對(duì)業(yè)務(wù)系統(tǒng)的影響
建模方式及原則:? ? ?
? ? 從業(yè)務(wù)系統(tǒng)增量抽取 、保留時(shí)間由業(yè)務(wù)需求決定、 可分表進(jìn)行周期存儲(chǔ)、數(shù)據(jù)不做清洗轉(zhuǎn)換與業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型保持一致 、按主題邏輯劃分
DWD 數(shù)據(jù)明細(xì)層
功能:???????
?? 為DW層提供來(lái)源明細(xì)數(shù)據(jù),提供業(yè)務(wù)系統(tǒng)細(xì)節(jié)數(shù)據(jù)的長(zhǎng)期沉淀 ,為未來(lái)分析類需求的擴(kuò)展提供歷史數(shù)據(jù)支撐
建模方式及原則:???????
? ? 數(shù)據(jù)模型 與ODS層一致,不做清洗轉(zhuǎn)換處理 、為支持?jǐn)?shù)據(jù)重跑 可額外增加數(shù)據(jù) 業(yè)務(wù)日期字段、可按年月日進(jìn)行分表、用增量ODS層數(shù)據(jù)和前一天DWD相關(guān)表進(jìn)行merge處理
DW(B/S) 數(shù)據(jù)匯總層
功能:?????????
? ?為DW、ST層提供細(xì)粒度數(shù)據(jù),細(xì)化成DWB和DWS;???????
??? DWB是根據(jù)DWD明細(xì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換 ,如維度轉(zhuǎn)代理鍵、身份證清洗、會(huì)員注冊(cè)來(lái)源清晰、字段合并、空值處理、臟數(shù)據(jù)處理、IP清晰轉(zhuǎn)換、賬號(hào)余額清洗、資金來(lái)源清洗等;??????
? ?? DWS是根據(jù)DWB層數(shù)據(jù)按各個(gè)維度ID進(jìn)行高粒度匯總聚合 ,如按交易來(lái)源,交易類型進(jìn)行匯合
建模方式及原則:
聚合、匯總增加派生事實(shí);
關(guān)聯(lián)其它主題的事實(shí)表,DW層可能會(huì)跨主題域;
DWB保持低粒度匯總加工數(shù)據(jù),DWS保持高粒度匯總數(shù)據(jù);
數(shù)據(jù)模型可能采用反范式設(shè)計(jì),合并信息等。
Data Market (數(shù)據(jù)集市)層
功能:????????
? ? 可以是一些寬表,是根據(jù)DW層數(shù)據(jù)按照各種維度或多種維度組合把需要查詢的一些事實(shí)字段進(jìn)行匯總統(tǒng)計(jì)并作為單獨(dú)的列進(jìn)行存儲(chǔ) ;?????????
? ? 滿足一些特定查詢、數(shù)據(jù)挖掘應(yīng)用????????
? ???應(yīng)用集市數(shù)據(jù)存儲(chǔ)
建模方式及原則:?????????
? 盡量減少數(shù)據(jù)訪問時(shí)計(jì)算 (優(yōu)化檢索)????????
? 維度建模,星型模型; ? ? ? ??
? 分表存儲(chǔ)
ST 數(shù)據(jù)應(yīng)用層(ADS層)
功能:????????
? ? ST層面向用戶應(yīng)用和分析需求 ,包括前端報(bào)表、分析圖表、KPI、儀表盤、OLAP、專題等分析, 面向最終結(jié)果用戶 ?????????
?適合做OLAP、報(bào)表模型,如ROLAP,MOLAP
根據(jù)DW層經(jīng)過(guò)聚合匯總統(tǒng)計(jì)后的粗粒度事實(shí)表
建模方式及原則:?????????
本篇文章主要講解數(shù)倉(cāng)項(xiàng)目中為什么分層,比如 我們?cè)谕瓿梢粋€(gè)需要的需求的時(shí)候也許只需要一個(gè)復(fù)雜的SQL語(yǔ)句就可以完成。但一個(gè)復(fù)雜的SQL語(yǔ)句方便后面維護(hù)嗎?當(dāng)出現(xiàn)了問題方便追蹤嗎? 這時(shí)候就體現(xiàn)出分層的好處。順便給大家分享阿里的數(shù)倉(cāng)模型是什么樣的。信自己,努力和汗水總會(huì)能得到回報(bào)的。我是大數(shù)據(jù)老哥,我們下期見~~~