這篇文章給大家分享的是有關(guān)DataPipeline的常見問題和解題思路。小編覺得挺實用的,因此分享給大家做個參考。一起跟隨小編過來看看吧。
成都創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),花都企業(yè)網(wǎng)站建設(shè),花都品牌網(wǎng)站建設(shè),網(wǎng)站定制,花都網(wǎng)站建設(shè)報價,網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,花都網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強企業(yè)競爭力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時我們時刻保持專業(yè)、時尚、前沿,時刻以成就客戶成長自我,堅持不斷學習、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實用型網(wǎng)站。
Q1: DataPipeline支持的讀取方式
A:DataPipeline在成立之初只有一種模式,只支持實時流同步,在我們看來這是未來的一種趨勢。
但在后來發(fā)現(xiàn),很多客戶實際上有批量同步的需求。比如,銀行在每天晚上可能會有一些月結(jié)、日結(jié),證券公司也有類似的結(jié)算服務(wù)。基于一些歷史原因,或出于對性能、數(shù)據(jù)庫配置的考慮,可能有的數(shù)據(jù)庫本身不能開change log。所以實際上并不是所有情況下都能從源端獲取實時的流數(shù)據(jù)。
考慮到上述問題,我們認為一個產(chǎn)品在支撐數(shù)據(jù)融合過程中,必須能同時支撐批量和流式兩種處理模式,且在產(chǎn)品里面出于性能和穩(wěn)定性考慮提供不同的處理策略,這才是一個相對來說比較合理的基礎(chǔ)架構(gòu)。
詳情參見:DataPipeline CTO陳肅:構(gòu)建批流一體數(shù)據(jù)融合平臺的一致性語義保證
Q2:目標端的連接方式是什么
A:對于關(guān)系型數(shù)據(jù)庫,寫入方式為JDBC,未來版本將通過文件加載的方式提高吞吐率。其它類型的目的地,根據(jù)具體類型各不相同。例如FTP目的地用的是FTP Client,Kafka目的地用的是Kafka Producer。
Q3:采集和寫入能否對數(shù)據(jù)進行加密
A:如果是要對數(shù)據(jù)內(nèi)容加密可以使用高級清洗。
Q4:DataPipeline安裝部署模式
A:DataPipeline 產(chǎn)品是采用Docker容器的部署方式,支持Docker集群;支持虛擬環(huán)境(VMW)部署,但不推薦,DataPipeline正在研發(fā)支持非Docker部署。
Q5:DataPipeline是否支持圖形化監(jiān)控
A:DataPipeline支持讀寫速率、數(shù)據(jù)量、任務(wù)進度、錯誤隊列、操作記錄、表結(jié)構(gòu)等圖形化監(jiān)控。
Q6:數(shù)據(jù)庫日志保留策略多久合適
A:如,MySQL Binlog保留策略,建議保留日志策略>=3天。
Q7: 后續(xù)增量導入數(shù)據(jù)如何保證一致性
A:DataPipeline默認支持at least once同步機制,保證數(shù)據(jù)不會在同步過程中丟失。這適合源端有主鍵、目的地有主鍵去重能力的場景,例如關(guān)系型數(shù)據(jù)庫到關(guān)系型數(shù)據(jù)庫的同步。
如果類似Hive這樣沒有主鍵去重能力的目的地,DataPipeline支持開啟任務(wù)級別的端到端一致性選項,通過多階段提交協(xié)議來保證數(shù)據(jù)一致性。
Q8:監(jiān)控報警一般在項目上如何使用
A:DataPipeline的數(shù)據(jù)任務(wù)有監(jiān)控看板和報警兩種方式,報警會發(fā)送到指定的郵箱,根據(jù)錯誤類型,可以選擇重啟或通知技術(shù)支持,DataPipeline會有工程師協(xié)助客戶排查錯誤。
Q9:是否方便擴容
A:DataPipeline支持動態(tài)擴容,當集群資源緊張時,無需暫?,F(xiàn)有任務(wù),增加新節(jié)點后,即可以實現(xiàn)集群的擴容。
Q10:如果一條數(shù)據(jù)多次、頻繁變化,DataPipeline如何保證數(shù)據(jù)的并行和順序?
A:DataPipeline源端會將任務(wù)按照一定原則拆分為多個互不干擾的子任務(wù)進行并行執(zhí)行。例如:在JDBC源讀取場景下,如果任務(wù)包括多張表,每個表是由一個獨立線程進行順序讀取的,線程并行度可以在任務(wù)屬性中進行設(shè)置。
為了保證順序?qū)懭牒妥x取,默認每個單獨子任務(wù)會創(chuàng)建一個獨立的topic,設(shè)置一個分區(qū),這樣目標端消費的時候,同一個topic只有一個consumer在進行消費,從而保證消費的順序性。如果可以接受非順序消費,也可以為一個topic創(chuàng)建多個分區(qū),這樣目的端可以更好地利用Kafka的并行能力提高吞吐量。
以上就是DataPipeline的常見問題和解題思路的詳細內(nèi)容了,看完之后是否有所收獲呢?如果還想學到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊。