Hadoop上Pig，Hive，HBase的關(guān)系是什么

這篇文章主要介紹“Hadoop上Pig，Hive，HBase的關(guān)系是什么”，在日常操作中，相信很多人在Hadoop上Pig，Hive，HBase的關(guān)系是什么問題上存在疑惑，小編查閱了各式資料，整理出簡(jiǎn)單好用的操作方法，希望對(duì)大家解答”Hadoop上Pig，Hive，HBase的關(guān)系是什么”的疑惑有所幫助！接下來，請(qǐng)跟著小編一起來學(xué)習(xí)吧！

創(chuàng)新互聯(lián)長(zhǎng)期為千余家客戶提供的網(wǎng)站建設(shè)服務(wù)，團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年，關(guān)注不同地域、不同群體，并針對(duì)不同對(duì)象提供差異化的產(chǎn)品和服務(wù)；打造開放共贏平臺(tái)，與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為寧津企業(yè)提供專業(yè)的網(wǎng)站設(shè)計(jì)、網(wǎng)站制作，寧津網(wǎng)站改版等技術(shù)服務(wù)。擁有十載豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開發(fā)。

Pig

一種操作hadoop的輕量級(jí)腳本語言，最初又雅虎公司推出，不過現(xiàn)在正在走下坡路了。當(dāng)初雅虎自己慢慢退出pig的維護(hù)之后將它開源貢獻(xiàn)到開源社區(qū)由所有愛好者來維護(hù)。不過現(xiàn)在還是有些公司在用，不過我認(rèn)為與其使用pig不如使用hive。：）

Pig是一種數(shù)據(jù)流語言，用來快速輕松的處理巨大的數(shù)據(jù)。

Pig包含兩個(gè)部分：Pig Interface,Pig Latin。

Pig可以非常方便的處理HDFS和HBase的數(shù)據(jù)，和Hive一樣,Pig可以非常高效的處理其需要做的，通過直接操作Pig查詢可以節(jié)省大量的勞動(dòng)和時(shí)間。當(dāng)你想在你的數(shù)據(jù)上做一些轉(zhuǎn)換，并且不想編寫MapReduce jobs就可以用Pig.

Hive

不想用程序語言開發(fā)MapReduce的朋友比如DB們，熟悉SQL的朋友可以使用Hive開離線的進(jìn)行數(shù)據(jù)處理與分析工作。

注意Hive現(xiàn)在適合在離線下進(jìn)行數(shù)據(jù)的操作，就是說不適合在掛在真實(shí)的生產(chǎn)環(huán)境中進(jìn)行實(shí)時(shí)的在線查詢或操作，因?yàn)橐粋€(gè)字“慢”。相反

起源于FaceBook,Hive在Hadoop中扮演數(shù)據(jù)倉庫的角色。建立在Hadoop集群的最頂層，對(duì)存儲(chǔ)在Hadoop群上的數(shù)據(jù)提供類SQL的接口進(jìn)行操作。你可以用 HiveQL進(jìn)行select,join,等等操作。

如果你有數(shù)據(jù)倉庫的需求并且你擅長(zhǎng)寫SQL并且不想寫MapReduce jobs就可以用Hive代替。

HBase

HBase作為面向列的數(shù)據(jù)庫運(yùn)行在HDFS之上，HDFS缺乏隨即讀寫操作，HBase正是為此而出現(xiàn)。HBase以Google BigTable為藍(lán)本，以鍵值對(duì)的形式存儲(chǔ)。項(xiàng)目的目標(biāo)就是快速在主機(jī)內(nèi)數(shù)十億行數(shù)據(jù)中定位所需的數(shù)據(jù)并訪問它。

HBase是一個(gè)數(shù)據(jù)庫，一個(gè)NOSQL的數(shù)據(jù)庫，像其他數(shù)據(jù)庫一樣提供隨即讀寫功能，Hadoop不能滿足實(shí)時(shí)需要，HBase正可以滿足。如果你需要實(shí)時(shí)訪問一些數(shù)據(jù)，就把它存入HBase。

你可以用Hadoop作為靜態(tài)數(shù)據(jù)倉庫，HBase作為數(shù)據(jù)存儲(chǔ)，放那些進(jìn)行一些操作會(huì)改變的數(shù)據(jù)。

Pig VS Hive

Hive更適合于數(shù)據(jù)倉庫的任務(wù)，Hive主要用于靜態(tài)的結(jié)構(gòu)以及需要經(jīng)常分析的工作。Hive與SQL相似促使其成為Hadoop與其他BI工具結(jié)合的理想交集。

Pig賦予開發(fā)人員在大數(shù)據(jù)集領(lǐng)域更多的靈活性，并允許開發(fā)簡(jiǎn)潔的腳本用于轉(zhuǎn)換數(shù)據(jù)流以便嵌入到較大的應(yīng)用程序。

Pig相比Hive相對(duì)輕量，它主要的優(yōu)勢(shì)是相比于直接使用Hadoop Java APIs可大幅削減代碼量。正因?yàn)槿绱?，Pig仍然是吸引大量的軟件開發(fā)人員。

Hive和Pig都可以與HBase組合使用，Hive和Pig還為HBase提供了高層語言支持，使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)處理變的非常簡(jiǎn)單

Hive VS HBase

Hive是建立在Hadoop之上為了減少M(fèi)apReduce jobs編寫工作的批處理系統(tǒng)，HBase是為了支持彌補(bǔ)Hadoop對(duì)實(shí)時(shí)操作的缺陷的項(xiàng)目。

想象你在操作RMDB數(shù)據(jù)庫，如果是全表掃描，就用Hive+Hadoop,如果是索引訪問，就用HBase+Hadoop 。

Hive query就是MapReduce jobs可以從5分鐘到數(shù)小時(shí)不止，HBase是非常高效的，肯定比Hive高效的多。

到此，關(guān)于“Hadoop上Pig，Hive，HBase的關(guān)系是什么”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí)，請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站，小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章！

分享文章：Hadoop上Pig，Hive，HBase的關(guān)系是什么
網(wǎng)站網(wǎng)址：http://weahome.cn/article/iposjh.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Hadoop上Pig，Hive，HBase的關(guān)系是什么

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Hadoop上Pig，Hive，HBase的關(guān)系是什么

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

Hadoop上Pig，Hive，HBase的關(guān)系是什么