小編給大家分享一下能處理大數(shù)據(jù)的技術(shù)有哪些,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
成都創(chuàng)新互聯(lián)擁有網(wǎng)站維護(hù)技術(shù)和項(xiàng)目管理團(tuán)隊(duì),建立的售前、實(shí)施和售后服務(wù)體系,為客戶提供定制化的做網(wǎng)站、網(wǎng)站制作、網(wǎng)站維護(hù)、內(nèi)江機(jī)房主機(jī)托管解決方案。為客戶網(wǎng)站安全和日常運(yùn)維提供整體管家式外包優(yōu)質(zhì)服務(wù)。我們的網(wǎng)站維護(hù)服務(wù)覆蓋集團(tuán)企業(yè)、上市公司、外企網(wǎng)站、商城網(wǎng)站開(kāi)發(fā)、政府網(wǎng)站等各類型客戶群體,為全球近1000家企業(yè)提供全方位網(wǎng)站維護(hù)、服務(wù)器維護(hù)解決方案。
能處理大數(shù)據(jù)的技術(shù):
Hadoop離線計(jì)算 spark實(shí)時(shí)計(jì)算 strom流式計(jì)算
一、hadoop背景
Apache Hadoop 是一個(gè)可靠的,可擴(kuò)展的分布式計(jì)算開(kāi)發(fā)軟件
Apache Hadoop 可以理解為一個(gè)框架. 它允許使用簡(jiǎn)單的編程模型來(lái)計(jì)算分布式的大型數(shù)據(jù)集合(海量數(shù)據(jù))
包括哪些模塊:
Hadoop Common : Hadoop的一些模塊工具
Hadoop分布式文件系統(tǒng)(HDFS):是一種分布式文件系統(tǒng),可以提供應(yīng)用程序數(shù)據(jù)的高吞吐量的訪問(wèn)
Hadoop YARN:作業(yè)調(diào)度和集群資源管理的框架
Hadoop MapReduce:一種用于處理大型數(shù)據(jù)集的基于YARN的系統(tǒng)(分布式計(jì)算框架)
ps:MapReduce論計(jì)算能力 很一般而且數(shù)據(jù)慢
上述的每個(gè)模塊都有自己獨(dú)立的功能,而模塊和模塊之間又有一定的聯(lián)系
二、
Hadoop在大數(shù)據(jù),云計(jì)算中位置和關(guān)系
云計(jì)算是分布式計(jì)算,并行技術(shù),網(wǎng)絡(luò)計(jì)算,多核計(jì)算,網(wǎng)絡(luò)存儲(chǔ),虛擬化, 而Hadoop則是云計(jì)算平臺(tái)即服的解決方案 ps:laaS(基礎(chǔ)設(shè)施即服務(wù)) PaaS(平臺(tái)即服務(wù)) S aaS(軟件即服務(wù)) 三、Hadoop案例: 1. 大型網(wǎng)站web服務(wù)器的日志分析:一個(gè)大型網(wǎng)站的web服務(wù)器,每5分鐘就收錄的點(diǎn)擊量就高達(dá)800GB,峰值點(diǎn)擊可以達(dá)到每秒900萬(wàn)次每隔5分鐘將數(shù)據(jù)裝載到內(nèi)存中,高速計(jì)算網(wǎng)站的熱點(diǎn)url,并將這些信息反饋給前端緩存服務(wù)器,以提高緩存命中率 2. 運(yùn)營(yíng)商流量分析:每天的流量數(shù)據(jù)在2TB-5TB之間,拷貝到HDFS上,通過(guò)交互式分析引擎模板,能夠進(jìn)行幾百個(gè)復(fù)雜的數(shù)據(jù)清洗和報(bào)表任務(wù),總時(shí)間類似的硬件配置的小集群(DB2)要快2-3倍 3. 城市交通卡口視頻監(jiān)控信息實(shí)時(shí)分析:采用基于流式進(jìn)行全省范圍的交通卡口的視頻監(jiān)控的信息進(jìn)行實(shí)時(shí)的分析,警告和統(tǒng)計(jì),可以對(duì)全省范圍內(nèi)未年檢和套牌車輛進(jìn)行300毫秒左右就可以得到結(jié)論并實(shí)時(shí)進(jìn)行警告 四、Hadoop生態(tài)圈 重要組件 1. HDFS:分布式文件系統(tǒng) 2. MapReduce:分布式計(jì)算框架 3. Hive:基于大數(shù)據(jù)技術(shù)的SQL數(shù)據(jù)倉(cāng)庫(kù)工具(文件系統(tǒng)+運(yùn)算框架) 4. HBase:基于Hadoop的分布式海量數(shù)據(jù)數(shù)據(jù)庫(kù)(NOSQL非關(guān)系型數(shù)據(jù)庫(kù),列式存儲(chǔ)) 5. Zookeeper:分布式協(xié)調(diào)服務(wù)基礎(chǔ)組件 6. Oozie:工作流調(diào)度框架 7. Sqoop:數(shù)據(jù)導(dǎo)入導(dǎo)出工具 8. Flume:日志數(shù)據(jù)采集框架 9. Mahout:基于Mapreduce/Spark/flink等分布式框架的機(jī)器學(xué)習(xí)算法庫(kù) 分布式系統(tǒng) 一、分布式軟件系統(tǒng) 分布式軟件系統(tǒng)是由一組通過(guò)網(wǎng)絡(luò)進(jìn)行通信,為了完成共同的任務(wù)而協(xié)調(diào)工作的計(jì)算機(jī)節(jié)點(diǎn)所組成的系統(tǒng). 分布式系統(tǒng)的出現(xiàn)為了用廉價(jià),普通的機(jī)器完成單個(gè)計(jì)算機(jī)完成的計(jì)算/存儲(chǔ)等任務(wù),其目的就是充分利用計(jì)算機(jī)來(lái)處理更多的任務(wù) 二、常用的分布式軟件系統(tǒng)的案例: Web服務(wù)器集群,單臺(tái)服務(wù)器的性能和資源時(shí)優(yōu)先,支持的連接并發(fā)數(shù)也是有上限,因此必須采用多態(tài)服務(wù)器集群的方式才能提供并發(fā)數(shù)據(jù)和計(jì)算機(jī)計(jì)算速度 每臺(tái)web服務(wù)器會(huì)分配一個(gè)域名,肯定是同一個(gè)域名的進(jìn)入的是同一個(gè)入口 百度有上千(甚至更多)臺(tái)web服務(wù)器,此時(shí)我們使用www.baidu.com一個(gè)入口進(jìn)行訪問(wèn),至于哪臺(tái)服務(wù)器提供我們服務(wù),具體的就需要底層實(shí)現(xiàn)一個(gè)技術(shù),負(fù)載均衡 離線數(shù)據(jù)的分析流程 web日志數(shù)據(jù)挖掘 案例分析: 網(wǎng)站點(diǎn)擊流量日志數(shù)據(jù)挖掘系統(tǒng) 需求: web點(diǎn)擊流日志,包含著網(wǎng)站運(yùn)營(yíng)的重要信息,通過(guò)日志的分析,我們可以知道網(wǎng)站的訪問(wèn)量,那個(gè)網(wǎng)頁(yè)訪問(wèn)人數(shù)的最多,那個(gè)網(wǎng)頁(yè)最有價(jià)值,廣告轉(zhuǎn)換率,訪客的來(lái)源信息,訪客的終端信息 數(shù)據(jù)來(lái)源: 獲取方式,在頁(yè)面預(yù)處理一段js程序,為了頁(yè)面想要堅(jiān)挺的標(biāo)簽綁定時(shí)間,只要用戶點(diǎn)擊或觸發(fā),就可以得到用戶的信息,并產(chǎn)生日志文件 數(shù)據(jù)處理流程: 1. 數(shù)據(jù)采集:定制開(kāi)發(fā)程序或使用Flume 2. 數(shù)據(jù)預(yù)處理:定制開(kāi)發(fā)MapReduce程序運(yùn)行在Hadoop計(jì)算 3. 數(shù)據(jù)倉(cāng)庫(kù)計(jì)算:基于Hadoop智商使用hive技術(shù)完成數(shù)倉(cāng) 數(shù)倉(cāng)中會(huì)完成數(shù)據(jù)清洗(ETL) 4. 數(shù)據(jù)導(dǎo)出:需要使用sqoop將數(shù)據(jù)導(dǎo)出 5. 數(shù)據(jù)可視化:就由web人員完成 ps:可以使用Oozie來(lái)輔助開(kāi)發(fā) HDFS分布式文件系統(tǒng) HDFS的源于Google的一篇技術(shù)論文GFS,HDFS時(shí)GFS的一個(gè)克隆 HDFS全稱 Hadoop Distributed /d?'str?bj?t?d/(分布式) File System HDFS易于擴(kuò)展的分布式文件系統(tǒng),運(yùn)行在大量普通廉價(jià)的機(jī)器上,提供內(nèi)容錯(cuò)機(jī)制,為大量用戶提供性能不錯(cuò)的文件 存取服務(wù) HDFS的優(yōu)點(diǎn)和缺點(diǎn) 優(yōu)點(diǎn): 1.高可靠性:Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力強(qiáng) 2.高擴(kuò)展性:Hadoop是在可用的計(jì)算機(jī)集群中分配數(shù)據(jù)完成計(jì)算計(jì)算任務(wù) 3.高效性: Hadoop能夠站在節(jié)點(diǎn)之間動(dòng)態(tài)的移動(dòng)數(shù)據(jù),并保證每個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡 4.高容錯(cuò)性: Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配 缺點(diǎn): 1.不適合低延遲訪問(wèn) 2.無(wú)法高效存儲(chǔ)大量小文件 3.不支持多用戶寫入即任意修改文件 HDFS的重要特性 1.HDSF中文件在物理上是分塊存儲(chǔ)(block),塊的大小可以通過(guò)參數(shù)(dfs.blocksize)來(lái)設(shè)置, 默認(rèn)大小Hadoop2.x版本中默認(rèn)大小128M , hadoop1.x版本即使64M 2.HDFS文件系統(tǒng)會(huì)給客戶端提供一個(gè)統(tǒng)一的抽象目錄樹(shù),通過(guò)客戶端對(duì)相應(yīng)路徑下的文件進(jìn)行訪問(wèn) 3.目錄結(jié)構(gòu)及文件的分塊信息(元數(shù)據(jù))都由NameNode節(jié)點(diǎn)承擔(dān) NameNode是HDFS集合中的主節(jié)點(diǎn),負(fù)責(zé)維護(hù)整個(gè)HDFS文件系統(tǒng)的目錄樹(shù),以及每一個(gè)路徑所對(duì)應(yīng)的Block塊信息 (block是id以及所在DataNode服務(wù)器) 4.文件的各個(gè)block塊存儲(chǔ)的管理DataNode來(lái)節(jié)點(diǎn)進(jìn)行管理 DataNode是HDFS集群的從節(jié)點(diǎn),每一個(gè)Block都可以在多個(gè)DataNode上存儲(chǔ)多個(gè)副本(副本數(shù)量是可以設(shè)置 dfs.replication) HDSF在Hadoop中的存儲(chǔ)模型 HDSF是面向文件, 文件會(huì)線性切割成塊(Block) 每一個(gè)塊都有一個(gè)偏移量offset(byte),偏移量是描述這個(gè)塊是屬于這個(gè)文件的那一個(gè)部分 一個(gè)大文切分成很多塊,每 個(gè)塊面臨是這個(gè)文件的位置,也就是說(shuō)每一個(gè)塊的第一個(gè)字節(jié)對(duì)應(yīng)著這個(gè)大文件某個(gè)位置的字 節(jié),這個(gè)字節(jié)就是偏移量 Block分散存儲(chǔ)到集群節(jié)點(diǎn)中 單一文件block的大小是一致的,也就是說(shuō)一個(gè)大的文件,定義的每個(gè)塊的大小是固定的,所有切出來(lái)的文件大小也是固定的.但若文件最后剩余大小和塊的大小不一致,那么會(huì)按照塊的大小占位,實(shí)際存儲(chǔ)剩余文件的大小,也就是說(shuō)在內(nèi)存中開(kāi)辟的空間是實(shí)際文件的大小Block可以設(shè)置的副本數(shù),副本分散在不同的節(jié)點(diǎn)中,副本數(shù)不要超過(guò)節(jié)點(diǎn)的數(shù)量 副本相當(dāng)于一個(gè)備份(拷貝),HDFS的默認(rèn)副本數(shù)量是3,副本的額作用就是保證文件丟失的情況下,可以在其他節(jié)點(diǎn)中 得到同一個(gè)信息,所以絕對(duì)不能出現(xiàn)副本和塊出現(xiàn)在同一個(gè)節(jié)點(diǎn) 文件上傳的時(shí)候可以設(shè)置Block塊的大小和副本的而數(shù)量,已經(jīng)上傳的block副本數(shù)可以調(diào)整,但是塊的是不變,只支持 一寫入 但是可以多次讀取,若想追加數(shù)據(jù)只能在最后一個(gè)節(jié)點(diǎn)中添加 HDFS讀寫流程 hdfs讀流程 : 1.client鏈接namenode,查看元數(shù)據(jù),找到數(shù)據(jù)的存儲(chǔ)位置。 2.client通過(guò)hdfs的api并發(fā)讀取數(shù)據(jù)。 3.關(guān)閉連接。 hdfs寫流程 : 1.client鏈接namenode存數(shù)據(jù) 2.namenode記錄一條數(shù)據(jù)位置信息(元數(shù)據(jù)),告訴client存哪。 3.client用hdfs的api將數(shù)據(jù)塊(默認(rèn)是64M)存儲(chǔ)到datanode上。 4.datanode將數(shù)據(jù)水平備份。并且備份完將反饋client。 5.client通知namenode存儲(chǔ)塊完畢。 6.namenode將元數(shù)據(jù)同步到內(nèi)存中。 7.另一塊循環(huán)上面的過(guò)程。 HDFS文件系統(tǒng)存在讀寫權(quán)限 r --> read w --> writer x --> execute --- | --- | --- 可以看成是一個(gè)八進(jìn)制 1代表有權(quán)限 0代表沒(méi)有權(quán)限 rxw | r-- | -w- --> 數(shù)字的形式 111 | 100 | 010 ---> 742 HDFS的Shell命令: ps:無(wú)論看到是hdfs dfs 形式還是 hadoop fs這種形式 都可以 完成對(duì)HDFS的操作 1.向HDSF上傳文件 put: 從本地文件系統(tǒng)賦值單個(gè)或多個(gè)原路徑目標(biāo)文件到HDFS文件系統(tǒng)中 hdfs dfs -put 本地文件路徑 HDFS文件系統(tǒng)路徑 2.將HDFS文件系統(tǒng)中的文件下載回來(lái) get:從HDFS文件系統(tǒng)中將文件復(fù)制到本地文件系統(tǒng)中 hdfs dfs -get HDFS文件系統(tǒng)路徑 本地文件系統(tǒng)路徑 ps:HDFS有一個(gè)和put和get類似的而方法 copyFromlocal 相當(dāng)于put 和 copyTolocal 相當(dāng)于 get 3.查看HDFS文件系統(tǒng)中的文件內(nèi)容 cat:查看HDFS文件系統(tǒng)中的文件內(nèi)容 hdfs dfs -cat HDFS文件系統(tǒng)中文件的路徑 ps:不要查看非文件 在查看文件的同時(shí)追加文件到本地路徑 4.HDFS文件系統(tǒng)中進(jìn)行復(fù)制操作 cp:將HDFS文件系統(tǒng)中的文件進(jìn)行復(fù)制,復(fù)制到HDFS系統(tǒng)中 hdfs dfs -cp 源HDFS文件系統(tǒng)中的文件路徑 目標(biāo)HDFS文件系統(tǒng)中的路徑 5.HDFS文件系統(tǒng)中的文件進(jìn)行移動(dòng)操作 mv:將源文件移動(dòng)目標(biāo)路徑,這個(gè)命令可允許有多個(gè)源路徑,此時(shí)目標(biāo)路徑必須是一個(gè)文件夾(目錄) 不允許不同的文件系統(tǒng)互相移動(dòng)文件 hdfs dfs -mv 源HDFS文件系統(tǒng)中的文件路徑 目標(biāo)HDFS文件系統(tǒng)中的路徑 相當(dāng)于剪切 6.查看HDFS文件系統(tǒng)中文件的大小 hdfs dfs -du HDFS文件系統(tǒng)中路徑中的一個(gè)文件 7.在HDSF系統(tǒng)中創(chuàng)建文件夾 mkdir 創(chuàng)建文件夾 hdfs dfs -mkdir HDFS文件系統(tǒng)中的路徑 8.查看HDFS文件系統(tǒng)下的所有文件 hdfs dfs -ls HDFS文件系統(tǒng)路徑 9.刪除HDFS文件系統(tǒng)中的目錄或文件 ps:只能是單個(gè)文件 或 空目錄 hdfs dfs -rm HDFS文件系統(tǒng)路徑 若參數(shù)文件夾中有多個(gè)文件 加 -r hdfs dfs -rm -r HDFS文件系統(tǒng)路徑 10.更改文件的權(quán)限 r可讀 w可寫 x可執(zhí)行 --- | ---| --- 1代表有權(quán) 0代表沒(méi)有權(quán)限 所有每三位可以作為一個(gè)八進(jìn)制處理 例如 rwx | rwx | rwx 111 | 111 | 111 ========================= 7 7 7 hdfs dfs -chmod 權(quán)限值 HDFS文件系統(tǒng)路徑 若需要更改目錄下權(quán)限都需要修改 hdfs dfs -chmod -R 權(quán)限值 HDFS文件系統(tǒng)路徑下的文件夾 ps:并且文件夾下的所有子文件和文件夾都會(huì)被修改 11.回收站 Hadoop回收站trash,默認(rèn)是關(guān)閉的,建議開(kāi)啟 []: ps:默認(rèn)為是沒(méi)有權(quán)限操作回收站的,所以操作之前開(kāi)啟權(quán)限 hdfs dfs -chmod -R 777 HDFS文件系統(tǒng)中回收站的路徑 例子:hdfs dfs -chmod -R 777 /user 刪除文件后,發(fā)現(xiàn)誤刪了,恢復(fù)文件 hdfs dfs -mv HDFS文件系統(tǒng)中回收站的路徑下的文件 HDFS文件系統(tǒng)路徑 清空回收站 hdfs dfs -rm -r HDFS文件系統(tǒng)中回收站的路徑 例如:hdfs dfs -rm -r /user/root/.Trash 以上是“能處理大數(shù)據(jù)的技術(shù)有哪些”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
文章標(biāo)題:?能處理大數(shù)據(jù)的技術(shù)有哪些
URL地址:http://weahome.cn/article/poijde.html