小編給大家分享一下能處理大數(shù)據(jù)的技術有哪些,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
10多年的阿克蘇網(wǎng)站建設經(jīng)驗,針對設計、前端、開發(fā)、售后、文案、推廣等六對一服務,響應快,48小時及時工作處理。網(wǎng)絡營銷推廣的優(yōu)勢是能夠根據(jù)用戶設備顯示端的尺寸不同,自動調整阿克蘇建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設計,從而大程度地提升瀏覽體驗。成都創(chuàng)新互聯(lián)從事“阿克蘇網(wǎng)站設計”,“阿克蘇網(wǎng)站推廣”以來,每個客戶項目都認真落實執(zhí)行。能處理大數(shù)據(jù)的技術:
Hadoop離線計算 spark實時計算 strom流式計算
一、hadoop背景
Apache Hadoop 是一個可靠的,可擴展的分布式計算開發(fā)軟件
Apache Hadoop 可以理解為一個框架. 它允許使用簡單的編程模型來計算分布式的大型數(shù)據(jù)集合(海量數(shù)據(jù))
包括哪些模塊:
Hadoop Common : Hadoop的一些模塊工具
Hadoop分布式文件系統(tǒng)(HDFS):是一種分布式文件系統(tǒng),可以提供應用程序數(shù)據(jù)的高吞吐量的訪問
Hadoop YARN:作業(yè)調度和集群資源管理的框架
Hadoop MapReduce:一種用于處理大型數(shù)據(jù)集的基于YARN的系統(tǒng)(分布式計算框架)
ps:MapReduce論計算能力 很一般而且數(shù)據(jù)慢
上述的每個模塊都有自己獨立的功能,而模塊和模塊之間又有一定的聯(lián)系
二、
Hadoop在大數(shù)據(jù),云計算中位置和關系
云計算是分布式計算,并行技術,網(wǎng)絡計算,多核計算,網(wǎng)絡存儲,虛擬化,負載均衡等傳統(tǒng)的計算機技術和互聯(lián)網(wǎng)技術融合的一個產(chǎn)物
現(xiàn)階段云計算的底層兩大技術支撐"虛擬化"和"大數(shù)據(jù)技術"
而Hadoop則是云計算平臺即服的解決方案
ps:laaS(基礎設施即服務) PaaS(平臺即服務) S aaS(軟件即服務)
三、Hadoop案例:
1. 大型網(wǎng)站web服務器的日志分析:一個大型網(wǎng)站的web服務器,每5分鐘就收錄的點擊量就高達800GB,峰值點擊可以達到每秒900萬次每隔5分鐘將數(shù)據(jù)裝載到內存中,高速計算網(wǎng)站的熱點url,并將這些信息反饋給前端緩存服務器,以提高緩存命中率
2. 運營商流量分析:每天的流量數(shù)據(jù)在2TB-5TB之間,拷貝到HDFS上,通過交互式分析引擎模板,能夠進行幾百個復雜的數(shù)據(jù)清洗和報表任務,總時間類似的硬件配置的小集群(DB2)要快2-3倍
3. 城市交通卡口視頻監(jiān)控信息實時分析:采用基于流式進行全省范圍的交通卡口的視頻監(jiān)控的信息進行實時的分析,警告和統(tǒng)計,可以對全省范圍內未年檢和套牌車輛進行300毫秒左右就可以得到結論并實時進行警告
四、Hadoop生態(tài)圈
重要組件
1. HDFS:分布式文件系統(tǒng)
2. MapReduce:分布式計算框架
3. Hive:基于大數(shù)據(jù)技術的SQL數(shù)據(jù)倉庫工具(文件系統(tǒng)+運算框架)
4. HBase:基于Hadoop的分布式海量數(shù)據(jù)數(shù)據(jù)庫(NOSQL非關系型數(shù)據(jù)庫,列式存儲)
5. Zookeeper:分布式協(xié)調服務基礎組件
6. Oozie:工作流調度框架
7. Sqoop:數(shù)據(jù)導入導出工具
8. Flume:日志數(shù)據(jù)采集框架
9. Mahout:基于Mapreduce/Spark/flink等分布式框架的機器學習算法庫
分布式系統(tǒng)
一、分布式軟件系統(tǒng)
分布式軟件系統(tǒng)是由一組通過網(wǎng)絡進行通信,為了完成共同的任務而協(xié)調工作的計算機節(jié)點所組成的系統(tǒng). 分布式系統(tǒng)的出現(xiàn)為了用廉價,普通的機器完成單個計算機完成的計算/存儲等任務,其目的就是充分利用計算機來處理更多的任務
二、常用的分布式軟件系統(tǒng)的案例:
Web服務器集群,單臺服務器的性能和資源時優(yōu)先,支持的連接并發(fā)數(shù)也是有上限,因此必須采用多態(tài)服務器集群的方式才能提供并發(fā)數(shù)據(jù)和計算機計算速度
每臺web服務器會分配一個域名,肯定是同一個域名的進入的是同一個入口
百度有上千(甚至更多)臺web服務器,此時我們使用www.baidu.com一個入口進行訪問,至于哪臺服務器提供我們服務,具體的就需要底層實現(xiàn)一個技術,負載均衡
離線數(shù)據(jù)的分析流程
web日志數(shù)據(jù)挖掘
案例分析:
網(wǎng)站點擊流量日志數(shù)據(jù)挖掘系統(tǒng)
需求:
web點擊流日志,包含著網(wǎng)站運營的重要信息,通過日志的分析,我們可以知道網(wǎng)站的訪問量,那個網(wǎng)頁訪問人數(shù)的最多,那個網(wǎng)頁最有價值,廣告轉換率,訪客的來源信息,訪客的終端信息
數(shù)據(jù)來源:
獲取方式,在頁面預處理一段js程序,為了頁面想要堅挺的標簽綁定時間,只要用戶點擊或觸發(fā),就可以得到用戶的信息,并產(chǎn)生日志文件
數(shù)據(jù)處理流程:
1. 數(shù)據(jù)采集:定制開發(fā)程序或使用Flume
2. 數(shù)據(jù)預處理:定制開發(fā)MapReduce程序運行在Hadoop計算
3. 數(shù)據(jù)倉庫計算:基于Hadoop智商使用hive技術完成數(shù)倉 數(shù)倉中會完成數(shù)據(jù)清洗(ETL)
4. 數(shù)據(jù)導出:需要使用sqoop將數(shù)據(jù)導出
5. 數(shù)據(jù)可視化:就由web人員完成 ps:可以使用Oozie來輔助開發(fā)
HDFS分布式文件系統(tǒng)
HDFS的源于Google的一篇技術論文GFS,HDFS時GFS的一個克隆 HDFS全稱 Hadoop Distributed /d?'str?bj?t?d/(分布式) File System HDFS易于擴展的分布式文件系統(tǒng),運行在大量普通廉價的機器上,提供內容錯機制,為大量用戶提供性能不錯的文件 存取服務
HDFS的優(yōu)點和缺點
優(yōu)點:
1.高可靠性:Hadoop按位存儲和處理數(shù)據(jù)的能力強
2.高擴展性:Hadoop是在可用的計算機集群中分配數(shù)據(jù)完成計算計算任務
3.高效性: Hadoop能夠站在節(jié)點之間動態(tài)的移動數(shù)據(jù),并保證每個節(jié)點的動態(tài)平衡
4.高容錯性: Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配
缺點:
1.不適合低延遲訪問
2.無法高效存儲大量小文件
3.不支持多用戶寫入即任意修改文件
HDFS的重要特性
1.HDSF中文件在物理上是分塊存儲(block),塊的大小可以通過參數(shù)(dfs.blocksize)來設置, 默認大小Hadoop2.x版本中默認大小128M , hadoop1.x版本即使64M
2.HDFS文件系統(tǒng)會給客戶端提供一個統(tǒng)一的抽象目錄樹,通過客戶端對相應路徑下的文件進行訪問
3.目錄結構及文件的分塊信息(元數(shù)據(jù))都由NameNode節(jié)點承擔 NameNode是HDFS集合中的主節(jié)點,負責維護整個HDFS文件系統(tǒng)的目錄樹,以及每一個路徑所對應的Block塊信息 (block是id以及所在DataNode服務器)
4.文件的各個block塊存儲的管理DataNode來節(jié)點進行管理 DataNode是HDFS集群的從節(jié)點,每一個Block都可以在多個DataNode上存儲多個副本(副本數(shù)量是可以設置 dfs.replication)
HDSF在Hadoop中的存儲模型
HDSF是面向文件, 文件會線性切割成塊(Block) 每一個塊都有一個偏移量offset(byte),偏移量是描述這個塊是屬于這個文件的那一個部分 一個大文切分成很多塊,每 個塊面臨是這個文件的位置,也就是說每一個塊的第一個字節(jié)對應著這個大文件某個位置的字 節(jié),這個字節(jié)就是偏移量 Block分散存儲到集群節(jié)點中 單一文件block的大小是一致的,也就是說一個大的文件,定義的每個塊的大小是固定的,所有切出來的文件大小也是固定的.但若文件最后剩余大小和塊的大小不一致,那么會按照塊的大小占位,實際存儲剩余文件的大小,也就是說在內存中開辟的空間是實際文件的大小Block可以設置的副本數(shù),副本分散在不同的節(jié)點中,副本數(shù)不要超過節(jié)點的數(shù)量 副本相當于一個備份(拷貝),HDFS的默認副本數(shù)量是3,副本的額作用就是保證文件丟失的情況下,可以在其他節(jié)點中 得到同一個信息,所以絕對不能出現(xiàn)副本和塊出現(xiàn)在同一個節(jié)點 文件上傳的時候可以設置Block塊的大小和副本的而數(shù)量,已經(jīng)上傳的block副本數(shù)可以調整,但是塊的是不變,只支持 一寫入 但是可以多次讀取,若想追加數(shù)據(jù)只能在最后一個節(jié)點中添加
HDFS讀寫流程
hdfs讀流程 :
1.client鏈接namenode,查看元數(shù)據(jù),找到數(shù)據(jù)的存儲位置。
2.client通過hdfs的api并發(fā)讀取數(shù)據(jù)。
3.關閉連接。
hdfs寫流程 :
1.client鏈接namenode存數(shù)據(jù)
2.namenode記錄一條數(shù)據(jù)位置信息(元數(shù)據(jù)),告訴client存哪。
3.client用hdfs的api將數(shù)據(jù)塊(默認是64M)存儲到datanode上。
4.datanode將數(shù)據(jù)水平備份。并且備份完將反饋client。
5.client通知namenode存儲塊完畢。
6.namenode將元數(shù)據(jù)同步到內存中。
7.另一塊循環(huán)上面的過程。
HDFS文件系統(tǒng)存在讀寫權限
r --> read w --> writer x --> execute
--- | --- | --- 可以看成是一個八進制 1代表有權限 0代表沒有權限
rxw | r-- | -w- --> 數(shù)字的形式 111 | 100 | 010 ---> 742
HDFS的Shell命令:
ps:無論看到是hdfs dfs 形式還是 hadoop fs這種形式 都可以 完成對HDFS的操作
1.向HDSF上傳文件
put: 從本地文件系統(tǒng)賦值單個或多個原路徑目標文件到HDFS文件系統(tǒng)中
hdfs dfs -put 本地文件路徑 HDFS文件系統(tǒng)路徑
2.將HDFS文件系統(tǒng)中的文件下載回來
get:從HDFS文件系統(tǒng)中將文件復制到本地文件系統(tǒng)中
hdfs dfs -get HDFS文件系統(tǒng)路徑 本地文件系統(tǒng)路徑
ps:HDFS有一個和put和get類似的而方法 copyFromlocal 相當于put 和 copyTolocal 相當于 get
3.查看HDFS文件系統(tǒng)中的文件內容
cat:查看HDFS文件系統(tǒng)中的文件內容
hdfs dfs -cat HDFS文件系統(tǒng)中文件的路徑
ps:不要查看非文件 在查看文件的同時追加文件到本地路徑
4.HDFS文件系統(tǒng)中進行復制操作
cp:將HDFS文件系統(tǒng)中的文件進行復制,復制到HDFS系統(tǒng)中
hdfs dfs -cp 源HDFS文件系統(tǒng)中的文件路徑 目標HDFS文件系統(tǒng)中的路徑
5.HDFS文件系統(tǒng)中的文件進行移動操作
mv:將源文件移動目標路徑,這個命令可允許有多個源路徑,此時目標路徑必須是一個文件夾(目錄) 不允許不同的文件系統(tǒng)互相移動文件
hdfs dfs -mv 源HDFS文件系統(tǒng)中的文件路徑 目標HDFS文件系統(tǒng)中的路徑
相當于剪切
6.查看HDFS文件系統(tǒng)中文件的大小
hdfs dfs -du HDFS文件系統(tǒng)中路徑中的一個文件
7.在HDSF系統(tǒng)中創(chuàng)建文件夾
mkdir 創(chuàng)建文件夾
hdfs dfs -mkdir HDFS文件系統(tǒng)中的路徑
8.查看HDFS文件系統(tǒng)下的所有文件
hdfs dfs -ls HDFS文件系統(tǒng)路徑
9.刪除HDFS文件系統(tǒng)中的目錄或文件
ps:只能是單個文件 或 空目錄
hdfs dfs -rm HDFS文件系統(tǒng)路徑
若參數(shù)文件夾中有多個文件 加 -r hdfs dfs -rm -r HDFS文件系統(tǒng)路徑
10.更改文件的權限
r可讀 w可寫 x可執(zhí)行
--- | ---| --- 1代表有權 0代表沒有權限 所有每三位可以作為一個八進制處理
例如 rwx | rwx | rwx
111 | 111 | 111
=========================
7 7 7
hdfs dfs -chmod 權限值 HDFS文件系統(tǒng)路徑
若需要更改目錄下權限都需要修改
hdfs dfs -chmod -R 權限值 HDFS文件系統(tǒng)路徑下的文件夾
ps:并且文件夾下的所有子文件和文件夾都會被修改
11.回收站
Hadoop回收站trash,默認是關閉的,建議開啟
[]:
ps:默認為是沒有權限操作回收站的,所以操作之前開啟權限
hdfs dfs -chmod -R 777 HDFS文件系統(tǒng)中回收站的路徑
例子:hdfs dfs -chmod -R 777 /user 刪除文件后,發(fā)現(xiàn)誤刪了,恢復文件
hdfs dfs -mv HDFS文件系統(tǒng)中回收站的路徑下的文件 HDFS文件系統(tǒng)路徑
清空回收站
hdfs dfs -rm -r HDFS文件系統(tǒng)中回收站的路徑
例如:hdfs dfs -rm -r /user/root/.Trash
以上是“能處理大數(shù)據(jù)的技術有哪些”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注創(chuàng)新互聯(lián)-成都網(wǎng)站建設公司行業(yè)資訊頻道!