真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網站制作重慶分公司

Hadoop

Hadoop:
大數(shù)據(jù)集群,只能運行在Linux平臺
RDBMS:表
字段、數(shù)據(jù)類型、約束
結構化數(shù)據(jù)
關系數(shù)據(jù)庫在數(shù)據(jù)中占據(jù)重要的地位
但不是所有的數(shù)據(jù)都可以結構化
結構化數(shù)據(jù):structured data
非結構化數(shù)據(jù):unstructured data
半結構化數(shù)據(jù):semi-structured data
通常保存為xml , json
Google:pagerank 頁面算法
化整為零,并行處理
將一個大問題切割成多個小問題
OLAP:數(shù)據(jù)挖掘
機器學習:deep learning
多節(jié)點并行處理

成都創(chuàng)新互聯(lián)公司是一家專注網站建設、網絡營銷策劃、微信小程序、電子商務建設、網絡推廣、移動互聯(lián)開發(fā)、研究、服務為一體的技術型公司。公司成立十載以來,已經為1000+成都石雕各業(yè)的企業(yè)公司提供互聯(lián)網服務?,F(xiàn)在,服務的1000+客戶與我們一路同行,見證我們的成長;未來,我們一起分享成功的喜悅。

Map reduce:
函數(shù)式編程API
運行框架

HDFS + Mapreduce=Hadoop
HDFS:
namenode:NN節(jié)點
Datanode:DN節(jié)點
MapReduce:
jobTracker:JT節(jié)點
TaskTracker:TT節(jié)點

Hadoop
Hadoop
Hadoop使用Java語言開發(fā),mapper,reducer都是使用Java語言開發(fā)

hadoop生態(tài):
Hadoop

Hadoop
一個mapper,reducer可以沒有reduce,但不能沒有mapper
HDFS:
1、HDFS設計用來存儲大文件,對海量小文件的存儲不太適用;
2、用戶空間的文件系統(tǒng);
3、HDFS不支持修改;新版本支持追加;
4、不支持掛載,并通過系統(tǒng)調用進行訪問,只能使用專用訪問接口,如專用命令行工具,API;

Scribe ,facebook
flume
hadoop外圍組件

hadoop集群生態(tài),生態(tài)圈
Hadoop
hive 中間組件
技術是面向場景的
基于HBASE可以做數(shù)據(jù)修改
HBASE 是NOSQL,稀疏格式存儲方案
Cloudera , CDH 著名hadoop技術服務提供商類似于redhat

Hadoop

關系型數(shù)據(jù)庫數(shù)據(jù)導入到Hadoop流程圖:
RDBMS --> Sqoop --> Hbase --> HDFS

Avro :將數(shù)據(jù)序列化
Hadoop

如何學習Hadoop
1、安裝配置HDFS
2、安裝配置MapReduce
3、HBase
4、Hive
5、sqoop
6、flume/scribe/chukwa

HDFS正常情況幾個節(jié)點:四個節(jié)點
本地模式 調試模式
偽分布式(使用一個節(jié)點)
完全分布式(4以上的節(jié)點)

Hadoop 并行處理系統(tǒng) 多副本
MapReduce
處理邏輯
Hadoop

關系數(shù)據(jù)庫:
行式數(shù)據(jù)庫 ,表

HBase :
列式數(shù)據(jù)庫
鍵值對 ,鍵值組

收集日志的工具
flume (ASF)
chukwa (ASF)
scribe (facebook)

比hadoop更高級的編程接口 讀入工具
Hive SQL
pig
Crunch Java API
Hadoop

Avro 序列化工具
Hadoop有強大的生態(tài)環(huán)境
sqoop :
讓HDFS 分析關系數(shù)據(jù)庫(Oracle ,MySQL ,SQL Server ,DB2)中的數(shù)據(jù)
Zookeeper 管理組件

生態(tài)圖
Hadoop

Hadoop核心組件:
MapReduce
HDFS

R語言
R是用于統(tǒng)計分析、繪圖的語言和操作環(huán)境。R是屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件,它是一個用于統(tǒng)計計算和統(tǒng)計制圖的優(yōu)秀工具

偽分布式系統(tǒng)基本5個進程:
JobTracker
TaskTracker
NameNode
SecondaryNameNode
DataNode

Hadoop生態(tài)各個組件之間兼容性不太好 組件來自于各個開源項目
Cloudera CDH 組合發(fā)行版是Hadoop的一個分支,比較著名的
各種配置文件 .xml
Hadoop

Hadoop進程監(jiān)聽的地址和端口
Hadoop

Hadoop


文章名稱:Hadoop
當前地址:http://weahome.cn/article/ghdddh.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部