從事軟件開發(fā)將近四年,一直熱衷于各種技術(shù)語言,但是感覺自己始終都不知道自己到底喜歡從事哪個方面的開發(fā),畢業(yè)的前兩年一直在大連做對日軟件外包,做了兩年后覺得真的沒有什么意思,軟件的設(shè)計都不是自己做的,只是需要按照需求進行程序的書寫,所以和幾個同事一直離職后來了北京,其實來到北京想的和現(xiàn)實還是不一樣,最后我還是干了類似外包的項目,寫這篇日記我心里一直很不確定自己喜歡什么樣的技術(shù)喜歡什么樣的語言,所以我這回準(zhǔn)備開始寫blog來記錄自己的學(xué)習(xí)的點點滴滴,我心里優(yōu)先喜歡的就是手機開發(fā),好在現(xiàn)在的工作給我很多空閑的時間,讓我有很大的空間學(xué)習(xí),所以再這里給自己一個鼓勵爭取一周至少一篇關(guān)于自己學(xué)習(xí)的blog。我學(xué)習(xí)的方向現(xiàn)在分兩個方向,最后來確定自己到底喜歡哪個,再為之努力奮斗。一個就是手機方向,一個就是Hadoop方向。我覺得未來中國的軟件市場是非常大的,手機互聯(lián)網(wǎng)這不用說現(xiàn)在還是很熱,將來可能會慢慢趨于穩(wěn)定,但總之這10幾年應(yīng)該還是很穩(wěn)定的,我對未來的看法就是未來數(shù)據(jù)是王道,誰掌握了越多的數(shù)據(jù)誰就能掌握主動權(quán),但掌握數(shù)據(jù)多沒有用,得要合理分析所有的數(shù)據(jù),才能把數(shù)據(jù)轉(zhuǎn)化為相應(yīng)的價值。所以另一個方向就是研究大數(shù)據(jù),大數(shù)據(jù)的處理。今天這篇blog就來說說Hadoop的大數(shù)據(jù)處理心得筆記。我現(xiàn)在看的這本就是《Hadoop權(quán)威指南第二版中文版》。通過學(xué)習(xí)來一步一步成長,也算是自己的學(xué)習(xí)記錄吧。
我們提供的服務(wù)有:做網(wǎng)站、網(wǎng)站建設(shè)、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、松江ssl等。為近1000家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的松江網(wǎng)站制作公司
開始記錄筆記:
Hadoop是apache里的一個開源的項目。核心是谷歌公司的對于大數(shù)據(jù)處理的框架,基于MapReduce軟件設(shè)計模型。是大數(shù)據(jù)分布式系統(tǒng)的一個開源軟件項目,對于處理大數(shù)據(jù)分析現(xiàn)在是比較主流的軟件框架。
hadoop處理方式:數(shù)據(jù)輸入->MapReduce的程序和配置->輸出。
Map任務(wù):數(shù)據(jù)的key,value生成。輸出到本地磁盤,因為是中間結(jié)果,如果放在HDFS(分布式文件系統(tǒng))未免小題大做。
Reduce任務(wù):數(shù)據(jù)的解析,輸出自己預(yù)期的結(jié)果。輸出到HDFS,以實現(xiàn)可靠數(shù)據(jù)。
我的理解Reduce相當(dāng)一個統(tǒng)領(lǐng)全局的人,它需要某種規(guī)則的數(shù)據(jù)就需要map來給它提供,map里可以通過分區(qū)提供給不同的Reduce去處理。當(dāng)沒有Reduce時,map就直接發(fā)送到HDFS上。
map和Reduce中可以有個合并函數(shù)進行過度,合并函數(shù)在map里運用可以減少對于map輸出的數(shù)據(jù)量。有效減少map和Reduce之間的數(shù)據(jù)傳輸量。但對于合并函數(shù)還是視情況運用。比如求平均值等一些需要全數(shù)據(jù)的時候就不能使用。