大數(shù)據(jù)有三個(gè)主要部分,分別是數(shù)學(xué),統(tǒng)計(jì)學(xué)和計(jì)算機(jī)等學(xué)科。大數(shù)據(jù)基礎(chǔ)知識(shí)往往決定了開發(fā)人員未來的成長高度,所以要重視基礎(chǔ)知識(shí)的學(xué)習(xí)。
網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)!專注于網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、微信小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了錦州免費(fèi)建站歡迎大家使用!
大數(shù)據(jù)平臺(tái)是對(duì)海量結(jié)構(gòu)化、非結(jié)構(gòu)化、半機(jī)構(gòu)化數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、計(jì)算、統(tǒng)計(jì)、分析處理的一系列技術(shù)平臺(tái)。大數(shù)據(jù)平臺(tái)處理的數(shù)據(jù)量通常是TB級(jí),甚至是PB或EB級(jí)的數(shù)據(jù),這是傳統(tǒng)數(shù)據(jù)倉庫工具無法處理完成的,其涉及的技術(shù)有分布式計(jì)算、高并發(fā)處理、高可用處理、集群、實(shí)時(shí)性計(jì)算等,匯集了當(dāng)前IT領(lǐng)域熱門流行的各類技術(shù)。
擴(kuò)展資料:
注意事項(xiàng):
大數(shù)據(jù)的第一站就是收集和存儲(chǔ)海量數(shù)據(jù)(公開/隱私)。現(xiàn)在每個(gè)人都是一個(gè)巨大的數(shù)據(jù)源,通過智能手機(jī)和個(gè)人筆記本釋放出大量的個(gè)人行為信息。獲取數(shù)據(jù)似乎已經(jīng)變得越來越容易,數(shù)據(jù)收集這一模塊最大的挑戰(zhàn)在于獲取海量數(shù)據(jù)的高速要求以及數(shù)據(jù)的全面性考慮。
傳統(tǒng)商業(yè)智能在數(shù)據(jù)清洗處理的做法(ETL)是,把準(zhǔn)確的數(shù)據(jù)放入定義好的格式中,通過基礎(chǔ)的抽取統(tǒng)計(jì)生成高維度的數(shù)據(jù),方便直接使用。然而大數(shù)據(jù)有個(gè)最突出的特征——數(shù)據(jù)非結(jié)構(gòu)化或者半結(jié)構(gòu)化。因?yàn)閿?shù)據(jù)有可能是圖片,二進(jìn)制等等。數(shù)據(jù)清洗的最大挑戰(zhàn)來了——如何轉(zhuǎn)化處理大量非結(jié)構(gòu)數(shù)據(jù),便于分布式地計(jì)算分析。
參考資料來源:百度百科-大數(shù)據(jù)
大數(shù)據(jù)對(duì)于我們這些從業(yè)者來說,是不太喜歡說的一個(gè)詞。所謂內(nèi)行看門道,外行看熱鬧,大數(shù)據(jù)這兩年風(fēng)風(fēng)火火,大家都爭先恐后的討論著,但說到如何掌握或者運(yùn)用,很多人是不知所措的。
私以為,大數(shù)據(jù)的核心在三個(gè)地方:數(shù)學(xué)+計(jì)算機(jī)知識(shí)+業(yè)務(wù)
先說說題主說到的編程,我在這里將它納入計(jì)算機(jī)知識(shí)這一部分,因?yàn)榫幊虒?duì)于我們來說只是大數(shù)據(jù)的冰山一角。這兩年大數(shù)據(jù)的發(fā)展,絕對(duì)不是因?yàn)榫幊陶Z言的進(jìn)步,很大一部分是由于計(jì)算機(jī)工具的進(jìn)步或者硬件的提升。 尤其是現(xiàn)在計(jì)算機(jī)硬件價(jià)格的下跌,以及大數(shù)據(jù)處理工具的發(fā)展,如hadoop,spark等,帶來了數(shù)據(jù)處理能力的飛速提升,才導(dǎo)致了現(xiàn)在大數(shù)據(jù)的越來越火。
至于我們說的數(shù)據(jù)挖掘知識(shí)和編程語言,這些都是很早以前就已經(jīng)存在的知識(shí),這幾年也沒有得到很令人驚喜的新進(jìn)展(我說的是知識(shí)本身,不是指應(yīng)用)。
總之: 大數(shù)據(jù)之所以得到人們關(guān)注,最重要的是數(shù)據(jù)處理工具的進(jìn)步以及數(shù)據(jù)量的累積(尤其是互聯(lián)網(wǎng))
那么是不是說明 掌握編程或者計(jì)算機(jī)工具就是邁入大數(shù)據(jù)的關(guān)鍵路徑呢?
答案:顯然不是,數(shù)學(xué)才是真正的核心知識(shí)。
沒錯(cuò),數(shù)學(xué)是在數(shù)據(jù)挖掘領(lǐng)域非常重要的甚至是核心的部分,編程只是工具,真的只是工具。 編程語言有好幾十種嗎,但是數(shù)據(jù)挖掘理論知識(shí)就那兒點(diǎn)。 你用任何一門語言去實(shí)現(xiàn)你的數(shù)學(xué)思想便可以達(dá)到數(shù)據(jù)挖掘的目標(biāo)。 學(xué)術(shù)研究甚至可以拋棄編程,完全只研究算法(注意:這樣的話會(huì)容易造成紙上談兵)。
使用緩存,比如memcache,redis,因?yàn)樗鼈兪窃趦?nèi)存中運(yùn)行,所以處理數(shù)據(jù),返回?cái)?shù)據(jù)非??欤钥梢詰?yīng)對(duì)高并發(fā)。
2.增加帶寬和機(jī)器性能,1M的帶寬同時(shí)處理的流量肯定有限,所以在資源允許的情況下,大帶寬,多核cpu,高內(nèi)存是一個(gè)解決方案。
3.分布式,讓多個(gè)訪問分到不同的機(jī)器上去處理,每個(gè)機(jī)器處理的請(qǐng)求就相對(duì)減少了。
簡單說些常用技術(shù),負(fù)載均衡,限流,加速器等