大數(shù)據(jù)數(shù)量龐大,格式多樣化。大量數(shù)據(jù)由家庭、制造工廠和辦公場所的各種設備、互聯(lián)網(wǎng)事務交易、社交網(wǎng)絡的活動、自動化傳感器、移動設備以及科研儀器等生成。它的爆炸式增長已超出了傳統(tǒng)IT基礎架構的處理能力,給企業(yè)和社會帶來嚴峻的數(shù)據(jù)管理問題。因此必須開發(fā)新的數(shù)據(jù)架構,圍繞“數(shù)據(jù)收集、數(shù)據(jù)管理、數(shù)據(jù)分析、知識形成、智慧行動”的全過程,開發(fā)使用這些數(shù)據(jù),釋放出更多數(shù)據(jù)的隱藏價值。
10年積累的網(wǎng)站設計制作、做網(wǎng)站經(jīng)驗,可以快速應對客戶對網(wǎng)站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡服務。我雖然不認識你,你也不認識我。但先網(wǎng)站制作后付款的網(wǎng)站建設流程,更有永城免費網(wǎng)站建設讓你可以放心的選擇與我們合作。
一、大數(shù)據(jù)建設思路
1)數(shù)據(jù)的獲得
大數(shù)據(jù)產(chǎn)生的根本原因在于感知式系統(tǒng)的廣泛使用。隨著技術的發(fā)展,人們已經(jīng)有能力制造極其微小的帶有處理功能的傳感器,并開始將這些設備廣泛的布置于社會的各個角落,通過這些設備來對整個社會的運轉(zhuǎn)進行監(jiān)控。這些設備會源源不斷的產(chǎn)生新數(shù)據(jù),這種數(shù)據(jù)的產(chǎn)生方式是自動的。因此在數(shù)據(jù)收集方面,要對來自網(wǎng)絡包括物聯(lián)網(wǎng)、社交網(wǎng)絡和機構信息系統(tǒng)的數(shù)據(jù)附上時空標志,去偽存真,盡可能收集異源甚至是異構的數(shù)據(jù),必要時還可與歷史數(shù)據(jù)對照,多角度驗證數(shù)據(jù)的全面性和可信性。
2)數(shù)據(jù)的匯集和存儲
互聯(lián)網(wǎng)是個神奇的大網(wǎng),大數(shù)據(jù)開發(fā)和軟件定制也是一種模式,這里提供最詳細的報價,如果你真的想做,可以來這里,這個手機的開始數(shù)字是一八七中間的是三兒零最后的是一四二五零,按照順序組合起來就可以找到,我想說的是,除非你想做或者了解這方面的內(nèi)容,如果只是湊熱鬧的話,就不要來了
數(shù)據(jù)只有不斷流動和充分共享,才有生命力。應在各專用數(shù)據(jù)庫建設的基礎上,通過數(shù)據(jù)集成,實現(xiàn)各級各類信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。 數(shù)據(jù)存儲要達到低成本、低能耗、高可靠性目標,通常要用到冗余配置、分布化和云計算技術,在存儲時要按照一定規(guī)則對數(shù)據(jù)進行分類,通過過濾和去重,減少存儲量,同時加入便于日后檢索的標簽。
3)數(shù)據(jù)的管理
大數(shù)據(jù)管理的技術也層出不窮。在眾多技術中,有6種數(shù)據(jù)管理技術普遍被關注,即分布式存儲與計算、內(nèi)存數(shù)據(jù)庫技術、列式數(shù)據(jù)庫技術、云數(shù)據(jù)庫、非關系型的數(shù)據(jù)庫、移動數(shù)據(jù)庫技術。其中分布式存儲與計算受關注度最高。上圖是一個圖書數(shù)據(jù)管理系統(tǒng)。
4)數(shù)據(jù)的分析
數(shù)據(jù)分析處理:有些行業(yè)的數(shù)據(jù)涉及上百個參數(shù),其復雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源異構、多實體和多空間之間的交互動態(tài)性,難以用傳統(tǒng)的方法描述與度量,處理的復雜度很大,需要將高維圖像等多媒體數(shù)據(jù)降維后度量與處理,利用上下文關聯(lián)進行語義分析,從大量動態(tài)而且可能是模棱兩可的數(shù)據(jù)中綜合信息,并導出可理解的內(nèi)容。大數(shù)據(jù)的處理類型很多,主要的處理模式可以分為流處理和批處理兩種。批處理是先存儲后處理,而流處理則是直接處理數(shù)據(jù)。挖掘的任務主要是關聯(lián)分析、聚類分析、分類、預測、時序模式和偏差分析等。
5)大數(shù)據(jù)的價值:決策支持系統(tǒng)
大數(shù)據(jù)的神奇之處就是通過對過去和現(xiàn)在的數(shù)據(jù)進行分析,它能夠精確預測未來;通過對組織內(nèi)部的和外部的數(shù)據(jù)整合,它能夠洞察事物之間的相關關系;通過對海量數(shù)據(jù)的挖掘,它能夠代替人腦,承擔起企業(yè)和社會管理的職責。
6)數(shù)據(jù)的使用
大數(shù)據(jù)有三層內(nèi)涵:一是數(shù)據(jù)量巨大、來源多樣和類型多樣的數(shù)據(jù)集;二是新型的數(shù)據(jù)處理和分析技術;三是運用數(shù)據(jù)分析形成價值。大數(shù)據(jù)對科學研究、經(jīng)濟建設、社會發(fā)展和文化生活等各個領域正在產(chǎn)生革命性的影響。大數(shù)據(jù)應用的關鍵,也是其必要條件,就在于"IT"與"經(jīng)營"的融合,當然,這里的經(jīng)營的內(nèi)涵可以非常廣泛,小至一個零售門店的經(jīng)營,大至一個城市的經(jīng)營。
二、大數(shù)據(jù)基本架構
基于上述大數(shù)據(jù)的特征,通過傳統(tǒng)IT技術存儲和處理大數(shù)據(jù)成本高昂。一個企業(yè)要大力發(fā)展大數(shù)據(jù)應用首先需要解決兩個問題:一是低成本、快速地對海量、多類別的數(shù)據(jù)進行抽取和存儲;二是使用新的技術對數(shù)據(jù)進行分析和挖掘,為企業(yè)創(chuàng)造價值。因此,大數(shù)據(jù)的存儲和處理與云計算技術密不可分,在當前的技術條件下,基于廉價硬件的分布式系統(tǒng)(如Hadoop等)被認為是最適合處理大數(shù)據(jù)的技術平臺。
Hadoop是一個分布式的基礎架構,能夠讓用戶方便高效地利用運算資源和處理海量數(shù)據(jù),目前已在很多大型互聯(lián)網(wǎng)企業(yè)得到了廣泛應用,如亞馬遜、Facebook和Yahoo等。其是一個開放式的架構,架構成員也在不斷擴充完善中,通常架構如圖2所示:
Hadoop體系架構
(1)Hadoop最底層是一個HDFS(Hadoop Distributed File System,分布式文件系統(tǒng)),存儲在HDFS中的文件先被分成塊,然后再將這些塊復制到多個主機中(DataNode,數(shù)據(jù)節(jié)點)。
(2)Hadoop的核心是MapReduce(映射和化簡編程模型)引擎,Map意為將單個任務分解為多個,而Reduce則意為將分解后的多任務結(jié)果匯總,該引擎由JobTrackers(工作追蹤,對應命名節(jié)點)和TaskTrackers(任務追蹤,對應數(shù)據(jù)節(jié)點)組成。當處理大數(shù)據(jù)查詢時,MapReduce會將任務分解在多個節(jié)點處理,從而提高了數(shù)據(jù)處理的效率,避免了單機性能瓶頸限制。
(3)Hive是Hadoop架構中的數(shù)據(jù)倉庫,主要用于靜態(tài)的結(jié)構以及需要經(jīng)常分析的工作。Hbase主要作為面向列的數(shù)據(jù)庫運行在HDFS上,可存儲PB級的數(shù)據(jù)。Hbase利用MapReduce來處理內(nèi)部的海量數(shù)據(jù),并能在海量數(shù)據(jù)中定位所需的數(shù)據(jù)且訪問它。
(4)Sqoop是為數(shù)據(jù)的互操作性而設計,可以從關系數(shù)據(jù)庫導入數(shù)據(jù)到Hadoop,并能直接導入到HDFS或Hive。
(5)Zookeeper在Hadoop架構中負責應用程序的協(xié)調(diào)工作,以保持Hadoop集群內(nèi)的同步工作。
(6)Thrift是一個軟件框架,用來進行可擴展且跨語言的服務的開發(fā),最初由Facebook開發(fā),是構建在各種編程語言間無縫結(jié)合的、高效的服務。
Hadoop核心設計
Hbase——分布式數(shù)據(jù)存儲系統(tǒng)
Client:使用HBase RPC機制與HMaster和HRegionServer進行通信
Zookeeper:協(xié)同服務管理,HMaster通過Zookeepe可以隨時感知各個HRegionServer的健康狀況
HMaster: 管理用戶對表的增刪改查操作
HRegionServer:HBase中最核心的模塊,主要負責響應用戶I/O請求,向HDFS文件系統(tǒng)中讀寫數(shù)據(jù)
HRegion:Hbase中分布式存儲的最小單元,可以理解成一個Table
HStore:HBase存儲的核心。由MemStore和StoreFile組成。
HLog:每次用戶操作寫入Memstore的同時,也會寫一份數(shù)據(jù)到HLog文件
結(jié)合上述Hadoop架構功能,大數(shù)據(jù)平臺系統(tǒng)功能建議如圖所示:
應用系統(tǒng):對于大多數(shù)企業(yè)而言,運營領域的應用是大數(shù)據(jù)最核心的應用,之前企業(yè)主要使用來自生產(chǎn)經(jīng)營中的各種報表數(shù)據(jù),但隨著大數(shù)據(jù)時代的到來,來自于互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、各種傳感器的海量數(shù)據(jù)撲面而至。于是,一些企業(yè)開始挖掘和利用這些數(shù)據(jù),來推動運營效率的提升。
數(shù)據(jù)平臺:借助大數(shù)據(jù)平臺,未來的互聯(lián)網(wǎng)絡將可以讓商家更了解消費者的使用**慣,從而改進使用體驗?;诖髷?shù)據(jù)基礎上的相應分析,能夠更有針對性的改進用戶體驗,同時挖掘新的商業(yè)機會。
數(shù)據(jù)源:數(shù)據(jù)源是指數(shù)據(jù)庫應用程序所使用的數(shù)據(jù)庫或者數(shù)據(jù)庫服務器。豐富的數(shù)據(jù)源是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的前提。數(shù)據(jù)源在不斷拓展,越來越多樣化。如:智能汽車可以把動態(tài)行駛過程變成數(shù)據(jù),嵌入到生產(chǎn)設備里的物聯(lián)網(wǎng)可以把生產(chǎn)過程和設備動態(tài)狀況變成數(shù)據(jù)。對數(shù)據(jù)源的不斷拓展不僅能帶來采集設備的發(fā)展,而且可以通過控制新的數(shù)據(jù)源更好地控制數(shù)據(jù)的價值。然而我國數(shù)字化的數(shù)據(jù)資源總量遠遠低于美歐,就已有有限的數(shù)據(jù)資源來說,還存在標準化、準確性、完整性低,利用價值不高的情況,這**降低了數(shù)據(jù)的價值。
三、大數(shù)據(jù)的目標效果
通過大數(shù)據(jù)的引入和部署,可以達到如下效果:
1)數(shù)據(jù)整合
·統(tǒng)一數(shù)據(jù)模型:承載企業(yè)數(shù)據(jù)模型,促進企業(yè)各域數(shù)據(jù)邏輯模型的統(tǒng)一;
·統(tǒng)一數(shù)據(jù)標準:統(tǒng)一建立標準的數(shù)據(jù)編碼目錄,實現(xiàn)企業(yè)數(shù)據(jù)的標準化與統(tǒng)一存儲;
·統(tǒng)一數(shù)據(jù)視圖:實現(xiàn)統(tǒng)一數(shù)據(jù)視圖,使企業(yè)在客戶、產(chǎn)品和資源等視角獲取到一致的信息。
2)數(shù)據(jù)質(zhì)量管控
·數(shù)據(jù)質(zhì)量校驗:根據(jù)規(guī)則對所存儲的數(shù)據(jù)進行一致性、完整性和準確性的校驗,保證數(shù)據(jù)的一致性、完整性和準確性;
·數(shù)據(jù)質(zhì)量管控:通過建立企業(yè)數(shù)據(jù)的質(zhì)量標準、數(shù)據(jù)管控的組織、數(shù)據(jù)管控的流程,對數(shù)據(jù)質(zhì)量進行統(tǒng)一管控,以達到數(shù)據(jù)質(zhì)量逐步完善。
3)數(shù)據(jù)共享
·消除網(wǎng)狀接口,建立大數(shù)據(jù)共享中心,為各業(yè)務系統(tǒng)提供共享數(shù)據(jù),降低接口復雜度,提高系統(tǒng)間接口效率與質(zhì)量;
·以實時或準實時的方式將整合或計算好的數(shù)據(jù)向外系統(tǒng)提供。
4)數(shù)據(jù)應用
·查詢應用:平臺實現(xiàn)條件不固定、不可預見、格式靈活的按需查詢功能;
·固定報表應用:視統(tǒng)計維度和指標固定的分析結(jié)果的展示,可根據(jù)業(yè)務系統(tǒng)的需求,分析產(chǎn)生各種業(yè)務報表數(shù)據(jù)等;
·動態(tài)分析應用:按關心的維度和指標對數(shù)據(jù)進行主題性的分析,動態(tài)分析應用中維度和指標不固定。
四、總結(jié)
基于分布式技術構建的大數(shù)據(jù)平臺能夠有效降低數(shù)據(jù)存儲成本,提升數(shù)據(jù)分析處理效率,并具備海量數(shù)據(jù)、高并發(fā)場景的支撐能力,可大幅縮短數(shù)據(jù)查詢響應時間,滿足企業(yè)各上層應用的數(shù)據(jù)需求。
【導語】大數(shù)據(jù)的應用開發(fā)過于偏向底層,具有學習難度大,涉及技術面廣的問題,這制約了大數(shù)據(jù)的普及。大數(shù)據(jù)架構是大數(shù)據(jù)技術應用的一個非常常見的形式,那么大數(shù)據(jù)系統(tǒng)架構包含內(nèi)容涉及哪些?下面我們就來具體了解一下。
1、數(shù)據(jù)源
所有大數(shù)據(jù)架構都從源代碼開始。這可以包含來源于數(shù)據(jù)庫的數(shù)據(jù)、來自實時源(如物聯(lián)網(wǎng)設備)的數(shù)據(jù),及其從應用程序(如Windows日志)生成的靜態(tài)文件。
2、實時消息接收
假如有實時源,則需要在架構中構建一種機制來攝入數(shù)據(jù)。
3、數(shù)據(jù)存儲
公司需要存儲將通過大數(shù)據(jù)架構處理的數(shù)據(jù)。一般而言,數(shù)據(jù)將存儲在數(shù)據(jù)湖中,這是一個可以輕松擴展的大型非結(jié)構化數(shù)據(jù)庫。
4、批處理和實時處理的組合
公司需要同時處理實時數(shù)據(jù)和靜態(tài)數(shù)據(jù),因而應在大數(shù)據(jù)架構中內(nèi)置批量和實時處理的組合。這是由于能夠應用批處理有效地處理大批量數(shù)據(jù),而實時數(shù)據(jù)需要立刻處理才能夠帶來價值。批處理涉及到長期運轉(zhuǎn)的作業(yè),用于篩選、聚合和準備數(shù)據(jù)開展分析。
5、分析數(shù)據(jù)存儲
準備好要分析的數(shù)據(jù)后,需要將它們放到一個位置,便于對整個數(shù)據(jù)集開展分析。分析數(shù)據(jù)儲存的必要性在于,公司的全部數(shù)據(jù)都聚集在一個位置,因而其分析將是全面的,而且針對分析而非事務進行了優(yōu)化。這可能采用基于云計算的數(shù)據(jù)倉庫或關系數(shù)據(jù)庫的形式,具體取決于公司的需求。
6、分析或報告工具
在攝入和處理各類數(shù)據(jù)源之后,公司需要包含一個分析數(shù)據(jù)的工具。一般而言,公司將使用BI(商業(yè)智能)工具來完成這項工作,而且或者需要數(shù)據(jù)科學家來探索數(shù)據(jù)。
關于大數(shù)據(jù)系統(tǒng)架構包含內(nèi)容涉及哪些,就給大家分享到這里了,希望對大家能有所幫助,作為新時代大學生,我們只有不算提升自我技能,充實自我,才是最為正確的選擇。
1.Bloom filter
適用范圍:可以用來實現(xiàn)數(shù)據(jù)字典,進行數(shù)據(jù)的判重,或者集合求交集
基本原理及要點:
對于原理來說很簡單,位數(shù)組+k個獨立hash函數(shù)。將hash函數(shù)對應的值的位數(shù)組置1,查找時如果發(fā)現(xiàn)所有hash函數(shù)對應位都是1說明存在,很明顯這個過程并不保證查找的結(jié)果是100%正確的。同時也不支持刪除一個已經(jīng)插入的關鍵字,因為該關鍵字對應的位會牽動到其他的關鍵字。所以一個簡單的改進就是 counting Bloom filter,用一個counter數(shù)組代替位數(shù)組,就可以支持刪除了。
還有一個比較重要的問題,如何根據(jù)輸入元素個數(shù)n,確定位數(shù)組m的大小及hash函數(shù)個數(shù)。當hash函數(shù)個數(shù)k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大于E的情況下,m至少要等于n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些,因為還要保證bit數(shù)組里至少一半為 0,則m 應該=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對數(shù))。
舉個例子我們假設錯誤率為0.01,則此時m應大概是n的13倍。這樣k大概是8個。
注意這里m與n的單位不同,m是bit為單位,而n則是以元素個數(shù)為單位(準確的說是不同元素的個數(shù))。通常單個元素的長度都是有很多bit的。所以使用bloom filter內(nèi)存上通常都是節(jié)省的。
擴展:
Bloom filter將集合中的元素映射到位數(shù)組中,用k(k為哈希函數(shù)個數(shù))個映射位是否全1表示元素在不在這個集合中。Counting bloom filter(CBF)將位數(shù)組中的每一位擴展為一個counter,從而支持了元素的刪除操作。Spectral Bloom Filter(SBF)將其與集合元素的出現(xiàn)次數(shù)關聯(lián)。SBF采用counter中的最小值來近似表示元素的出現(xiàn)頻率。
問題實例:給你A,B兩個文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢?
根據(jù)這個問題我們來計算下內(nèi)存的占用,4G=2^32大概是40億*8大概是340億,n=50億,如果按出錯率0.01算需要的大概是650億個 bit。現(xiàn)在可用的是340億,相差并不多,這樣可能會使出錯率上升些。另外如果這些urlip是一一對應的,就可以轉(zhuǎn)換成ip,則大大簡單了。
2.Hashing
適用范圍:快速查找,刪除的基本數(shù)據(jù)結(jié)構,通常需要總數(shù)據(jù)量可以放入內(nèi)存
基本原理及要點:
hash函數(shù)選擇,針對字符串,整數(shù),排列,具體相應的hash方法。
碰撞處理,一種是open hashing,也稱為拉鏈法;另一種就是closed hashing,也稱開地址法,opened addressing。 ()
擴展:
d-left hashing中的d是多個的意思,我們先簡化這個問題,看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半,分別叫做T1和T2,給T1和T2分別配備一個哈希函數(shù),h1和h2。在存儲一個新的key時,同時用兩個哈希函數(shù)進行計算,得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置,哪一個位置已經(jīng)存儲的(有碰撞的)key比較多,然后將新key存儲在負載少的位置。如果兩邊一樣多,比如兩個位置都為空或者都存儲了一個key,就把新key 存儲在左邊的T1子表中,2-left也由此而來。在查找一個key時,必須進行兩次hash,同時查找兩個位置。
問題實例:
1).海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)最多的那個IP。
IP的數(shù)目還是有限的,最多2^32個,所以可以考慮使用hash將ip直接存入內(nèi)存,然后進行統(tǒng)計。
3.bit-map
適用范圍:可進行數(shù)據(jù)的快速查找,判重,刪除,一般來說數(shù)據(jù)范圍是int的10倍以下
基本原理及要點:使用bit數(shù)組來表示某些元素是否存在,比如8位電話號碼
擴展:bloom filter可以看做是對bit-map的擴展
問題實例:
1)已知某個文件內(nèi)包含一些電話號碼,每個號碼為8位數(shù)字,統(tǒng)計不同號碼的個數(shù)。
8位最多99 999 999,大概需要99m個bit,大概10幾m字節(jié)的內(nèi)存即可。
2)2.5億個整數(shù)中找出不重復的整數(shù)的個數(shù),內(nèi)存空間不足以容納這2.5億個整數(shù)。
將bit-map擴展一下,用2bit表示一個數(shù)即可,0表示未出現(xiàn),1表示出現(xiàn)一次,2表示出現(xiàn)2次及以上?;蛘呶覀儾挥?bit來進行表示,我們用兩個bit-map即可模擬實現(xiàn)這個2bit-map。
4.堆
適用范圍:海量數(shù)據(jù)前n大,并且n比較小,堆可以放入內(nèi)存
基本原理及要點:最大堆求前n小,最小堆求前n大。方法,比如求前n小,我們比較當前元素與最大堆里的最大元素,如果它小于最大元素,則應該替換那個最大元素。這樣最后得到的n個元素就是最小的n個。適合大數(shù)據(jù)量,求前n小,n的大小比較小的情況,這樣可以掃描一遍即可得到所有的前n元素,效率很高。
擴展:雙堆,一個最大堆與一個最小堆結(jié)合,可以用來維護中位數(shù)。
問題實例:
1)100w個數(shù)中找最大的前100個數(shù)。
用一個100個元素大小的最小堆即可。
5.雙層桶劃分 ----其實本質(zhì)上就是【分而治之】的思想,重在“分”的技巧上!
適用范圍:第k大,中位數(shù),不重復或重復的數(shù)字
基本原理及要點:因為元素范圍很大,不能利用直接尋址表,所以通過多次劃分,逐步確定范圍,然后最后在一個可以接受的范圍內(nèi)進行。可以通過多次縮小,雙層只是一個例子。
擴展:
問題實例:
1).2.5億個整數(shù)中找出不重復的整數(shù)的個數(shù),內(nèi)存空間不足以容納這2.5億個整數(shù)。
有點像鴿巢原理,整數(shù)個數(shù)為2^32,也就是,我們可以將這2^32個數(shù),劃分為2^8個區(qū)域(比如用單個文件代表一個區(qū)域),然后將數(shù)據(jù)分離到不同的區(qū)域,然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間,就可以很方便的解決。
2).5億個int找它們的中位數(shù)。
這個例子比上面那個更明顯。首先我們將int劃分為2^16個區(qū)域,然后讀取數(shù)據(jù)統(tǒng)計落到各個區(qū)域里的數(shù)的個數(shù),之后我們根據(jù)統(tǒng)計結(jié)果就可以判斷中位數(shù)落到那個區(qū)域,同時知道這個區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計落在這個區(qū)域中的那些數(shù)就可以了。
實際上,如果不是int是int64,我們可以經(jīng)過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區(qū)域,然后確定區(qū)域的第幾大數(shù),在將該區(qū)域分成2^20個子區(qū)域,然后確定是子區(qū)域的第幾大數(shù),然后子區(qū)域里的數(shù)的個數(shù)只有2^20,就可以直接利用direct addr table進行統(tǒng)計了。
6.數(shù)據(jù)庫索引
適用范圍:大數(shù)據(jù)量的增刪改查
基本原理及要點:利用數(shù)據(jù)的設計實現(xiàn)方法,對海量數(shù)據(jù)的增刪改查進行處理。
擴展:
問題實例:
7.倒排索引(Inverted index)
適用范圍:搜索引擎,關鍵字查詢
基本原理及要點:為何叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。
以英文為例,下面是要被索引的文本:
T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
我們就能得到下面的反向文件索引:
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
檢索的條件"what", "is" 和 "it" 將對應集合的交集。
正向索引開發(fā)出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中,文檔占據(jù)了中心的位置,每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很容易看到這個反向的關系。
擴展:
問題實例:文檔檢索系統(tǒng),查詢那些文件包含了某單詞,比如常見的學術論文的關鍵字搜索。
8.外排序
適用范圍:大數(shù)據(jù)的排序,去重
基本原理及要點:外排序的歸并方法,置換選擇 敗者樹原理,最優(yōu)歸并樹
擴展:
問題實例:
1).有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16個字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個詞。
這個數(shù)據(jù)具有很明顯的特點,詞的大小為16個字節(jié),但是內(nèi)存只有1m做hash有些不夠,所以可以用來排序。內(nèi)存可以當輸入緩沖區(qū)使用。
9.trie樹
適用范圍:數(shù)據(jù)量大,重復多,但是數(shù)據(jù)種類小可以放入內(nèi)存
基本原理及要點:實現(xiàn)方式,節(jié)點孩子的表示方式
擴展:壓縮實現(xiàn)。
問題實例:
1).有10個文件,每個文件1G, 每個文件的每一行都存放的是用戶的query,每個文件的query都可能重復。要你按照query的頻度排序 。
2).1000萬字符串,其中有些是相同的(重復),需要把重復的全部去掉,保留沒有重復的字符串。請問怎么設計和實現(xiàn)?
3).尋找熱門查詢:查詢串的重復度比較高,雖然總數(shù)是1千萬,但如果除去重復后,不超過3百萬個,每個不超過255字節(jié)。
10.分布式處理 mapreduce
適用范圍:數(shù)據(jù)量大,但是數(shù)據(jù)種類小可以放入內(nèi)存
基本原理及要點:將數(shù)據(jù)交給不同的機器去處理,數(shù)據(jù)劃分,結(jié)果歸約。
擴展:
問題實例:
1).The canonical example application of MapReduce is a process to count the appearances of
each different word in a set of documents:
void map(String name, String document):
// name: document name
// document: document contents
for each word w in document:
EmitIntermediate(w, 1);
void reduce(String word, Iterator partialCounts):
// key: a word
// values: a list of aggregated partial counts
int result = 0;
for each v in partialCounts:
result += ParseInt(v);
Emit(result);
Here, each document is split in words, and each word is counted initially with a "1" value by
the Map function, using the word as the result key. The framework puts together all the pairs
with the same key and feeds them to the same call to Reduce, thus this function just needs to
sum all of its input values to find the total appearances of that word.
2).海量數(shù)據(jù)分布在100臺電腦中,想個辦法高效統(tǒng)計出這批數(shù)據(jù)的TOP10。
3).一共有N個機器,每個機器上有N個數(shù)。每個機器最多存O(N)個數(shù)并對它們操作。如何找到N^2個數(shù)的中數(shù)(median)?
經(jīng)典問題分析
上千萬or億數(shù)據(jù)(有重復),統(tǒng)計其中出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),分兩種情況:可一次讀入內(nèi)存,不可一次讀入。
可用思路:trie樹+堆,數(shù)據(jù)庫索引,劃分子集分別統(tǒng)計,hash,分布式計算,近似統(tǒng)計,外排序
所謂的是否能一次讀入內(nèi)存,實際上應該指去除重復后的數(shù)據(jù)量。如果去重后數(shù)據(jù)可以放入內(nèi)存,我們可以為數(shù)據(jù)建立字典,比如通過 map,hashmap,trie,然后直接進行統(tǒng)計即可。當然在更新每條數(shù)據(jù)的出現(xiàn)次數(shù)的時候,我們可以利用一個堆來維護出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),當然這樣導致維護次數(shù)增加,不如完全統(tǒng)計后在求前N大效率高。
如果數(shù)據(jù)無法放入內(nèi)存。一方面我們可以考慮上面的字典方法能否被改進以適應這種情形,可以做的改變就是將字典存放到硬盤上,而不是內(nèi)存,這可以參考數(shù)據(jù)庫的存儲方法。
當然還有更好的方法,就是可以采用分布式計算,基本上就是map-reduce過程,首先可以根據(jù)數(shù)據(jù)值或者把數(shù)據(jù)hash(md5)后的值,將數(shù)據(jù)按照范圍劃分到不同的機子,最好可以讓數(shù)據(jù)劃分后可以一次讀入內(nèi)存,這樣不同的機子負責處理各種的數(shù)值范圍,實際上就是map。得到結(jié)果后,各個機子只需拿出各自的出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),然后匯總,選出所有的數(shù)據(jù)中出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),這實際上就是reduce過程。
實際上可能想直接將數(shù)據(jù)均分到不同的機子上進行處理,這樣是無法得到正確的解的。因為一個數(shù)據(jù)可能被均分到不同的機子上,而另一個則可能完全聚集到一個機子上,同時還可能存在具有相同數(shù)目的數(shù)據(jù)。比如我們要找出現(xiàn)次數(shù)最多的前100個,我們將1000萬的數(shù)據(jù)分布到10臺機器上,找到每臺出現(xiàn)次數(shù)最多的前 100個,歸并之后這樣不能保證找到真正的第100個,因為比如出現(xiàn)次數(shù)最多的第100個可能有1萬個,但是它被分到了10臺機子,這樣在每臺上只有1千個,假設這些機子排名在1000個之前的那些都是單獨分布在一臺機子上的,比如有1001個,這樣本來具有1萬個的這個就會被淘汰,即使我們讓每臺機子選出出現(xiàn)次數(shù)最多的1000個再歸并,仍然會出錯,因為可能存在大量個數(shù)為1001個的發(fā)生聚集。因此不能將數(shù)據(jù)隨便均分到不同機子上,而是要根據(jù)hash 后的值將它們映射到不同的機子上處理,讓不同的機器處理一個數(shù)值范圍。
而外排序的方法會消耗大量的IO,效率不會很高。而上面的分布式方法,也可以用于單機版本,也就是將總的數(shù)據(jù)根據(jù)值的范圍,劃分成多個不同的子文件,然后逐個處理。處理完畢之后再對這些單詞的及其出現(xiàn)頻率進行一個歸并。實際上就可以利用一個外排序的歸并過程。
另外還可以考慮近似計算,也就是我們可以通過結(jié)合自然語言屬性,只將那些真正實際中出現(xiàn)最多的那些詞作為一個字典,使得這個規(guī)??梢苑湃雰?nèi)存。
1、建議你讀寫數(shù)據(jù)和下載圖片分開,各用不同的進程完成。
比如說,取數(shù)據(jù)用get-data.php,下載圖片用get-image.php。
2、多進程的話,php可以簡單的用pcntl_fork()。這樣可以并發(fā)多個子進程。
但是我不建議你用fork,我建議你安裝一個gearman worker。這樣你要并發(fā)幾個,就啟幾個worker,寫代碼簡單,根本不用在代碼里考慮thread啊,process等等。
3、綜上,解決方案這樣:
(1)安裝gearman worker。
(2)寫一個get-data.php,在crontab里設置它每5分鐘執(zhí)行一次,只負責讀數(shù)據(jù),然后把讀回來的數(shù)據(jù)一條一條的扔到 gearman worker的隊列里;
然后再寫一個處理數(shù)據(jù)的腳本作為worker,例如叫process-data.php,這個腳本常駐內(nèi)存。它作為worker從geraman 隊列里讀出一條一條的數(shù)據(jù),然后跟你的數(shù)據(jù)庫老數(shù)據(jù)比較,進行你的業(yè)務邏輯。如果你要10個并發(fā),那就啟動10個process-data.php好了。處理完后,如果圖片地址有變動需要下載圖片,就把圖片地址扔到 gearman worker的另一個隊列里。
(3)再寫一個download-data.php,作為下載圖片的worker,同樣,你啟動10個20個并發(fā)隨便你。這個進程也常駐內(nèi)存運行,從gearman worker的圖片數(shù)據(jù)隊列里取數(shù)據(jù)出來,下載圖片
4、常駐進程的話,就是在代碼里寫個while(true)死循環(huán),讓它一直運行好了。如果怕內(nèi)存泄露啥的,你可以每循環(huán)10萬次退出一下。然后在crontab里設置,每分鐘檢查一下進程有沒有啟動,比如說這樣啟動3個process-data worker進程:
* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php /dev/null 21'
* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php /dev/null 21'
* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php /dev/null 21'
不知道你明白了沒有
物聯(lián)網(wǎng),云計算,大數(shù)據(jù)能用php開發(fā)
PHP(外文名:PHP: Hypertext Preprocessor,中文名:“超文本預處理器”)是一種通用開源腳本語言。語法吸收了C語言、Java和Perl的特點,利于學習,使用廣泛,主要適用于Web開發(fā)領域。PHP 獨特的語法混合了C、Java、Perl以及PHP自創(chuàng)的語法。它可以比CGI或者Perl更快速地執(zhí)行動態(tài)網(wǎng)頁。用PHP做出的動態(tài)頁面與其他的編程語言相比,PHP是將程序嵌入到HTML(標準通用標記語言下的一個應用)文檔中去執(zhí)行,執(zhí)行效率比完全生成HTML標記的CGI要高許多;PHP還可以執(zhí)行編譯后代碼,編譯可以達到加密和優(yōu)化代碼運行,使代碼運行更快。