隨著大數(shù)據(jù)分析市場(chǎng)迅速擴(kuò)展,哪些技術(shù)是最有需求和最有增長(zhǎng)潛力的呢?在Forrester Research的一份最新研究報(bào)告中,評(píng)估了22種技術(shù)在整個(gè)數(shù)據(jù)生命周期中的成熟度和軌跡。這些技術(shù)都對(duì)大數(shù)據(jù)的實(shí)時(shí)、預(yù)測(cè)和綜合洞察有著巨大的貢獻(xiàn)。
興安盟烏蘭浩特網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)建站!從網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、APP開(kāi)發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)等網(wǎng)站項(xiàng)目制作,到程序開(kāi)發(fā),運(yùn)營(yíng)維護(hù)。創(chuàng)新互聯(lián)建站于2013年開(kāi)始到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來(lái)保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)建站。
1. 預(yù)測(cè)分析技術(shù)
這也是大數(shù)據(jù)的主要功能之一。預(yù)測(cè)分析允許公司通過(guò)分析大數(shù)據(jù)源來(lái)發(fā)現(xiàn)、評(píng)估、優(yōu)化和部署預(yù)測(cè)模型,從而提高業(yè)務(wù)性能或降低風(fēng)險(xiǎn)。同時(shí),大數(shù)據(jù)的預(yù)測(cè)分析也與我們的生活息息相關(guān)。淘寶會(huì)預(yù)測(cè)你每次購(gòu)物可能還想買(mǎi)什么,愛(ài)奇藝正在預(yù)測(cè)你可能想看什么,百合網(wǎng)和其他約會(huì)網(wǎng)站甚至試圖預(yù)測(cè)你會(huì)愛(ài)上誰(shuí)……
2. NoSQL數(shù)據(jù)庫(kù)
NoSQL,Not Only SQL,意思是“不僅僅是SQL”,泛指非關(guān)系型數(shù)據(jù)庫(kù)。NoSQL數(shù)據(jù)庫(kù)提供了比關(guān)系數(shù)據(jù)庫(kù)更靈活、可伸縮和更便宜的替代方案,打破了傳統(tǒng)數(shù)據(jù)庫(kù)市場(chǎng)一統(tǒng)江山的格局。并且,NoSQL數(shù)據(jù)庫(kù)能夠更好地處理大數(shù)據(jù)應(yīng)用的需求。常見(jiàn)的NoSQL數(shù)據(jù)庫(kù)有HBase、Redis、MongoDB、Couchbase、LevelDB等。
3. 搜索和知識(shí)發(fā)現(xiàn)
支持來(lái)自于多種數(shù)據(jù)源(如文件系統(tǒng)、數(shù)據(jù)庫(kù)、流、api和其他平臺(tái)和應(yīng)用程序)中的大型非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)庫(kù)中自助提取信息的工具和技術(shù)。如,數(shù)據(jù)挖掘技術(shù)和各種大數(shù)據(jù)平臺(tái)。
4. 大數(shù)據(jù)流計(jì)算引擎
能夠過(guò)濾、聚合、豐富和分析來(lái)自多個(gè)完全不同的活動(dòng)數(shù)據(jù)源的數(shù)據(jù)的高吞吐量的框架,可以采用任何數(shù)據(jù)格式?,F(xiàn)今流行的流式計(jì)算引擎有Spark Streaming和Flink。
5. 內(nèi)存數(shù)據(jù)結(jié)構(gòu)
通過(guò)在分布式計(jì)算機(jī)系統(tǒng)中動(dòng)態(tài)隨機(jī)訪問(wèn)內(nèi)存(DRAM)、閃存或SSD上分布數(shù)據(jù),提供低延遲的訪問(wèn)和處理大量數(shù)據(jù)。
6. 分布式文件存儲(chǔ)
為了保證文件的可靠性和存取性能,數(shù)據(jù)通常以副本的方式存儲(chǔ)在多個(gè)節(jié)點(diǎn)上的計(jì)算機(jī)網(wǎng)絡(luò)。常見(jiàn)的分布式文件系統(tǒng)有GFS、HDFS、Lustre 、Ceph等。
7. 數(shù)據(jù)虛擬化
數(shù)據(jù)虛擬化是一種數(shù)據(jù)管理方法,它允許應(yīng)用程序檢索和操作數(shù)據(jù),而不需要關(guān)心有關(guān)數(shù)據(jù)的技術(shù)細(xì)節(jié),比如數(shù)據(jù)在源文件中是何種格式,或者數(shù)據(jù)存儲(chǔ)的物理位置,并且可以提供單個(gè)客戶用戶視圖。
8. 數(shù)據(jù)集成
用于跨解決方案進(jìn)行數(shù)據(jù)編排的工具,如Amazon Elastic MapReduce (EMR)、Apache Hive、Apache Pig、Apache Spark、MapReduce、Couchbase、Hadoop和MongoDB等。
9. 數(shù)據(jù)準(zhǔn)備
減輕采購(gòu)、成形、清理和共享各種雜亂數(shù)據(jù)集的負(fù)擔(dān)的軟件,以加速數(shù)據(jù)對(duì)分析的有用性。
10. 數(shù)據(jù)質(zhì)量
使用分布式數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)庫(kù)上的并行操作,對(duì)大型高速數(shù)據(jù)集進(jìn)行數(shù)據(jù)清理和充實(shí)的產(chǎn)品。
大數(shù)據(jù)本身做不了什么。我們通過(guò)大數(shù)據(jù)主要發(fā)現(xiàn)和處理一些問(wèn)題!需要學(xué)習(xí)數(shù)理統(tǒng)計(jì)的知識(shí)!如回歸,相關(guān),建模等!
什么是NoSQL
大家有沒(méi)有聽(tīng)說(shuō)過(guò)“NoSQL”呢?近年,這個(gè)詞極受關(guān)注??吹健癗oSQL”這個(gè)詞,大家可能會(huì)誤以為是“No!SQL”的縮寫(xiě),并深感憤怒:“SQL怎么會(huì)沒(méi)有必要了呢?”但實(shí)際上,它是“Not Only SQL”的縮寫(xiě)。它的意義是:適用關(guān)系型數(shù)據(jù)庫(kù)的時(shí)候就使用關(guān)系型數(shù)據(jù)庫(kù),不適用的時(shí)候也沒(méi)有必要非使用關(guān)系型數(shù)據(jù)庫(kù)不可,可以考慮使用更加合適的數(shù)據(jù)存儲(chǔ)。
為彌補(bǔ)關(guān)系型數(shù)據(jù)庫(kù)的不足,各種各樣的NoSQL數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生。
為了更好地了解本書(shū)所介紹的NoSQL數(shù)據(jù)庫(kù),對(duì)關(guān)系型數(shù)據(jù)庫(kù)的理解是必不可少的。那么,就讓我們先來(lái)看一看關(guān)系型數(shù)據(jù)庫(kù)的歷史、分類(lèi)和特征吧。
關(guān)系型數(shù)據(jù)庫(kù)簡(jiǎn)史
1969年,埃德加?6?1弗蘭克?6?1科德(Edgar Frank Codd)發(fā)表了劃時(shí)代的論文,首次提出了關(guān)系數(shù)據(jù)模型的概念。但可惜的是,刊登論文的《IBM Research Report》只是IBM公司的內(nèi)部刊物,因此論文反響平平。1970年,他再次在刊物《Communication of the ACM》上發(fā)表了題為“A Relational Model of Data for Large Shared Data banks”(大型共享數(shù)據(jù)庫(kù)的關(guān)系模型)的論文,終于引起了大家的關(guān)注。
科德所提出的關(guān)系數(shù)據(jù)模型的概念成為了現(xiàn)今關(guān)系型數(shù)據(jù)庫(kù)的基礎(chǔ)。當(dāng)時(shí)的關(guān)系型數(shù)據(jù)庫(kù)由于硬件性能低劣、處理速度過(guò)慢而遲遲沒(méi)有得到實(shí)際應(yīng)用。但之后隨著硬件性能的提升,加之使用簡(jiǎn)單、性能優(yōu)越等優(yōu)點(diǎn),關(guān)系型數(shù)據(jù)庫(kù)得到了廣泛的應(yīng)用。
通用性及高性能
雖然本書(shū)是講解NoSQL數(shù)據(jù)庫(kù)的,但有一個(gè)重要的大前提,請(qǐng)大家一定不要誤解。這個(gè)大前提就是“關(guān)系型數(shù)據(jù)庫(kù)的性能絕對(duì)不低,它具有非常好的通用性和非常高的性能”。毫無(wú)疑問(wèn),對(duì)于絕大多數(shù)的應(yīng)用來(lái)說(shuō)它都是最有效的解決方案。
突出的優(yōu)勢(shì)
關(guān)系型數(shù)據(jù)庫(kù)作為應(yīng)用廣泛的通用型數(shù)據(jù)庫(kù),它的突出優(yōu)勢(shì)主要有以下幾點(diǎn):
保持?jǐn)?shù)據(jù)的一致性(事務(wù)處理)
由于以標(biāo)準(zhǔn)化為前提,數(shù)據(jù)更新的開(kāi)銷(xiāo)很小(相同的字段基本上都只有一處)
可以進(jìn)行JOIN等復(fù)雜查詢
存在很多實(shí)際成果和專業(yè)技術(shù)信息(成熟的技術(shù))
這其中,能夠保持?jǐn)?shù)據(jù)的一致性是關(guān)系型數(shù)據(jù)庫(kù)的最大優(yōu)勢(shì)。在需要嚴(yán)格保證數(shù)據(jù)一致性和處理完整性的情況下,用關(guān)系型數(shù)據(jù)庫(kù)是肯定沒(méi)有錯(cuò)的。但是有些情況不需要JOIN,對(duì)上述關(guān)系型數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)也沒(méi)有什么特別需要,這時(shí)似乎也就沒(méi)有必要拘泥于關(guān)系型數(shù)據(jù)庫(kù)了。
關(guān)系型數(shù)據(jù)庫(kù)的不足
不擅長(zhǎng)的處理
就像之前提到的那樣,關(guān)系型數(shù)據(jù)庫(kù)的性能非常高。但是它畢竟是一個(gè)通用型的數(shù)據(jù)庫(kù),并不能完全適應(yīng)所有的用途。具體來(lái)說(shuō)它并不擅長(zhǎng)以下處理:
大量數(shù)據(jù)的寫(xiě)入處理
為有數(shù)據(jù)更新的表做索引或表結(jié)構(gòu)(schema)變更
字段不固定時(shí)應(yīng)用
對(duì)簡(jiǎn)單查詢需要快速返回結(jié)果的處理
。。。。。。
NoSQL數(shù)據(jù)庫(kù)
為了彌補(bǔ)關(guān)系型數(shù)據(jù)庫(kù)的不足(特別是最近幾年),NoSQL數(shù)據(jù)庫(kù)出現(xiàn)了。關(guān)系型數(shù)據(jù)庫(kù)應(yīng)用廣泛,能進(jìn)行事務(wù)處理和JOIN等復(fù)雜處理。相對(duì)地,NoSQL數(shù)據(jù)庫(kù)只應(yīng)用在特定領(lǐng)域,基本上不進(jìn)行復(fù)雜的處理,但它恰恰彌補(bǔ)了之前所列舉的關(guān)系型數(shù)據(jù)庫(kù)的不足之處。
易于數(shù)據(jù)的分散
如前所述,關(guān)系型數(shù)據(jù)庫(kù)并不擅長(zhǎng)大量數(shù)據(jù)的寫(xiě)入處理。原本關(guān)系型數(shù)據(jù)庫(kù)就是以JOIN為前提的,就是說(shuō),各個(gè)數(shù)據(jù)之間存在關(guān)聯(lián)是關(guān)系型數(shù)據(jù)庫(kù)得名的主要原因。為了進(jìn)行JOIN處理,關(guān)系型數(shù)據(jù)庫(kù)不得不把數(shù)據(jù)存儲(chǔ)在同一個(gè)服務(wù)器內(nèi),這不利于數(shù)據(jù)的分散。相反,NoSQL數(shù)據(jù)庫(kù)原本就不支持JOIN處理,各個(gè)數(shù)據(jù)都是獨(dú)立設(shè)計(jì)的,很容易把數(shù)據(jù)分散到多個(gè)服務(wù)器上。由于數(shù)據(jù)被分散到了多個(gè)服務(wù)器上,減少了每個(gè)服務(wù)器上的數(shù)據(jù)量,即使要進(jìn)行大量數(shù)據(jù)的寫(xiě)入操作,處理起來(lái)也更加容易。同理,數(shù)據(jù)的讀入操作當(dāng)然也同樣容易。
提升性能和增大規(guī)模
下面說(shuō)一點(diǎn)題外話,如果想要使服務(wù)器能夠輕松地處理更大量的數(shù)據(jù),那么只有兩個(gè)選擇:一是提升性能,二是增大規(guī)模。下面我們來(lái)整理一下這兩者的不同。
首先,提升性能指的就是通過(guò)提升現(xiàn)行服務(wù)器自身的性能來(lái)提高處理能力。這是非常簡(jiǎn)單的方法,程序方面也不需要進(jìn)行變更,但需要一些費(fèi)用。若要購(gòu)買(mǎi)性能翻倍的服務(wù)器,需要花費(fèi)的資金往往不只是原來(lái)的2倍,可能需要多達(dá)5到10倍。這種方法雖然簡(jiǎn)單,但是成本較高。
另一方面,增大規(guī)模指的是使用多臺(tái)廉價(jià)的服務(wù)器來(lái)提高處理能力。它需要對(duì)程序進(jìn)行變更,但由于使用廉價(jià)的服務(wù)器,可以控制成本。另外,以后只要依葫蘆畫(huà)瓢增加廉價(jià)服務(wù)器的數(shù)量就可以了。
不對(duì)大量數(shù)據(jù)進(jìn)行處理的話就沒(méi)有使用的必要嗎?
NoSQL數(shù)據(jù)庫(kù)基本上來(lái)說(shuō)為了“使大量數(shù)據(jù)的寫(xiě)入處理更加容易(讓增加服務(wù)器數(shù)量更容易)”而設(shè)計(jì)的。但如果不是對(duì)大量數(shù)據(jù)進(jìn)行操作的話,NoSQL數(shù)據(jù)庫(kù)的應(yīng)用就沒(méi)有意義嗎?
答案是否定的。的確,它在處理大量數(shù)據(jù)方面很有優(yōu)勢(shì)。但實(shí)際上NoSQL數(shù)據(jù)庫(kù)還有各種各樣的特點(diǎn),如果能夠恰當(dāng)?shù)乩眠@些特點(diǎn)將會(huì)是非常有幫助。具體的例子將會(huì)在第2章和第3章進(jìn)行介紹,這些用途將會(huì)讓你感受到利用NoSQL的好處。
希望順暢地對(duì)數(shù)據(jù)進(jìn)行緩存(Cache)處理
希望對(duì)數(shù)組類(lèi)型的數(shù)據(jù)進(jìn)行高速處理
希望進(jìn)行全部保存
多樣的NoSQL數(shù)據(jù)庫(kù)
NoSQL數(shù)據(jù)庫(kù)存在著“key-value存儲(chǔ)”、“文檔型數(shù)據(jù)庫(kù)”、“列存儲(chǔ)數(shù)據(jù)庫(kù)”等各種各樣的種類(lèi),每種數(shù)據(jù)庫(kù)又包含各自的特點(diǎn)。下一節(jié)讓我們一起來(lái)了解一下NoSQL數(shù)據(jù)庫(kù)的種類(lèi)和特點(diǎn)。
NoSQL數(shù)據(jù)庫(kù)是什么
NoSQL說(shuō)起來(lái)簡(jiǎn)單,但實(shí)際上到底有多少種呢?我在提筆的時(shí)候,到NoSQL的官方網(wǎng)站上確認(rèn)了一下,竟然已經(jīng)有122種了。另外官方網(wǎng)站上也介紹了本書(shū)沒(méi)有涉及到的圖形數(shù)據(jù)庫(kù)和對(duì)象數(shù)據(jù)庫(kù)等各個(gè)類(lèi)別。不知不覺(jué)間,原來(lái)已經(jīng)出現(xiàn)了這么多的NoSQL數(shù)據(jù)庫(kù)啊。
本節(jié)將為大家介紹具有代表性的NoSQL數(shù)據(jù)庫(kù)。
key-value存儲(chǔ)
這是最常見(jiàn)的NoSQL數(shù)據(jù)庫(kù),它的數(shù)據(jù)是以key-value的形式存儲(chǔ)的。雖然它的處理速度非???,但是基本上只能通過(guò)key的完全一致查詢獲取數(shù)據(jù)。根據(jù)數(shù)據(jù)的保存方式可以分為臨時(shí)性、永久性和兩者兼具三種。
臨時(shí)性
memcached屬于這種類(lèi)型。所謂臨時(shí)性就是 “數(shù)據(jù)有可能丟失”的意思。memcached把所有數(shù)據(jù)都保存在內(nèi)存中,這樣保存和讀取的速度非??欤钱?dāng)memcached停止的時(shí)候,數(shù)據(jù)就不存在了。由于數(shù)據(jù)保存在內(nèi)存中,所以無(wú)法操作超出內(nèi)存容量的數(shù)據(jù)(舊數(shù)據(jù)會(huì)丟失)。
在內(nèi)存中保存數(shù)據(jù)
可以進(jìn)行非常快速的保存和讀取處理
數(shù)據(jù)有可能丟失
永久性
Tokyo Tyrant、Flare、ROMA等屬于這種類(lèi)型。和臨時(shí)性相反,所謂永久性就是“數(shù)據(jù)不會(huì)丟失”的意思。這里的key-value存儲(chǔ)不像memcached那樣在內(nèi)存中保存數(shù)據(jù),而是把數(shù)據(jù)保存在硬盤(pán)上。與memcached在內(nèi)存中處理數(shù)據(jù)比起來(lái),由于必然要發(fā)生對(duì)硬盤(pán)的IO操作,所以性能上還是有差距的。但數(shù)據(jù)不會(huì)丟失是它最大的優(yōu)勢(shì)。
在硬盤(pán)上保存數(shù)據(jù)
可以進(jìn)行非??焖俚谋4婧妥x取處理(但無(wú)法與memcached相比)
數(shù)據(jù)不會(huì)丟失
兩者兼具
Redis屬于這種類(lèi)型。Redis有些特殊,臨時(shí)性和永久性兼具,且集合了臨時(shí)性key-value存儲(chǔ)和永久性key-value存儲(chǔ)的優(yōu)點(diǎn)。Redis首先把數(shù)據(jù)保存到內(nèi)存中,在滿足特定條件(默認(rèn)是15分鐘一次以上,5分鐘內(nèi)10個(gè)以上,1分鐘內(nèi)10000個(gè)以上的key發(fā)生變更)的時(shí)候?qū)?shù)據(jù)寫(xiě)入到硬盤(pán)中。這樣既確保了內(nèi)存中數(shù)據(jù)的處理速度,又可以通過(guò)寫(xiě)入硬盤(pán)來(lái)保證數(shù)據(jù)的永久性。這種類(lèi)型的數(shù)據(jù)庫(kù)特別適合于處理數(shù)組類(lèi)型的數(shù)據(jù)。
同時(shí)在內(nèi)存和硬盤(pán)上保存數(shù)據(jù)
可以進(jìn)行非??焖俚谋4婧妥x取處理
保存在硬盤(pán)上的數(shù)據(jù)不會(huì)消失(可以恢復(fù))
適合于處理數(shù)組類(lèi)型的數(shù)據(jù)
面向文檔的數(shù)據(jù)庫(kù)
MongoDB、CouchDB屬于這種類(lèi)型。它們屬于NoSQL數(shù)據(jù)庫(kù),但與key-value存儲(chǔ)相異。
不定義表結(jié)構(gòu)
面向文檔的數(shù)據(jù)庫(kù)具有以下特征:即使不定義表結(jié)構(gòu),也可以像定義了表結(jié)構(gòu)一樣使用。關(guān)系型數(shù)據(jù)庫(kù)在變更表結(jié)構(gòu)時(shí)比較費(fèi)事,而且為了保持一致性還需修改程序。然而NoSQL數(shù)據(jù)庫(kù)則可省去這些麻煩(通常程序都是正確的),確實(shí)是方便快捷。
可以使用復(fù)雜的查詢條件
跟key-value存儲(chǔ)不同的是,面向文檔的數(shù)據(jù)庫(kù)可以通過(guò)復(fù)雜的查詢條件來(lái)獲取數(shù)據(jù)。雖然不具備事務(wù)處理和JOIN這些關(guān)系型數(shù)據(jù)庫(kù)所具有的處理能力,但除此以外的其他處理基本上都能實(shí)現(xiàn)。這是非常容易使用的NoSQL數(shù)據(jù)庫(kù)。
不需要定義表結(jié)構(gòu)
可以利用復(fù)雜的查詢條件
面向列的數(shù)據(jù)庫(kù)
Cassandra、Hbase、HyperTable屬于這種類(lèi)型。由于近年來(lái)數(shù)據(jù)量出現(xiàn)爆發(fā)性增長(zhǎng),這種類(lèi)型的NoSQL數(shù)據(jù)庫(kù)尤其引人注目。
面向行的數(shù)據(jù)庫(kù)和面向列的數(shù)據(jù)庫(kù)
普通的關(guān)系型數(shù)據(jù)庫(kù)都是以行為單位來(lái)存儲(chǔ)數(shù)據(jù)的,擅長(zhǎng)進(jìn)行以行為單位的讀入處理,比如特定條件數(shù)據(jù)的獲取。因此,關(guān)系型數(shù)據(jù)庫(kù)也被稱為面向行的數(shù)據(jù)庫(kù)。相反,面向列的數(shù)據(jù)庫(kù)是以列為單位來(lái)存儲(chǔ)數(shù)據(jù)的,擅長(zhǎng)以列為單位讀入數(shù)據(jù)。
高擴(kuò)展性
面向列的數(shù)據(jù)庫(kù)具有高擴(kuò)展性,即使數(shù)據(jù)增加也不會(huì)降低相應(yīng)的處理速度(特別是寫(xiě)入速度),所以它主要應(yīng)用于需要處理大量數(shù)據(jù)的情況。另外,利用面向列的數(shù)據(jù)庫(kù)的優(yōu)勢(shì),把它作為批處理程序的存儲(chǔ)器來(lái)對(duì)大量數(shù)據(jù)進(jìn)行更新也是非常有用的。但由于面向列的數(shù)據(jù)庫(kù)跟現(xiàn)行數(shù)據(jù)庫(kù)存儲(chǔ)的思維方式有很大不同,應(yīng)用起來(lái)十分困難。
高擴(kuò)展性(特別是寫(xiě)入處理)
應(yīng)用十分困難
最近,像Twitter和Facebook這樣需要對(duì)大量數(shù)據(jù)進(jìn)行更新和查詢的網(wǎng)絡(luò)服務(wù)不斷增加,面向列的數(shù)據(jù)庫(kù)的優(yōu)勢(shì)對(duì)其中一些服務(wù)是非常有用的,但是由于這與本書(shū)所要介紹的內(nèi)容關(guān)系不大,就不進(jìn)行詳細(xì)介紹了。
總結(jié):
NoSQL并不是No-SQL,而是指Not Only SQL。
NoSQL的出現(xiàn)是為了彌補(bǔ)SQL數(shù)據(jù)庫(kù)因?yàn)槭聞?wù)等機(jī)制帶來(lái)的對(duì)海量數(shù)據(jù)、高并發(fā)請(qǐng)求的處理的性能上的欠缺。
NoSQL不是為了替代SQL而出現(xiàn)的,它是一種替補(bǔ)方案,而不是解決方案的首選。
絕大多數(shù)的NoSQL產(chǎn)品都是基于大內(nèi)存和高性能隨機(jī)讀寫(xiě)的(比如具有更高性能的固態(tài)硬盤(pán)陣列),一般的小型企業(yè)在選擇NoSQL時(shí)一定要慎重!不要為了NoSQL而NoSQL,可能會(huì)導(dǎo)致花了冤枉錢(qián)又耽擱了項(xiàng)目進(jìn)程。
NoSQL不是萬(wàn)能的,但在大型項(xiàng)目中,你往往需要它!
文檔數(shù)據(jù)庫(kù)
源起:受Lotus Notes啟發(fā)。
數(shù)據(jù)模型:包含了key-value的文檔集合
例子:CouchDB, MongoDB
優(yōu)點(diǎn):數(shù)據(jù)模型自然,編程友好,快速開(kāi)發(fā),web友好,CRUD。
圖數(shù)據(jù)庫(kù)
源起: 歐拉和圖理論。
數(shù)據(jù)模型:節(jié)點(diǎn)和關(guān)系,也可處理鍵值對(duì)。
例子:AllegroGraph, InfoGrid, Neo4j
優(yōu)點(diǎn):解決復(fù)雜的圖問(wèn)題。
關(guān)系數(shù)據(jù)庫(kù)
源起: E. F. Codd 在A Relational Model of Data for Large Shared Data Banks提出的
數(shù)據(jù)模型:各種關(guān)系
例子:VoltDB, Clustrix, MySQL
優(yōu)點(diǎn):高性能、可擴(kuò)展的OLTP,支持SQL,物化視圖,支持事務(wù),編程友好。
對(duì)象數(shù)據(jù)庫(kù)
源起:圖數(shù)據(jù)庫(kù)研究
數(shù)據(jù)模型:對(duì)象
例子:Objectivity, Gemstone
優(yōu)點(diǎn):復(fù)雜對(duì)象模型,快速鍵值訪問(wèn),鍵功能訪問(wèn),以及圖數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)。
Key-Value數(shù)據(jù)庫(kù)
源起:Amazon的論文 Dynamo 和 Distributed HashTables。
數(shù)據(jù)模型:鍵值對(duì)
例子:Membase, Riak
優(yōu)點(diǎn):處理大量數(shù)據(jù),快速處理大量讀寫(xiě)請(qǐng)求。編程友好。
BigTable類(lèi)型數(shù)據(jù)庫(kù)
源起:Google的論文 BigTable。
數(shù)據(jù)模型:列簇,每一行在理論上都是不同的
例子:HBase, Hypertable, Cassandra
優(yōu)點(diǎn):處理大量數(shù)據(jù),應(yīng)對(duì)極高寫(xiě)負(fù)載,高可用,支持跨數(shù)據(jù)中心, MapReduce。
數(shù)據(jù)結(jié)構(gòu)服務(wù)
源起: ?
數(shù)據(jù)模型:字典操作,lists, sets和字符串值
例子:Redis
優(yōu)點(diǎn):不同于以前的任何數(shù)據(jù)庫(kù)
網(wǎng)格數(shù)據(jù)庫(kù)
源起:數(shù)據(jù)網(wǎng)格和元組空間研究。
數(shù)據(jù)模型:基于空間的架構(gòu)
例子:GigaSpaces, Coherence
優(yōu)點(diǎn):適于事務(wù)處理的高性能和高擴(kuò)展性
在大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)信息處理技術(shù)也面臨新的挑戰(zhàn),要求計(jì)算機(jī)信息處理技術(shù)必須不斷的更新發(fā)展,以能夠?qū)Ξ?dāng)前的計(jì)算機(jī)信息處理需求滿足。下面是我給大家推薦的計(jì)算機(jī)與大數(shù)據(jù)的相關(guān)論文,希望大家喜歡!
計(jì)算機(jī)與大數(shù)據(jù)的相關(guān)論文篇一
淺談“大數(shù)據(jù)”時(shí)代的計(jì)算機(jī)信息處理技術(shù)
[摘 要]在大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)信息處理技術(shù)也面臨新的挑戰(zhàn),要求計(jì)算機(jī)信息處理技術(shù)必須不斷的更新發(fā)展,以能夠?qū)Ξ?dāng)前的計(jì)算機(jī)信息處理需求滿足。本文重點(diǎn)分析大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)。
[關(guān)鍵詞]大數(shù)據(jù)時(shí)代;計(jì)算機(jī);信息處理技術(shù)
在科學(xué)技術(shù)迅速發(fā)展的當(dāng)前,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),大數(shù)據(jù)時(shí)代已經(jīng)占領(lǐng)了整個(gè)環(huán)境,它對(duì)計(jì)算機(jī)的信息處理技術(shù)產(chǎn)生了很大的影響。計(jì)算機(jī)在短短的幾年內(nèi),從稀少到普及,使人們的生活有了翻天覆地的變化,計(jì)算機(jī)的快速發(fā)展和應(yīng)用使人們走進(jìn)了大數(shù)據(jù)時(shí)代,這就要求對(duì)計(jì)算機(jī)信息處理技術(shù)應(yīng)用時(shí),則也就需要在之前基礎(chǔ)上對(duì)技術(shù)實(shí)施創(chuàng)新,優(yōu)化結(jié)構(gòu)處理,從而讓計(jì)算機(jī)數(shù)據(jù)更符合當(dāng)前時(shí)代發(fā)展。
一、大數(shù)據(jù)時(shí)代信息及其傳播特點(diǎn)
自從“大數(shù)據(jù)”時(shí)代的到來(lái),人們的信息接收量有明顯加大,在信息傳播中也出現(xiàn)傳播速度快、數(shù)據(jù)量大以及多樣化等特點(diǎn)。其中數(shù)據(jù)量大是目前信息最顯著的特點(diǎn),隨著時(shí)間的不斷變化計(jì)算機(jī)信息處理量也有顯著加大,只能夠用海量還對(duì)當(dāng)前信息數(shù)量之大形容;傳播速度快也是當(dāng)前信息的主要特點(diǎn),計(jì)算機(jī)在信息傳播中傳播途徑相當(dāng)廣泛,傳播速度也相當(dāng)驚人,1s內(nèi)可以完成整個(gè)信息傳播任務(wù),具有較高傳播效率。在傳播信息過(guò)程中,還需要實(shí)施一定的信息處理,在此過(guò)程中則需要應(yīng)用相應(yīng)的信息處理工具,實(shí)現(xiàn)對(duì)信息的專門(mén)處理,隨著目前信息處理任務(wù)的不斷加強(qiáng),信息處理工具也有不斷的進(jìn)行創(chuàng)新[1];信息多樣化,則也就是目前數(shù)據(jù)具有多種類(lèi)型,在龐大的數(shù)據(jù)庫(kù)中,信息以不同的類(lèi)型存在著,其中包括有文字、圖片、視頻等等。這些信息類(lèi)型的格式也在不斷發(fā)生著變化,從而進(jìn)一步提高了計(jì)算機(jī)信息處理難度。目前計(jì)算機(jī)的處理能力、打印能力等各項(xiàng)能力均有顯著提升,尤其是當(dāng)前軟件技術(shù)的迅速發(fā)展,進(jìn)一步提高了計(jì)算機(jī)應(yīng)用便利性。微電子技術(shù)的發(fā)展促進(jìn)了微型計(jì)算機(jī)的應(yīng)用發(fā)展,進(jìn)一步強(qiáng)化了計(jì)算機(jī)應(yīng)用管理?xiàng)l件。
大數(shù)據(jù)信息不但具有較大容量,同時(shí)相對(duì)于傳統(tǒng)數(shù)據(jù)來(lái)講進(jìn)一步增強(qiáng)了信息間關(guān)聯(lián)性,同時(shí)關(guān)聯(lián)結(jié)構(gòu)也越來(lái)越復(fù)雜,導(dǎo)致在進(jìn)行信息處理中需要面臨新的難度。在 網(wǎng)絡(luò)技術(shù) 發(fā)展中重點(diǎn)集中在傳輸結(jié)構(gòu)發(fā)展上,在這種情況下計(jì)算機(jī)必須要首先實(shí)現(xiàn)網(wǎng)絡(luò)傳輸結(jié)構(gòu)的開(kāi)放性設(shè)定,從而打破之前計(jì)算機(jī)信息處理中,硬件所具有的限制作用。因?yàn)樵诋?dāng)前計(jì)算機(jī)網(wǎng)絡(luò)發(fā)展中還存在一定的不足,在完成云計(jì)算機(jī)網(wǎng)絡(luò)構(gòu)建之后,才能夠在信息處理過(guò)程中,真正的實(shí)現(xiàn)收放自如[2]。
二、大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)
(一)數(shù)據(jù)收集和傳播技術(shù)
現(xiàn)在人們通過(guò)電腦也就可以接收到不同的信息類(lèi)型,但是在進(jìn)行信息發(fā)布之前,工作人員必須要根據(jù)需要采用信息處理技術(shù)實(shí)施相應(yīng)的信息處理。計(jì)算機(jī)采用信息處理技術(shù)實(shí)施信息處理,此過(guò)程具有一定復(fù)雜性,首先需要進(jìn)行數(shù)據(jù)收集,在將相關(guān)有效信息收集之后首先對(duì)這些信息實(shí)施初步分析,完成信息的初級(jí)操作處理,總體上來(lái)說(shuō)信息處理主要包括:分類(lèi)、分析以及整理。只有將這三步操作全部都完成之后,才能夠把這些信息完整的在計(jì)算機(jī)網(wǎng)絡(luò)上進(jìn)行傳播,讓用戶依照自己的實(shí)際需求篩選滿足自己需求的信息,借助于計(jì)算機(jī)傳播特點(diǎn)將信息數(shù)據(jù)的閱讀價(jià)值有效的實(shí)現(xiàn)。
(二)信息存儲(chǔ)技術(shù)
在目前計(jì)算機(jī)網(wǎng)絡(luò)中出現(xiàn)了很多視頻和虛擬網(wǎng)頁(yè)等內(nèi)容,隨著人們信息接收量的不斷加大,對(duì)信息儲(chǔ)存空間也有較大需求,這也就是對(duì)計(jì)算機(jī)信息存儲(chǔ)技術(shù)提供了一個(gè)新的要求。在數(shù)據(jù)存儲(chǔ)過(guò)程中,已經(jīng)出現(xiàn)一系列存儲(chǔ)空間無(wú)法滿足當(dāng)前存儲(chǔ)要求,因此必須要對(duì)當(dāng)前計(jì)算機(jī)存儲(chǔ)技術(shù)實(shí)施創(chuàng)新發(fā)展。一般來(lái)講計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)空間可以對(duì)當(dāng)前用戶關(guān)于不同信息的存儲(chǔ)需求滿足,但是也有一部分用戶對(duì)于計(jì)算機(jī)存儲(chǔ)具有較高要求,在這種情況下也就必須要提高計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)性能[3],從而為計(jì)算機(jī)存儲(chǔ)效率提供有效保障。因此可以在大數(shù)據(jù)存儲(chǔ)特點(diǎn)上完成計(jì)算機(jī)信息新存儲(chǔ)方式,不但可以有效的滿足用戶信息存儲(chǔ)需求,同時(shí)還可以有效的保障普通儲(chǔ)存空間不會(huì)出現(xiàn)被大數(shù)據(jù)消耗問(wèn)題。
(三)信息安全技術(shù)
大量數(shù)據(jù)信息在計(jì)算機(jī)技術(shù)發(fā)展過(guò)程中的出現(xiàn),導(dǎo)致有一部分信息內(nèi)容已經(jīng)出現(xiàn)和之前信息形式的偏移,構(gòu)建出一些新的計(jì)算機(jī)信息關(guān)聯(lián)結(jié)構(gòu),同時(shí)具有非常強(qiáng)大的數(shù)據(jù)關(guān)聯(lián)性,從而也就導(dǎo)致在計(jì)算機(jī)信息處理中出現(xiàn)了新的問(wèn)題,一旦在信息處理過(guò)程中某個(gè)信息出現(xiàn)問(wèn)題,也就會(huì)導(dǎo)致與之關(guān)聯(lián)緊密的數(shù)據(jù)出現(xiàn)問(wèn)題。在實(shí)施相應(yīng)的計(jì)算機(jī)信息管理的時(shí)候,也不像之前一樣直接在單一數(shù)據(jù)信息之上建立,必須要實(shí)現(xiàn)整個(gè)數(shù)據(jù)庫(kù)中所有將數(shù)據(jù)的統(tǒng)一安全管理。從一些角度分析,這種模式可以對(duì)計(jì)算機(jī)信息處理技術(shù)水平有顯著提升,并且也為計(jì)算機(jī)信息處理技術(shù)發(fā)展指明了方向,但是因?yàn)樵谟?jì)算機(jī)硬件中存在一定的性能不足,也就導(dǎo)致在大數(shù)據(jù)信息安全管理中具有一定難度。想要為數(shù)據(jù)安全提供有效保障,就必須要注重?cái)?shù)據(jù)安全技術(shù)管理技術(shù)的發(fā)展。加強(qiáng)當(dāng)前信息安全體系建設(shè),另外也必須要對(duì)計(jì)算機(jī)信息管理人員專業(yè)水平進(jìn)行培養(yǎng),提高管理人員專業(yè)素質(zhì)和專業(yè)能力,從而更好的滿足當(dāng)前網(wǎng)絡(luò)信息管理體系發(fā)展需求,同時(shí)也要加強(qiáng)關(guān)于安全技術(shù)的全面深入研究工作[4]。目前在大數(shù)據(jù)時(shí)代下計(jì)算機(jī)信息安全管理技術(shù)發(fā)展還不夠成熟,對(duì)于大量的信息還不能夠?qū)嵤┤娴陌踩詸z測(cè),因此在未來(lái)計(jì)算機(jī)信息技術(shù)研究中安全管理屬于重點(diǎn)方向。但是因?yàn)槟壳斑€沒(méi)有構(gòu)建完善的計(jì)算機(jī)安全信息管理體系,因此首先應(yīng)該強(qiáng)化關(guān)于計(jì)算機(jī)重點(diǎn)信息的安全管理,這些信息一旦發(fā)生泄漏,就有可能會(huì)導(dǎo)致出現(xiàn)非常嚴(yán)重的損失。目前來(lái)看,這種 方法 具有一定可行性。
(四)信息加工、傳輸技術(shù)
在實(shí)施計(jì)算機(jī)信息數(shù)據(jù)處理和傳輸過(guò)程中,首先需要完成數(shù)據(jù)采集,同時(shí)還要實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)信息源,在數(shù)據(jù)庫(kù)中將采集來(lái)的各種信息數(shù)據(jù)進(jìn)行存儲(chǔ),所有數(shù)據(jù)信息的第一步均是完成采集。其次才能夠?qū)@些采集來(lái)的信息進(jìn)行加工處理,通常來(lái)說(shuō)也就是各種分類(lèi)及加工。最后把已經(jīng)處理好的信息,通過(guò)數(shù)據(jù)傳送系統(tǒng)完整的傳輸?shù)娇蛻舳?,為用戶閱讀提供便利。
結(jié)語(yǔ):
在大數(shù)據(jù)時(shí)代下,計(jì)算機(jī)信息處理技術(shù)也存在一定的發(fā)展難度,從目前專業(yè)方面來(lái)看,還存在一些問(wèn)題無(wú)法解決,但是這些難題均蘊(yùn)含著信息技術(shù)發(fā)展的重要機(jī)遇。在當(dāng)前計(jì)算機(jī)硬件中,想要完成計(jì)算機(jī)更新也存在一定的難度,但是目前計(jì)算機(jī)未來(lái)的發(fā)展方向依舊是云計(jì)算網(wǎng)絡(luò),把網(wǎng)絡(luò)數(shù)據(jù)和計(jì)算機(jī)硬件數(shù)據(jù)兩者分開(kāi),也就有助于實(shí)現(xiàn)云計(jì)算機(jī)網(wǎng)絡(luò)的有效轉(zhuǎn)化。隨著科學(xué)技術(shù)的不斷發(fā)展相信在未來(lái)的某一天定能夠進(jìn)入到計(jì)算機(jī)信息處理的高速發(fā)展階段。
參考文獻(xiàn)
[1] 馮瀟婧.“大數(shù)據(jù)”時(shí)代背景下計(jì)算機(jī)信息處理技術(shù)的分析[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2014,(05):105+107.
[2] 詹少?gòu)?qiáng).基于“大數(shù)據(jù)”時(shí)代剖析計(jì)算機(jī)信息處理技術(shù)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014,(08):49-50.
[3] 曹婷.在信息網(wǎng)絡(luò)下計(jì)算機(jī)信息處理技術(shù)的安全性[J].民營(yíng)科技,2014, (12):89CNKI
[4] 申鵬.“大數(shù)據(jù)”時(shí)代的計(jì)算機(jī)信息處理技術(shù)初探[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2014,(21):109-110
計(jì)算機(jī)與大數(shù)據(jù)的相關(guān)論文篇二
試談?dòng)?jì)算機(jī)軟件技術(shù)在大數(shù)據(jù)時(shí)代的應(yīng)用
摘要:大數(shù)據(jù)的爆炸式增長(zhǎng)在大容量、多樣性和高增速方面,全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力;同時(shí),也為企業(yè)帶來(lái)了獲取更豐富、更深入和更準(zhǔn)確地洞察市場(chǎng)行為的大量機(jī)會(huì)。對(duì)企業(yè)而言,能夠從大數(shù)據(jù)中獲得全新價(jià)值的消息是令人振奮的。然而,如何從大數(shù)據(jù)中發(fā)掘出“真金白銀”則是一個(gè)現(xiàn)實(shí)的挑戰(zhàn)。這就要求采用一套全新的、對(duì)企業(yè)決策具有深遠(yuǎn)影響的解決方案。
關(guān)鍵詞:計(jì)算機(jī) 大數(shù)據(jù)時(shí)代 容量 準(zhǔn)確 價(jià)值 影響 方案
1 概述
自從計(jì)算機(jī)出現(xiàn)以后,傳統(tǒng)的計(jì)算工作已經(jīng)逐步被淘汰出去,為了在新的競(jìng)爭(zhēng)與挑戰(zhàn)中取得勝利,許多網(wǎng)絡(luò)公司開(kāi)始致力于數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)庫(kù)的研究,為互聯(lián)網(wǎng)用戶提供各種服務(wù)。隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)已經(jīng)開(kāi)始被人們廣泛關(guān)注。一般來(lái)講,大數(shù)據(jù)指的是這樣的一種現(xiàn)象:互聯(lián)網(wǎng)在不斷運(yùn)營(yíng)過(guò)程中逐步壯大,產(chǎn)生的數(shù)據(jù)越來(lái)越多,甚至已經(jīng)達(dá)到了10億T。大數(shù)據(jù)時(shí)代的到來(lái)給計(jì)算機(jī)信息處理技術(shù)帶來(lái)了更多的機(jī)遇和挑戰(zhàn),隨著科技的發(fā)展,計(jì)算機(jī)信息處理技術(shù)一定會(huì)越來(lái)越完善,為我們提供更大的方便。
大數(shù)據(jù)是IT行業(yè)在云計(jì)算和物聯(lián)網(wǎng)之后的又一次技術(shù)變革,在企業(yè)的管理、國(guó)家的治理和人們的生活方式等領(lǐng)域都造成了巨大的影響。大數(shù)據(jù)將網(wǎng)民與消費(fèi)的界限和企業(yè)之間的界限變得模糊,在這里,數(shù)據(jù)才是最核心的資產(chǎn),對(duì)于企業(yè)的運(yùn)營(yíng)模式、組織結(jié)構(gòu)以及 文化 塑造中起著很大的作用。所有的企業(yè)在大數(shù)據(jù)時(shí)代都將面對(duì)戰(zhàn)略、組織、文化、公共關(guān)系和人才培養(yǎng)等許多方面的挑戰(zhàn),但是也會(huì)迎來(lái)很大的機(jī)遇,因?yàn)橹皇亲鳛橐环N共享的公共網(wǎng)絡(luò)資源,其層次化和商業(yè)化不但會(huì)為其自身發(fā)展帶來(lái)新的契機(jī),而且良好的服務(wù)品質(zhì)更會(huì)讓其充分具有獨(dú)創(chuàng)性和專用性的鮮明特點(diǎn)。所以,知識(shí)層次化和商業(yè)化勢(shì)必會(huì)開(kāi)啟知識(shí)創(chuàng)造的嶄新時(shí)代??梢?jiàn),這是一個(gè)競(jìng)爭(zhēng)與機(jī)遇并存的時(shí)代。
2 大數(shù)據(jù)時(shí)代的數(shù)據(jù)整合應(yīng)用
自從2013年,大數(shù)據(jù)應(yīng)用帶來(lái)令人矚目的成績(jī),不僅國(guó)內(nèi)外的產(chǎn)業(yè)界與科技界,還有各國(guó)政府部門(mén)都在積極布局、制定戰(zhàn)略規(guī)劃。更多的機(jī)構(gòu)和企業(yè)都準(zhǔn)備好了迎接大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)的內(nèi)涵應(yīng)是數(shù)據(jù)的資產(chǎn)化和服務(wù)化,而挖掘數(shù)據(jù)的內(nèi)在價(jià)值是研究大數(shù)據(jù)技術(shù)的最終目標(biāo)。在應(yīng)用數(shù)據(jù)快速增長(zhǎng)的背景下,為了降低成本獲得更好的能效,越來(lái)越趨向?qū)S没南到y(tǒng)架構(gòu)和數(shù)據(jù)處理技術(shù)逐漸擺脫傳統(tǒng)的通用技術(shù)體系。如何解決“通用”和“專用”體系和技術(shù)的取舍,以及如何解決數(shù)據(jù)資產(chǎn)化和價(jià)值挖掘問(wèn)題。
企業(yè)數(shù)據(jù)的應(yīng)用內(nèi)容涵蓋數(shù)據(jù)獲取與清理、傳輸、存儲(chǔ)、計(jì)算、挖掘、展現(xiàn)、開(kāi)發(fā)平臺(tái)與應(yīng)用市場(chǎng)等方面,覆蓋了數(shù)據(jù)生產(chǎn)的全生命周期。除了Hadoop版本2.0系統(tǒng)YARN,以及Spark等新型系統(tǒng)架構(gòu)介紹外,還將探討研究流式計(jì)算(Storm,Samza,Puma,S4等)、實(shí)時(shí)計(jì)算(Dremel,Impala,Drill)、圖計(jì)算(Pregel,Hama,Graphlab)、NoSQL、NewSQL和BigSQL等的最新進(jìn)展。在大數(shù)據(jù)時(shí)代,借力計(jì)算機(jī)智能(MI)技術(shù),通過(guò)更透明、更可用的數(shù)據(jù),企業(yè)可以釋放更多蘊(yùn)含在數(shù)據(jù)中的價(jià)值。實(shí)時(shí)、有效的一線質(zhì)量數(shù)據(jù)可以更好地幫助企業(yè)提高產(chǎn)品品質(zhì)、降低生產(chǎn)成本。企業(yè)領(lǐng)導(dǎo)者也可根據(jù)真實(shí)可靠的數(shù)據(jù)制訂正確戰(zhàn)略經(jīng)營(yíng)決策,讓企業(yè)真正實(shí)現(xiàn)高度的計(jì)算機(jī)智能決策辦公,下面我們從通信和商業(yè)運(yùn)營(yíng)兩個(gè)方面進(jìn)行闡述。
2.1 通信行業(yè):XO Communications通過(guò)使用IBM SPSS預(yù)測(cè)分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測(cè)客戶的行為,發(fā)現(xiàn)行為趨勢(shì),并找出存在缺陷的環(huán)節(jié),從而幫助公司及時(shí)采取 措施 ,保留客戶。此外,IBM新的Netezza網(wǎng)絡(luò)分析加速器,將通過(guò)提供單個(gè)端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴(kuò)展平臺(tái),幫助通信企業(yè)制定更科學(xué)、合理決策。電信業(yè)者透過(guò)數(shù)以千萬(wàn)計(jì)的客戶資料,能分析出多種使用者行為和趨勢(shì),賣(mài)給需要的企業(yè),這是全新的資料經(jīng)濟(jì)。中國(guó)移動(dòng)通過(guò)大數(shù)據(jù)分析,對(duì) 企業(yè)運(yùn)營(yíng) 的全業(yè)務(wù)進(jìn)行針對(duì)性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時(shí)間自動(dòng)捕捉市場(chǎng)變化,再以最快捷的方式推送給指定負(fù)責(zé)人,使他在最短時(shí)間內(nèi)獲知市場(chǎng)行情。
2.2 商業(yè)運(yùn)營(yíng):辛辛那提動(dòng)物園使用了Cognos,為iPad提供了單一視圖查看管理即時(shí)訪問(wèn)的游客和商務(wù)信息的服務(wù)。借此,動(dòng)物園可以獲得新的收入來(lái)源和提高營(yíng)收,并根據(jù)這些信息及時(shí)調(diào)整營(yíng)銷(xiāo)政策。數(shù)據(jù)收集和分析工具能夠幫助銀行設(shè)立最佳網(wǎng)點(diǎn),確定最好的網(wǎng)點(diǎn)位置,幫助這個(gè)銀行更好地運(yùn)作業(yè)務(wù),推動(dòng)業(yè)務(wù)的成長(zhǎng)。
3 企業(yè)信息解決方案在大數(shù)據(jù)時(shí)代的應(yīng)用
企業(yè)信息管理軟件廣泛應(yīng)用于解決欺詐偵測(cè)、雇員流動(dòng)、客戶獲取與維持、網(wǎng)絡(luò)銷(xiāo)售、市場(chǎng)細(xì)分、風(fēng)險(xiǎn)分析、親和性分析、客戶滿意度、破產(chǎn)預(yù)測(cè)和投資組合分析等多樣化問(wèn)題。根據(jù)大數(shù)據(jù)時(shí)代的企業(yè)挖掘的特征,提出了數(shù)據(jù)挖掘的SEMMA方法論――在SAS/EM環(huán)境中,數(shù)據(jù)挖掘過(guò)程被劃分為Sample、Explore、Modify、Model、Assess這五個(gè)階段,簡(jiǎn)記為SEMMA:
3.1 Sample 抽取一些代表性的樣本數(shù)據(jù)集(通常為訓(xùn)練集、驗(yàn)證集和測(cè)試集)。樣本容量的選擇標(biāo)準(zhǔn)為:包含足夠的重要信息,同時(shí)也要便于分析操作。該步驟涉及的處理工具為:數(shù)據(jù)導(dǎo)入、合并、粘貼、過(guò)濾以及統(tǒng)計(jì)抽樣方法。
3.2 Explore 通過(guò)考察關(guān)聯(lián)性、趨勢(shì)性以及異常值的方式來(lái)探索數(shù)據(jù),增進(jìn)對(duì)于數(shù)據(jù)的認(rèn)識(shí)。該步驟涉及的工具為:統(tǒng)計(jì) 報(bào)告 、視圖探索、變量選擇以及變量聚類(lèi)等方法。
3.3 Modify 以模型選擇為目標(biāo),通過(guò)創(chuàng)建、選擇以及轉(zhuǎn)換變量的方式來(lái)修改數(shù)據(jù)集。該步驟涉及工具為:變量轉(zhuǎn)換、缺失處理、重新編碼以及數(shù)據(jù)分箱等。
3.4 Model 為了獲得可靠的預(yù)測(cè)結(jié)果,我們需要借助于分析工具來(lái)訓(xùn)練統(tǒng)計(jì)模型或者機(jī)器學(xué)習(xí)模型。該步驟涉及技術(shù)為:線性及邏輯回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、偏最小二乘法、LARS及LASSO、K近鄰法以及其他用戶(包括非SAS用戶)的模型算法。
3.5 Assess 評(píng)估數(shù)據(jù)挖掘結(jié)果的有效性和可靠性。涉及技術(shù)為:比較模型及計(jì)算新的擬合統(tǒng)計(jì)量、臨界分析、決策支持、報(bào)告生成、評(píng)分代碼管理等。數(shù)據(jù)挖掘者可能不會(huì)使用全部SEMMA分析步驟。然而,在獲得滿意結(jié)果之前,可能需要多次重復(fù)其中部分或者全部步驟。
在完成SEMMA步驟后,可將從優(yōu)選模型中獲取的評(píng)分公式應(yīng)用于(可能不含目標(biāo)變量的)新數(shù)據(jù)。將優(yōu)選公式應(yīng)用于新數(shù)據(jù),這是大多數(shù)數(shù)據(jù)挖掘問(wèn)題的目標(biāo)。此外,先進(jìn)的可視化工具使得用戶能在多維直方圖中快速、輕松地查閱大量數(shù)據(jù)并以圖形化方式比較模擬結(jié)果。SAS/EM包括了一些非同尋常的工具,比如:能用來(lái)產(chǎn)生數(shù)據(jù)挖掘流程圖的完整評(píng)分代碼(SAS、C以及Java代碼)的工具,以及交換式進(jìn)行新數(shù)據(jù)評(píng)分計(jì)算和考察執(zhí)行結(jié)果的工具。
如果您將優(yōu)選模型注冊(cè)進(jìn)入SAS元數(shù)據(jù)服務(wù)器,便可以讓SAS/EG和SAS/DI Studio的用戶分享您的模型,從而將優(yōu)選模型的評(píng)分代碼整合進(jìn)入 工作報(bào)告 和生產(chǎn)流程之中。SAS模型管理系統(tǒng),通過(guò)提供了開(kāi)發(fā)、測(cè)試和生產(chǎn)系列環(huán)境的項(xiàng)目管理結(jié)構(gòu),進(jìn)一步補(bǔ)充了數(shù)據(jù)挖掘過(guò)程,實(shí)現(xiàn)了與SAS/EM的無(wú)縫聯(lián)接。
在SAS/EM環(huán)境中,您可以從SEMMA工具欄上拖放節(jié)點(diǎn)進(jìn)入工作區(qū)的工藝流程圖中,這種流程圖驅(qū)動(dòng)著整個(gè)數(shù)據(jù)挖掘過(guò)程。SAS/EM的圖形用戶界面(GUI)是按照這樣的思路來(lái)設(shè)計(jì)的:一方面,掌握少量統(tǒng)計(jì)知識(shí)的商務(wù)分析者可以瀏覽數(shù)據(jù)挖掘過(guò)程的技術(shù)方法;另一方面,具備數(shù)量分析技術(shù)的專家可以用微調(diào)方式深入探索每一個(gè)分析節(jié)點(diǎn)。
4 結(jié)束語(yǔ)
在近十年時(shí)間里,數(shù)據(jù)采集、存儲(chǔ)和數(shù)據(jù)分析技術(shù)飛速發(fā)展,大大降低了數(shù)據(jù)儲(chǔ)存和處理的成本,一個(gè)大數(shù)據(jù)時(shí)代逐漸展現(xiàn)在我們的面前。大數(shù)據(jù)革新性地將海量數(shù)據(jù)處理變?yōu)榭赡?,并且大幅降低了成本,使得越?lái)越多跨專業(yè)學(xué)科的人投入到大數(shù)據(jù)的開(kāi)發(fā)應(yīng)用中來(lái)。
參考文獻(xiàn):
[1]薛志文.淺析計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)及其發(fā)展趨勢(shì)[J].信息與電腦,2009.
[2]張帆,朱國(guó)仲.計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)發(fā)展綜述[J].光盤(pán)技術(shù),2007.
[3]孫雅珍.計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)及其應(yīng)用[J].東北水利水電,1994.
[4]史萍.計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展及展望[J].五邑大學(xué)學(xué)報(bào),1999.
[5]桑新民.步入信息時(shí)代的學(xué)習(xí)理論與實(shí)踐[M].中央廣播大學(xué)出版社,2000.
[6]張浩,郭燦.數(shù)據(jù)可視化技術(shù)應(yīng)用趨勢(shì)與分類(lèi)研究[J].軟件導(dǎo)刊.
[7]王丹.數(shù)字城市與城市地理信息產(chǎn)業(yè)化――機(jī)遇與挑戰(zhàn)[J].遙感信息,2000(02).
[8]楊鳳霞.淺析 Excel 2000對(duì)數(shù)據(jù)的安全管理[J].湖北商業(yè)高等??茖W(xué)校學(xué)報(bào),2001(01).
計(jì)算機(jī)與大數(shù)據(jù)的相關(guān)論文篇三
淺談利用大數(shù)據(jù)推進(jìn)計(jì)算機(jī)審計(jì)的策略
[摘要]社會(huì)發(fā)展以及時(shí)代更新,在該種環(huán)境背景下大數(shù)據(jù)風(fēng)潮席卷全球,尤其是在進(jìn)入新時(shí)期之后數(shù)據(jù)方面處理技術(shù)更加成熟,各領(lǐng)域行業(yè)對(duì)此也給予了較高的關(guān)注,針對(duì)當(dāng)前計(jì)算機(jī)審計(jì)(英文簡(jiǎn)稱CAT)而言要想加速其發(fā)展腳步并將其質(zhì)量拔高就需要結(jié)合大數(shù)據(jù),依托于大數(shù)據(jù)實(shí)現(xiàn)長(zhǎng)足發(fā)展,本文基于此就大數(shù)據(jù)于CAT影響進(jìn)行著手分析,之后探討依托于大數(shù)據(jù)良好推進(jìn)CAT,以期為后續(xù)關(guān)于CAT方面研究提供理論上參考依據(jù)。
[關(guān)鍵詞]大數(shù)據(jù) 計(jì)算機(jī)審計(jì) 影響
前言:相較于網(wǎng)絡(luò)時(shí)代而言大數(shù)據(jù)風(fēng)潮一方面提供了共享化以及開(kāi)放化、深層次性資源,另一方面也促使信息管理具備精準(zhǔn)性以及高效性,走進(jìn)新時(shí)期CAT應(yīng)該融合于大數(shù)據(jù)風(fēng)潮中,相應(yīng)CAT人員也需要積極應(yīng)對(duì)大數(shù)據(jù)帶了的機(jī)遇和挑戰(zhàn),正面CAT工作,進(jìn)而促使CAT緊跟時(shí)代腳步。
一、初探大數(shù)據(jù)于CAT影響
1.1影響之機(jī)遇
大數(shù)據(jù)于CAT影響體現(xiàn)在為CAT帶來(lái)了較大發(fā)展機(jī)遇,具體來(lái)講,信息技術(shù)的更新以及其質(zhì)量的提升促使數(shù)據(jù)方面處理技術(shù)受到了眾多領(lǐng)域行業(yè)的喜愛(ài),當(dāng)前在數(shù)據(jù)技術(shù)推廣普及階段中呈現(xiàn)三大變化趨勢(shì):其一是大眾工作生活中涉及的數(shù)據(jù)開(kāi)始由以往的樣本數(shù)據(jù)實(shí)際轉(zhuǎn)化為全數(shù)據(jù)。其二是全數(shù)據(jù)產(chǎn)生促使不同數(shù)據(jù)間具備復(fù)雜內(nèi)部關(guān)系,而該種復(fù)雜關(guān)系從很大程度上也推動(dòng)工作效率以及數(shù)據(jù)精準(zhǔn)性日漸提升,尤其是數(shù)據(jù)間轉(zhuǎn)化關(guān)系等更為清晰明了。其三是大眾在當(dāng)前處理數(shù)據(jù)環(huán)節(jié)中更加關(guān)注數(shù)據(jù)之間關(guān)系研究,相較于以往僅僅關(guān)注數(shù)據(jù)因果有了較大進(jìn)步?;谏鲜鋈笞兓厔?shì),也深刻的代表著大眾對(duì)于數(shù)據(jù)處理的態(tài)度改變,尤其是在當(dāng)下海量數(shù)據(jù)生成背景下,人工審計(jì)具備較強(qiáng)滯后性,只有依托于大數(shù)據(jù)并發(fā)揮其優(yōu)勢(shì)才能真正滿足大眾需求,而這也是大數(shù)據(jù)對(duì)CAT帶來(lái)的重要發(fā)展機(jī)遇,更是促進(jìn)CAT在新時(shí)期得以穩(wěn)定發(fā)展重要手段。
1.2影響之挑戰(zhàn)
大數(shù)據(jù)于CAT影響還體現(xiàn)在為CAT帶來(lái)一定挑戰(zhàn),具體來(lái)講,審計(jì)評(píng)估實(shí)際工作質(zhì)量?jī)?yōu)劣依托于其中數(shù)據(jù)質(zhì)量,數(shù)據(jù)具備的高質(zhì)量則集中在可靠真實(shí)以及內(nèi)容詳細(xì)和相應(yīng)信息準(zhǔn)確三方面,而在CAT實(shí)際工作環(huán)節(jié)中常常由于外界環(huán)境以及人為因素導(dǎo)致數(shù)據(jù)質(zhì)量較低,如數(shù)據(jù)方面人為隨意修改刪除等等,而這些均是大數(shù)據(jù)環(huán)境背景下需要嚴(yán)格把控的重點(diǎn)工作內(nèi)容。
二、探析依托于大數(shù)據(jù)良好推進(jìn)CAT措施
2.1數(shù)據(jù)質(zhì)量的有效保障
依托于大數(shù)據(jù)良好推進(jìn)CAT措施集中在數(shù)據(jù)質(zhì)量有效保障上,對(duì)數(shù)據(jù)質(zhì)量予以有效保障需要從兩方面入手,其一是把控電子數(shù)據(jù)有效存儲(chǔ),簡(jiǎn)單來(lái)講就是信息存儲(chǔ),對(duì)電子信息進(jìn)行定期檢查,監(jiān)督數(shù)據(jù)實(shí)際傳輸,對(duì)信息系統(tǒng)予以有效確認(rèn)以及評(píng)估和相應(yīng)的測(cè)試等等,進(jìn)而將不合理數(shù)據(jù)及時(shí)發(fā)現(xiàn)并找出信息系統(tǒng)不可靠不準(zhǔn)確地方;其二是把控電子數(shù)據(jù)采集,通常電子數(shù)據(jù)具備多樣化采集方式,如將審計(jì)單位相應(yīng)數(shù)據(jù)庫(kù)直接連接采集庫(kù)進(jìn)而實(shí)現(xiàn)數(shù)據(jù)采集,該種直接采集需要備份初始傳輸數(shù)據(jù),避免數(shù)據(jù)采集之后相關(guān)人員隨意修改,更加可以與審計(jì)單位進(jìn)行數(shù)據(jù)采集真實(shí)性 承諾書(shū) 簽訂等等,最終通過(guò)電子數(shù)據(jù)方面采集以及存儲(chǔ)兩大內(nèi)容把控促使數(shù)據(jù)質(zhì)量更高,從而推動(dòng)CAT發(fā)展。
2.2公共數(shù)據(jù)平臺(tái)的建立
依托于大數(shù)據(jù)良好推進(jìn)CAT措施還集中在公共數(shù)據(jù)平臺(tái)的建立,建立公共化分析平臺(tái)一方面能夠?qū)⑺胁杉南嚓P(guān)數(shù)據(jù)予以集中化管理存儲(chǔ),更能夠予以多角度全方面有效分析;另一方面也能夠推動(dòng)CAT作業(yè)相關(guān)標(biāo)準(zhǔn)予以良好執(zhí)行。如果將分析模型看作是CAT作業(yè)標(biāo)準(zhǔn)以及相應(yīng)的核心技術(shù),則公共分析平臺(tái)則是標(biāo)準(zhǔn)執(zhí)行和相應(yīng)技術(shù)實(shí)現(xiàn)關(guān)鍵載體。依托于公共數(shù)據(jù)平臺(tái)不僅能夠?qū)⒒A(chǔ)的CAT工作實(shí)現(xiàn)便捷化以及統(tǒng)一化,而且深層次的實(shí)質(zhì)研究有利于CAT數(shù)據(jù)處理的高速性以及高效性,最終為推動(dòng)CAT發(fā)展起到重要影響作用。
2.3審計(jì)人員的強(qiáng)化培訓(xùn)
依托于大數(shù)據(jù)良好推進(jìn)CAT措施除了集中在上述兩方面之外,還集中在審計(jì)人員的強(qiáng)化培訓(xùn)上,具體來(lái)講,培訓(xùn)重點(diǎn)關(guān)注審計(jì)工作于計(jì)算機(jī)上的具 體操 作以及操作重點(diǎn)難點(diǎn),可以構(gòu)建統(tǒng)一培訓(xùn)平臺(tái),在該培訓(xùn)平臺(tái)中予以多元化資料的分享,聘請(qǐng)高技能豐富 經(jīng)驗(yàn) 人士予以平臺(tái)授課,提供專業(yè)技能知識(shí)溝通互動(dòng)等等機(jī)會(huì),最終通過(guò)強(qiáng)化培訓(xùn)提升審計(jì)人員綜合素質(zhì),更加推動(dòng)CAT未來(lái)發(fā)展。
三、結(jié)論
綜上分析可知,當(dāng)前大數(shù)據(jù)環(huán)境背景下CAT需要將日常工作予以不斷調(diào)整,依托于大數(shù)據(jù)促使審計(jì)人員得以素質(zhì)提升,并利用公共數(shù)據(jù)平臺(tái)建立和相應(yīng)的數(shù)據(jù)質(zhì)量保障促使CAT工作更加高效,而本文對(duì)依托于大數(shù)據(jù)良好推進(jìn)CAT進(jìn)行研究旨在為未來(lái)CAT優(yōu)化發(fā)展獻(xiàn)出自己的一份研究力量。
猜你喜歡:
1. 人工智能與大數(shù)據(jù)論文
2. 大數(shù)據(jù)和人工智能論文
3. 計(jì)算機(jī)大數(shù)據(jù)論文參考
4. 計(jì)算機(jī)有關(guān)大數(shù)據(jù)的應(yīng)用論文
5. 有關(guān)大數(shù)據(jù)應(yīng)用的論文
分布式領(lǐng)域論文譯序
sqlnosql年代記
SMAQ:海量數(shù)據(jù)的存儲(chǔ)計(jì)算和查詢
一.google論文系列
1. google系列論文譯序
2. The anatomy of a large-scale hypertextual Web search engine (譯 zz)
3. web search for a planet :the google cluster architecture(譯)
4. GFS:google文件系統(tǒng) (譯)
5. MapReduce: Simplied Data Processing on Large Clusters (譯)
6. Bigtable: A Distributed Storage System for Structured Data (譯)
7. Chubby: The Chubby lock service for loosely-coupled distributed systems (譯)
8. Sawzall:Interpreting the Data--Parallel Analysis with Sawzall (譯 zz)
9. Pregel: A System for Large-Scale Graph Processing (譯)
10. Dremel: Interactive Analysis of WebScale Datasets(譯zz)
11. Percolator: Large-scale Incremental Processing Using Distributed Transactions and Notifications(譯zz)
12. MegaStore: Providing Scalable, Highly Available Storage for Interactive Services(譯zz)
13. Case Study GFS: Evolution on Fast-forward (譯)
14. Google File System II: Dawn of the Multiplying Master Nodes
15. Tenzing - A SQL Implementation on the MapReduce Framework (譯)
16. F1-The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business
17. Elmo: Building a Globally Distributed, Highly Available Database
18. PowerDrill:Processing a Trillion Cells per Mouse Click
19. Google-Wide Profiling:A Continuous Profiling Infrastructure for Data Centers
20. Spanner: Google’s Globally-Distributed Database(譯zz)
21. Dapper, a Large-Scale Distributed Systems Tracing Infrastructure(筆記)
22. Omega: flexible, scalable schedulers for large compute clusters
23. CPI2: CPU performance isolation for shared compute clusters
24. Photon: Fault-tolerant and Scalable Joining of Continuous Data Streams(譯)
25. F1: A Distributed SQL Database That Scales
26. MillWheel: Fault-Tolerant Stream Processing at Internet Scale(譯)
27. B4: Experience with a Globally-Deployed Software Defined WAN
28. The Datacenter as a Computer
29. Google brain-Building High-level Features Using Large Scale Unsupervised Learning
30. Mesa: Geo-Replicated, Near Real-Time, Scalable Data Warehousing(譯zz)
31. Large-scale cluster management at Google with Borg
google系列論文翻譯集(合集)
二.分布式理論系列
00. Appraising Two Decades of Distributed Computing Theory Research
0. 分布式理論系列譯序
1. A brief history of Consensus_ 2PC and Transaction Commit (譯)
2. 拜占庭將軍問(wèn)題 (譯) --Leslie Lamport
3. Impossibility of distributed consensus with one faulty process (譯)
4. Leases:租約機(jī)制 (譯)
5. Time Clocks and the Ordering of Events in a Distributed System(譯) --Leslie Lamport
6. 關(guān)于Paxos的歷史
7. The Part Time Parliament (譯 zz) --Leslie Lamport
8. How to Build a Highly Available System Using Consensus(譯)
9. Paxos Made Simple (譯) --Leslie Lamport
10. Paxos Made Live - An Engineering Perspective(譯)
11. 2 Phase Commit(譯)
12. Consensus on Transaction Commit(譯) --Jim Gray Leslie Lamport
13. Why Do Computers Stop and What Can Be Done About It?(譯) --Jim Gray
14. On Designing and Deploying Internet-Scale Services(譯) --James Hamilton
15. Single-Message Communication(譯)
16. Implementing fault-tolerant services using the state machine approach
17. Problems, Unsolved Problems and Problems in Concurrency
18. Hints for Computer System Design
19. Self-stabilizing systems in spite of distributed control
20. Wait-Free Synchronization
21. White Paper Introduction to IEEE 1588 Transparent Clocks
22. Unreliable Failure Detectors for Reliable Distributed Systems
23. Life beyond Distributed Transactions:an Apostate’s Opinion(譯zz)
24. Distributed Snapshots: Determining Global States of a Distributed System --Leslie Lamport
25. Virtual Time and Global States of Distributed Systems
26. Timestamps in Message-Passing Systems That Preserve the Partial Ordering
27. Fundamentals of Distributed Computing:A Practical Tour of Vector Clock Systems
28. Knowledge and Common Knowledge in a Distributed Environment
29. Understanding Failures in Petascale Computers
30. Why Do Internet services fail, and What Can Be Done About It?
31. End-To-End Arguments in System Design
32. Rethinking the Design of the Internet: The End-to-End Arguments vs. the Brave New World
33. The Design Philosophy of the DARPA Internet Protocols(譯zz)
34. Uniform consensus is harder than consensus
35. Paxos made code - Implementing a high throughput Atomic Broadcast
36. RAFT:In Search of an Understandable Consensus Algorithm
分布式理論系列論文翻譯集(合集)
三.?dāng)?shù)據(jù)庫(kù)理論系列
0. A Relational Model of Data for Large Shared Data Banks --E.F.Codd 1970
1. SEQUEL:A Structured English Query Language 1974
2. Implentation of a Structured English Query Language 1975
3. A System R: Relational Approach to Database Management 1976
4. Granularity of Locks and Degrees of Consistency in a Shared DataBase --Jim Gray 1976
5. Access Path Selection in a RDBMS 1979
6. The Transaction Concept:Virtues and Limitations --Jim Gray
7. 2pc-2階段提交:Notes on Data Base Operating Systems --Jim Gray
8. 3pc-3階段提交:NONBLOCKING COMMIT PROTOCOLS
9. MVCC:Multiversion Concurrency Control-Theory and Algorithms --1983
10. ARIES: A Transaction Recovery Method Supporting Fine-Granularity Locking and Partial Rollbacks Using Write-Ahead Logging-1992
11. A Comparison of the Byzantine Agreement Problem and the Transaction Commit Problem --Jim Gray
12. A Formal Model of Crash Recovery in a Distributed System - Skeen, D. Stonebraker
13. What Goes Around Comes Around - Michael Stonebraker, Joseph M. Hellerstein
14. Anatomy of a Database System -Joseph M. Hellerstein, Michael Stonebraker
15. Architecture of a Database System(譯zz) -Joseph M. Hellerstein, Michael Stonebraker, James Hamilton
四.大規(guī)模存儲(chǔ)與計(jì)算(NoSql理論系列)
0. Towards Robust Distributed Systems:Brewer's 2000 PODC key notes
1. CAP理論
2. Harvest, Yield, and Scalable Tolerant Systems
3. 關(guān)于CAP
4. BASE模型:BASE an Acid Alternative
5. 最終一致性
6. 可擴(kuò)展性設(shè)計(jì)模式
7. 可伸縮性原則
8. NoSql生態(tài)系統(tǒng)
9. scalability-availability-stability-patterns
10. The 5 Minute Rule and the 5 Byte Rule (譯)
11. The Five-Minute Rule Ten Years Later and Other Computer Storage Rules of Thumb
12. The Five-Minute Rule 20 Years Later(and How Flash Memory Changes the Rules)
13. 關(guān)于MapReduce的爭(zhēng)論
14. MapReduce:一個(gè)巨大的倒退
15. MapReduce:一個(gè)巨大的倒退(II)
16. MapReduce和并行數(shù)據(jù)庫(kù),朋友還是敵人?(zz)
17. MapReduce and Parallel DBMSs-Friends or Foes (譯)
18. MapReduce:A Flexible Data Processing Tool (譯)
19. A Comparision of Approaches to Large-Scale Data Analysis (譯)
20. MapReduce Hold不?。?zz)
21. Beyond MapReduce:圖計(jì)算概覽
22. Map-Reduce-Merge: simplified relational data processing on large clusters
23. MapReduce Online
24. Graph Twiddling in a MapReduce World
25. Spark: Cluster Computing with Working Sets
26. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing
27. Big Data Lambda Architecture
28. The 8 Requirements of Real-Time Stream Processing
29. The Log: What every software engineer should know about real-time data's unifying abstraction
30. Lessons from Giant-Scale Services
五.基本算法和數(shù)據(jù)結(jié)構(gòu)
1. 大數(shù)據(jù)量,海量數(shù)據(jù)處理方法總結(jié)
2. 大數(shù)據(jù)量,海量數(shù)據(jù)處理方法總結(jié)(續(xù))
3. Consistent Hashing And Random Trees
4. Merkle Trees
5. Scalable Bloom Filters
6. Introduction to Distributed Hash Tables
7. B-Trees and Relational Database Systems
8. The log-structured merge-tree (譯)
9. lock free data structure
10. Data Structures for Spatial Database
11. Gossip
12. lock free algorithm
13. The Graph Traversal Pattern
六.基本系統(tǒng)和實(shí)踐經(jīng)驗(yàn)
1. MySQL索引背后的數(shù)據(jù)結(jié)構(gòu)及算法原理
2. Dynamo: Amazon’s Highly Available Key-value Store (譯zz)
3. Cassandra - A Decentralized Structured Storage System (譯zz)
4. PNUTS: Yahoo!’s Hosted Data Serving Platform (譯zz)
5. Yahoo!的分布式數(shù)據(jù)平臺(tái)PNUTS簡(jiǎn)介及感悟(zz)
6. LevelDB:一個(gè)快速輕量級(jí)的key-value存儲(chǔ)庫(kù)(譯)
7. LevelDB理論基礎(chǔ)
8. LevelDB:實(shí)現(xiàn)(譯)
9. LevelDB SSTable格式詳解
10. LevelDB Bloom Filter實(shí)現(xiàn)
11. Sawzall原理與應(yīng)用
12. Storm原理與實(shí)現(xiàn)
13. Designs, Lessons and Advice from Building Large Distributed Systems --Jeff Dean
14. Challenges in Building Large-Scale Information Retrieval Systems --Jeff Dean
15. Experiences with MapReduce, an Abstraction for Large-Scale Computation --Jeff Dean
16. Taming Service Variability,Building Worldwide Systems,and Scaling Deep Learning --Jeff Dean
17. Large-Scale Data and Computation:Challenges and Opportunitis --Jeff Dean
18. Achieving Rapid Response Times in Large Online Services --Jeff Dean
19. The Tail at Scale(譯) --Jeff Dean Luiz André Barroso
20. How To Design A Good API and Why it Matters
21. Event-Based Systems:Architect's Dream or Developer's Nightmare?
22. Autopilot: Automatic Data Center Management
七.其他輔助系統(tǒng)
1. The ganglia distributed monitoring system:design, implementation, and experience
2. Chukwa: A large-scale monitoring system
3. Scribe : a way to aggregate data and why not, to directly fill the HDFS?
4. Benchmarking Cloud Serving Systems with YCSB
5. Dynamo Dremel ZooKeeper Hive 簡(jiǎn)述
八. Hadoop相關(guān)
0. Hadoop Reading List
1. The Hadoop Distributed File System(譯)
2. HDFS scalability:the limits to growth(譯)
3. Name-node memory size estimates and optimization proposal.
4. HBase Architecture(譯)
5. HFile:A Block-Indexed File Format to Store Sorted Key-Value Pairs
6. HFile V2
7. Hive - A Warehousing Solution Over a Map-Reduce Framework
8. Hive – A Petabyte Scale Data Warehouse Using Hadoop
轉(zhuǎn)載請(qǐng)注明作者:phylips@bmy 2011-4-30