全球最具影響力的大數(shù)據(jù)企業(yè)排行榜
成武網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)!從網(wǎng)頁設計、網(wǎng)站建設、微信開發(fā)、APP開發(fā)、響應式網(wǎng)站開發(fā)等網(wǎng)站項目制作,到程序開發(fā),運營維護。創(chuàng)新互聯(lián)自2013年創(chuàng)立以來到現(xiàn)在10年的時間,我們擁有了豐富的建站經(jīng)驗和運維經(jīng)驗,來保證我們的工作的順利進行。專注于網(wǎng)站建設就選創(chuàng)新互聯(lián)。
目前全球大數(shù)據(jù)企業(yè)主要分為兩大陣營。一部分屬于單純以大數(shù)據(jù)技術為核心的新興企業(yè),希望為市場帶來創(chuàng)新方案并推動技術發(fā)展。另有一些原本打理數(shù)據(jù)庫/數(shù)據(jù)倉儲業(yè)務的老牌廠商,他們打算利用自身優(yōu)勢地位沖擊大數(shù)據(jù)領域,將現(xiàn)有安裝基礎及產(chǎn)品線口碑推廣到新一輪技術浪潮當中。下面我們就一起來看今天的十五家大數(shù)據(jù)企業(yè)名單,其中十家早已名滿天下、另外五家則屬初來乍到。
1、IBM
根據(jù)Wikibon發(fā)布的報告,作為2012年大數(shù)據(jù)業(yè)務營收成績最好的公司,IBM過去一年從大數(shù)據(jù)相關產(chǎn)品及服務中獲得了13億美元收益。其具體產(chǎn)品包括服務器與存儲硬件、數(shù)據(jù)庫軟件、分析應用程序以及相關服務等。在IBM圍繞大數(shù)據(jù)開發(fā)出的產(chǎn)品中,DB2、Informix與InfoSphere數(shù)據(jù)庫平臺、Cognos與SPSS分析應用可謂最為知名。IBM同時也為Hadoop開源數(shù)據(jù)分析平臺提供支持。
2、惠普
惠普在2012年獲得的大數(shù)據(jù)營收名列第二,總值為6.64億美元。這家供應商還提供與之相關的硬件、軟件以及服務,其最為知名的方案當數(shù)Vertica分析平臺。
3、Teradata
Teradata在2012年獲得全球第三大大數(shù)據(jù)廠商頭銜,其營收總額達4.35億美元。Teradata憑借自家硬件平臺、數(shù)據(jù)庫以及分析軟件而聲名遠播。它同時針對零售及運輸行業(yè)推出了專門的分析工具。
4、甲骨文
盡管在大家眼中,甲骨文一直以其冠絕群雄的數(shù)據(jù)庫產(chǎn)品聞名,但事實上他們也是大數(shù)據(jù)領域的主要競逐者之一。其甲骨文大數(shù)據(jù)設備將英特爾服務器、Cloudera Hadoop發(fā)行版以及甲骨文的NoSQL數(shù)據(jù)庫結合到了一起。2012年甲骨文名列大數(shù)據(jù)企業(yè)榜單第五位,營收總額為4.15億美元。
5、SAP
SAP推出了一系列分析工具,但其中知名度最高的當數(shù)其HANA內(nèi)存內(nèi)數(shù)據(jù)庫。2012年該公司在大數(shù)據(jù)企業(yè)競爭中位居第六,營收總額為3.68億美元。
6、EMC
EMC一方面幫助客戶保存并分析大數(shù)據(jù),另外也充當著大數(shù)據(jù)分析智囊“營銷科學實驗室”的所在地——這家實驗室專門分析營銷類數(shù)據(jù)。EMC推出的最新爆炸性消息是與VMware及通用電氣一道支持Pivotal公司。Pivotal將對Hadoop與EMC的Greenplum數(shù)據(jù)庫與HAWQ查詢工具進行整合。EMC在2012年的大數(shù)據(jù)企業(yè)排行榜中位列第七,營收總額為3.36億美元。
7、Amazon
Amazon向來以企業(yè)云平臺聞名于世,但同時也推出過一系列大數(shù)據(jù)產(chǎn)品,其中包括基于Hadoop的Elastic MapReduce、DynamoDB大數(shù)據(jù)數(shù)據(jù)庫以及能夠與Amazon Web Services順利協(xié)作的Redshift規(guī)?;⑿袛?shù)據(jù)倉儲方案。
8、微軟
微軟的大數(shù)據(jù)發(fā)展戰(zhàn)略可謂雄心勃勃,包括與Hortonworks建立合作關系、建立一家大數(shù)據(jù)新興企業(yè)以及推出基于Hortonworks數(shù)據(jù)平臺的HDInsights工具。微軟的SQL Server數(shù)據(jù)庫也頗具知名度,且于2012年的大數(shù)據(jù)企業(yè)比拼之中位列第九,營收總額為1.96億美元。
9、谷歌
谷歌公司推出的大數(shù)據(jù)產(chǎn)品包括BigQuery——一款基于云的大數(shù)據(jù)分析平臺。該公司在過去一年中拿下3600萬美元大數(shù)據(jù)營收。
10、VMware
VMware向來以云計算及虛擬化解決方案著稱,不過近來也開始逐步踏入大數(shù)據(jù)領域。今年六月虛擬巨頭公布的VMware vSphere大數(shù)據(jù)擴展版就很說明問題,這套方案使得vSphere能夠控制Hadoop部署并幫助企業(yè)用戶簡化大數(shù)據(jù)項目啟動流程。VMware在過去一年中獲得3200萬美元大數(shù)據(jù)營收,幾乎與谷歌公司持平。
11、業(yè)界新生代:Cloudera
相信目前已經(jīng)沒人敢在列舉頂級大數(shù)據(jù)供應商時漏掉Cloudera。這家新興企業(yè)獲得1.41億美元風險投資,支持陣營中甚至包括谷歌、Facebook、甲骨文以及雅虎等在大數(shù)據(jù)領域赫赫有名的老將。該公司于2008年首次為企業(yè)客戶帶來Apache Hadoop平臺。
12、Hortonworks
Hortonworks是另一家Hadoop供應商,并在2011年從雅虎公司分離出來之后獲得超過7000萬美元的風險投資支持。它在發(fā)展中將矛頭直指Cloudera,這位年輕選手背后則站著微軟、Rackspace、紅帽、Teradata等多家戰(zhàn)略合作伙伴。
13、Splunk
根據(jù)WIkibon的統(tǒng)計,Splunk是目前純大數(shù)據(jù)供應商中占據(jù)市場份額最大的企業(yè),2012年全年營收總額達1.86億美元。該公司主要關注機器數(shù)據(jù)分析業(yè)務。
14、10Gen
10Gen最具影響力的得意佳作要數(shù)其開源MongoDB——一款業(yè)界領先的NoSQL數(shù)據(jù)庫。該公司的戰(zhàn)略投資伙伴包括英特爾、紅帽以及In-Q-Tel。10Gen去年在純Hadoop及NoSQL業(yè)務企業(yè)中名列第三,營收總額為3600萬美元。
15、MapR
大家想必聽說過MapR推出的NoSQL數(shù)據(jù)庫M7,這家公司與Amazon的云平臺及谷歌計算引擎達成了協(xié)作關系。去年MapR在純Hadoop與NoSQL業(yè)務企業(yè)中位列第四,營收總額為2300萬美元。
以上是小編為大家分享的關于全球最具影響力的大數(shù)據(jù)企業(yè)排行榜的相關內(nèi)容,更多信息可以關注環(huán)球青藤分享更多干貨
什么是NoSQL數(shù)據(jù)庫?從名稱“非SQL”或“非關系型”衍生而來,這些數(shù)據(jù)庫不使用類似SQL的查詢語言,通常稱為結構化存儲。這些數(shù)據(jù)庫自1960年就已經(jīng)存在,但是直到現(xiàn)在一些大公司(例如Google和Facebook)開始使用它們時,這些數(shù)據(jù)庫才流行起來。該數(shù)據(jù)庫最明顯的優(yōu)勢是擺脫了一組固定的列、連接和類似SQL的查詢語言的限制。有時,NoSQL這個名稱也可能表示“不僅僅SQL”,來確保它們可能支持SQL。 NoSQL數(shù)據(jù)庫使用諸如鍵值、寬列、圖形或文檔之類的數(shù)據(jù)結構,并且可以如JSON之類的不同格式存儲。
在大數(shù)據(jù)時代,“多種架構支持多類應用”成為數(shù)據(jù)庫行業(yè)應對大數(shù)據(jù)的基本思路,數(shù)據(jù)庫行業(yè)出現(xiàn)互為補充的三大陣營,適用于事務處理應用的OldSQL、適用于數(shù)據(jù)分析應用的NewSQL和適用于互聯(lián)網(wǎng)應用的NoSQL。但在一些復雜的應用場景中,單一數(shù)據(jù)庫架構都不能完全滿足應用場景對海量結構化和非結構化數(shù)據(jù)的存儲管理、復雜分析、關聯(lián)查詢、實時性處理和控制建設成本等多方面的需要,因此不同架構數(shù)據(jù)庫混合部署應用成為滿足復雜應用的必然選擇。不同架構數(shù)據(jù)庫混合使用的模式可以概括為:OldSQL+NewSQL、OldSQL+NoSQL、NewSQL+NoSQL三種主要模式。下面通過三個案例對不同架構數(shù)據(jù)庫的混合應用部署進行介紹。
OldSQL+NewSQL 在數(shù)據(jù)中心類應用中混合部署
采用OldSQL+NewSQL模式構建數(shù)據(jù)中心,在充分發(fā)揮OldSQL數(shù)據(jù)庫的事務處理能力的同時,借助NewSQL在實時性、復雜分析、即席查詢等方面的獨特優(yōu)勢,以及面對海量數(shù)據(jù)時較強的擴展能力,滿足數(shù)據(jù)中心對當前“熱”數(shù)據(jù)事務型處理和海量歷史“冷”數(shù)據(jù)分析兩方面的需求。OldSQL+NewSQL模式在數(shù)據(jù)中心類應用中的互補作用體現(xiàn)在,OldSQL彌補了NewSQL不適合事務處理的不足,NewSQL彌補了OldSQL在海量數(shù)據(jù)存儲能力和處理性能方面的缺陷。
商業(yè)銀行數(shù)據(jù)中心采用OldSQL+NewSQL混合部署方式搭建,OldSQL數(shù)據(jù)庫滿足各業(yè)務系統(tǒng)數(shù)據(jù)的歸檔備份和事務型應用,NewSQL MPP數(shù)據(jù)庫集群對即席查詢、多維分析等應用提供高性能支持,并且通過MPP集群架構實現(xiàn)應對海量數(shù)據(jù)存儲的擴展能力。
商業(yè)銀行數(shù)據(jù)中心存儲架構
與傳統(tǒng)的OldSQL模式相比,商業(yè)銀行數(shù)據(jù)中心采用OldSQL+NewSQL混合搭建模式,數(shù)據(jù)加載性能提升3倍以上,即席查詢和統(tǒng)計分析性能提升6倍以上。NewSQL MPP的高可擴展性能夠應對新的業(yè)務需求,可隨著數(shù)據(jù)量的增長采用集群方式構建存儲容量更大的數(shù)據(jù)中心。
OldSQL+NoSQL 在互聯(lián)網(wǎng)大數(shù)據(jù)應用中混合部署
在互聯(lián)網(wǎng)大數(shù)據(jù)應用中采用OldSQL+NoSQL混合模式,能夠很好的解決互聯(lián)網(wǎng)大數(shù)據(jù)應用對海量結構化和非結構化數(shù)據(jù)進行存儲和快速處理的需求。在諸如大型電子商務平臺、大型SNS平臺等互聯(lián)網(wǎng)大數(shù)據(jù)應用場景中,OldSQL在應用中負責高價值密度結構化數(shù)據(jù)的存儲和事務型處理,NoSQL在應用中負責存儲和處理海量非結構化的數(shù)據(jù)和低價值密度結構化數(shù)據(jù)。OldSQL+NoSQL模式在互聯(lián)網(wǎng)大數(shù)據(jù)應用中的互補作用體現(xiàn)在,OldSQL彌補了NoSQL在ACID特性和復雜關聯(lián)運算方面的不足,NoSQL彌補了OldSQL在海量數(shù)據(jù)存儲和非結構化數(shù)據(jù)處理方面的缺陷。
數(shù)據(jù)魔方是淘寶網(wǎng)的一款數(shù)據(jù)產(chǎn)品,主要提供行業(yè)數(shù)據(jù)分析、店鋪數(shù)據(jù)分析。淘寶數(shù)據(jù)產(chǎn)品在存儲層采用OldSQL+NoSQL混合模式,由基于MySQL的分布式關系型數(shù)據(jù)庫集群MyFOX和基于HBase的NoSQL存儲集群Prom組成。由于OldSQL強大的語義和關系表達能力,在應用中仍然占據(jù)著重要地位,目前存儲在MyFOX中的統(tǒng)計結果數(shù)據(jù)已經(jīng)達到10TB,占據(jù)著數(shù)據(jù)魔方總數(shù)據(jù)量的95%以上。另一方面,NoSQL作為SQL的有益補充,解決了OldSQL數(shù)據(jù)庫無法解決的全屬性選擇器等問題。
淘寶海量數(shù)據(jù)產(chǎn)品技術架構
基于OldSQL+NoSQL混合架構的特點,數(shù)據(jù)魔方目前已經(jīng)能夠提供壓縮前80TB的數(shù)據(jù)存儲空間,支持每天4000萬的查詢請求,平均響應時間在28毫秒,足以滿足未來一段時間內(nèi)的業(yè)務增長需求。
NewSQL+NoSQL 在行業(yè)大數(shù)據(jù)應用中混合部署
行業(yè)大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的區(qū)別在于行業(yè)大數(shù)據(jù)的價值密度更高,并且對結構化數(shù)據(jù)的實時處理、復雜的多表關聯(lián)分析、即席查詢、數(shù)據(jù)強一致性等都比互聯(lián)網(wǎng)大數(shù)據(jù)有更高的要求。行業(yè)大數(shù)據(jù)應用場景主要是分析類應用,如:電信、金融、政務、能源等行業(yè)的決策輔助、預測預警、統(tǒng)計分析、經(jīng)營分析等。
在行業(yè)大數(shù)據(jù)應用中采用NewSQL+NoSQL混合模式,充分利用NewSQL在結構化數(shù)據(jù)分析處理方面的優(yōu)勢,以及NoSQL在非結構數(shù)據(jù)處理方面的優(yōu)勢,實現(xiàn)NewSQL與NoSQL的功能互補,解決行業(yè)大數(shù)據(jù)應用對高價值結構化數(shù)據(jù)的實時處理、復雜的多表關聯(lián)分析、即席查詢、數(shù)據(jù)強一致性等要求,以及對海量非結構化數(shù)據(jù)存儲和精確查詢的要求。在應用中,NewSQL承擔高價值密度結構化數(shù)據(jù)的存儲和分析處理工作,NoSQL承擔存儲和處理海量非結構化數(shù)據(jù)和不需要關聯(lián)分析、Ad-hoc查詢較少的低價值密度結構化數(shù)據(jù)的工作。
當前電信運營商在集中化BI系統(tǒng)建設過程中面臨著數(shù)據(jù)規(guī)模大、數(shù)據(jù)處理類型多等問題,并且需要應對大量的固定應用,以及占統(tǒng)計總數(shù)80%以上的突發(fā)性臨時統(tǒng)計(ad-hoc)需求。在集中化BI系統(tǒng)的建設中采用NewSQL+NoSQL混搭的模式,充分利用NewSQL在復雜分析、即席查詢等方面處理性能的優(yōu)勢,及NoSQL在非結構化數(shù)據(jù)處理和海量數(shù)據(jù)存儲方面的優(yōu)勢,實現(xiàn)高效低成本。
集中化BI系統(tǒng)數(shù)據(jù)存儲架構
集中化BI系統(tǒng)按照數(shù)據(jù)類型和處理方式的不同,將結構化數(shù)據(jù)和非結構化數(shù)據(jù)分別存儲在不同的系統(tǒng)中:非結構化數(shù)據(jù)在Hadoop平臺上存儲與處理;結構化、不需要關聯(lián)分析、Ad-hoc查詢較少的數(shù)據(jù)保存在NoSQL數(shù)據(jù)庫或Hadoop平臺;結構化、需要關聯(lián)分析或經(jīng)常ad-hoc查詢的數(shù)據(jù),保存在NewSQL MPP數(shù)據(jù)庫中,短期高價值數(shù)據(jù)放在高性能平臺,中長期放在低成本產(chǎn)品中。
結語
當前信息化應用的多樣性、復雜性,以及三種數(shù)據(jù)庫架構各自所具有的優(yōu)勢和局限性,造成任何一種架構的數(shù)據(jù)庫都不能完全滿足應用需求,因此不同架構數(shù)據(jù)庫混合使用,從而彌補其他架構的不足成為必然選擇。根據(jù)應用場景采用不同架構數(shù)據(jù)庫進行組合搭配,充分發(fā)揮每種架構數(shù)據(jù)庫的特點和優(yōu)勢,并且與其他架構數(shù)據(jù)庫形成互補,完全涵蓋應用需求,保證數(shù)據(jù)資源的最優(yōu)化利用,將成為未來一段時期內(nèi)信息化應用主要采用的解決方式。
目前在國內(nèi)市場上,OldSQL主要為Oracle、IBM等國外數(shù)據(jù)庫廠商所壟斷,達夢、金倉等國產(chǎn)廠商仍處于追趕狀態(tài);南大通用憑借國產(chǎn)新型數(shù)據(jù)庫GBase 8a異軍突起,與EMC的Greenplum和HP的Vertica躋身NewSQL市場三強;NoSQL方面用戶則大多采用Hadoop開源方案。
架構圖如下圖所示。這張圖基本涵蓋了互聯(lián)網(wǎng)技術公司的大部分技術點,不同公司只是在具體的技術實現(xiàn)上稍有差異,但不會跳出這個框架的范疇。
SQL: 常用的有mysql,用于存儲業(yè)務數(shù)據(jù)。互聯(lián)網(wǎng)發(fā)展初期,各個業(yè)務一般都會獨立運營mysql集群,但隨著業(yè)務越來越多,mysql集群規(guī)模越來越大,那就有必要做成SQL平臺。
NoSQL: 翻譯為Not Only SQL,作為mysql的一種補充。Nosql一般本身就提供集群,且使用起來很方便,公司業(yè)務發(fā)展初期沒有必要。一般Nosql集群的數(shù)量越來越多,那就有必要做成Nosql平臺。
小文件: 互聯(lián)網(wǎng)中有很多小文件,比如商品圖片,F(xiàn)acebook的圖片。這類小文件具有數(shù)據(jù)小、數(shù)量巨大、訪問大的特點。如果每個業(yè)務都去考慮小文件存儲的話,就會出現(xiàn)重復造輪子現(xiàn)象,那就有必要做成小文件平臺了。
大文件: 互聯(lián)網(wǎng)的大文件主要分為兩類:一類是業(yè)務上的大數(shù)據(jù),例如Youtube的視頻、電影網(wǎng)站的電影;另一類是海量的日志數(shù)據(jù),例如各種訪問日志。實力雄厚的一些大公司會基于開源方案做成大數(shù)據(jù)平臺。
開發(fā)框架: 比如常見的Spring框架。
Web服務器: 常見的有tomcat、jetty等。
容器: Docker可以極大降低運維成本,以及在實現(xiàn)動態(tài)擴容上非常方便。
配置中心: 故名思義,配置中心就是集中管理各個系統(tǒng)的配置。
服務中心: 解決跨系統(tǒng)依賴的配置和調(diào)度問題。比如有10個系統(tǒng)依賴A系統(tǒng)的x接口,此時A系統(tǒng)實現(xiàn)了一個y接口可以更好地支持x接口,那么如果直接更新10個系統(tǒng)依賴的配置將會很麻煩。
消息隊列: 支持系統(tǒng)解耦。
負載均衡: 充當任務分配器的職責。
CDN: 可以對一些常用文件進行就近緩存,來提高訪問速度。
多機房: 多機房的主要目的是備災,當機房故障時可以快速地將業(yè)務切換到另外一個機房,這種切換操作允許一定時間的中斷,比如10分鐘,1個小時。
多中心: 多中心的要求就更高了,要求同時對外提供服務,且業(yè)務能夠自動在多中心之間切換,故障后不需人工干預或者很少的人工干預就能自動恢復。
用戶管理: 對各個系統(tǒng)的用戶進行統(tǒng)一管理。
消息推送: 根據(jù)不同途徑分為短信、郵件、站內(nèi)信、App推送。
存儲云: 實現(xiàn)是CDN+小文件存儲。
圖片云: 實現(xiàn)也是CDN+小文件存儲。為何不與存儲云統(tǒng)一一套系統(tǒng)呢?這是因為圖片業(yè)務的復雜性導致的。圖片涉及的業(yè)務會更多,包括裁剪、壓縮、美化、審核、水印等。
業(yè)務千差萬別,各個互聯(lián)網(wǎng)業(yè)務面對的主要問題是復雜度越來越高。此時就要用到拆和合的技術。拆即將一個大系統(tǒng)拆分為多個子系統(tǒng),降低復雜度。當子系統(tǒng)越來越多,有可能就需要采用合的技術。
測試平臺的核心目的是提升測試效率。
運維平臺的核心職責分為四大塊:配置、部署、監(jiān)控、應急。
數(shù)據(jù)平臺的核心職責主要包含三部分:數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)應用。
管理平臺的核心職責就是權限管理。