大數(shù)據(jù)
成都創(chuàng)新互聯(lián)公司是創(chuàng)新、創(chuàng)意、研發(fā)型一體的綜合型網(wǎng)站建設(shè)公司,自成立以來公司不斷探索創(chuàng)新,始終堅(jiān)持為客戶提供滿意周到的服務(wù),在本地打下了良好的口碑,在過去的十年時(shí)間我們累計(jì)服務(wù)了上千家以及全國政企客戶,如成都資質(zhì)代辦等企業(yè)單位,完善的項(xiàng)目管理流程,嚴(yán)格把控項(xiàng)目進(jìn)度與質(zhì)量監(jiān)控加上過硬的技術(shù)實(shí)力獲得客戶的一致贊美。
1. Hadoop
Apache主持的這個(gè)項(xiàng)目是最廣為人知的大數(shù)據(jù)工具。眾多公司為Hadoop提供相關(guān)產(chǎn)品或商業(yè)支持,包括亞馬遜網(wǎng)絡(luò)服務(wù)、Cloudera、Hortonworks、IBM、Pivotal、Syncsort和VMware。知名用戶包括:阿里巴巴、美國在線、電子港灣、Facebook、谷歌、Hulu、領(lǐng)英、Spotify、推特和雅虎。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:http://hadoop.apache.org
2. Hypertable
Hypertable在互聯(lián)網(wǎng)公司當(dāng)中非常流行,它由谷歌開發(fā),用來提高數(shù)據(jù)庫的可擴(kuò)展性。用戶包括百度、電子港灣、Groupon和Yelp。它與Hadoop兼容,提供商業(yè)支持和培訓(xùn)。
支持的操作系統(tǒng):Linux和OS X
相關(guān)網(wǎng)站:http://
3. Mesos
Apache Mesos是一種資源抽象工具,有了它,企業(yè)就可以鼗整個(gè)數(shù)據(jù)中心當(dāng)成一個(gè)資源池,它在又在運(yùn)行Hadoop、Spark及類似應(yīng)用程序的公司當(dāng)中很流行。使用它的企業(yè)組織包括:Airbnb、歐洲原子核研究組織(CERN)、思科、Coursera、Foursquare、Groupon、網(wǎng)飛(Netflix)、推特和優(yōu)步。
支持的操作系統(tǒng):Linux和OS X
相關(guān)網(wǎng)站:http://mesos.apache.org
4. Presto
Presto由Facebook開發(fā),自稱是“一款開源分布式SQL查詢引擎,用于對(duì)大大小小(從GB級(jí)到PB級(jí))的數(shù)據(jù)源運(yùn)行交互式分析查詢。”Facebook表示,它將Presto用于對(duì)300PB大小的數(shù)據(jù)倉庫執(zhí)行查詢,其他用戶包括Airbnb和Dropbox。
支持的操作系統(tǒng):Linux
相關(guān)網(wǎng)站:https://prestodb.io
5. Solr
這種“快若閃電”的企業(yè)搜索平臺(tái)聲稱高度可靠、擴(kuò)展和容錯(cuò)。使用它的公司包括:ATT、Ticketmaster、康卡斯特、Instagram、網(wǎng)飛、IBM、Adobe和SAP Hybris。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站:http://lucene.apache.org/solr/
6. Spark
Apache Spark聲稱,“它在內(nèi)存中運(yùn)行程序的速度比Hadoop MapReduce最多快100倍,在磁盤上快10倍?!盨park“支持”的企業(yè)組織包括:亞馬遜、百度、Groupon、日立解決方案、IBM、MyFitnessPal、諾基亞和雅虎。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:http://spark.apache.org
7. Storm
正如Hadoop用來處理批量數(shù)據(jù),Apache Storm用來處理實(shí)時(shí)數(shù)據(jù)。官方網(wǎng)站上顯示用戶包括:天氣頻道、推特、雅虎、WebMD、Spotify、威瑞信(Verisign)、Flipboard和Klout。
支持的操作系統(tǒng):Linux
相關(guān)網(wǎng)站:https://storm.apache.org
云計(jì)算
8. Cloud Foundry
Cloud Foundry提供用于構(gòu)建平臺(tái)即服務(wù)的開源工具。它聲稱“由行業(yè)領(lǐng)袖為行業(yè)領(lǐng)袖構(gòu)建”,其支持者包括IBM、 Pivotal、惠普企業(yè)、VMware、英特爾、SAP和EMC。
支持的操作系統(tǒng):Linux
相關(guān)網(wǎng)站:https://
9. CloudStack
這個(gè)交鑰匙IaaS解決方案構(gòu)成了許多公共云和私有云的基礎(chǔ)。它的用戶極多,包括阿爾卡特-朗訊、蘋果、Autodesk、英國電信、冠群科技、思杰、Cloudera、戴爾、富士通、SAP和韋里遜。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站:http://cloudstack.apache.org
10. OpenStack
這種很受歡迎的云計(jì)算平臺(tái)聲稱,“世界上成百上千個(gè)大品牌”每天依賴它。支持者包括:ATT、Ubuntu、惠普企業(yè)、IBM、英特爾、Rackspace、紅帽、SUSE、思科、戴爾、EMC、賽門鐵克及另外許多知名科技公司。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站:http://
11. Scalr
這種云管理平臺(tái)備受市場研究公司的好評(píng),它簡化了管理多個(gè)云環(huán)境的過程。知名用戶包括Expedia、三星、美國宇航局噴氣推進(jìn)實(shí)驗(yàn)室、埃森哲、索尼和Autodesk。
支持的操作系統(tǒng):Linux
相關(guān)網(wǎng)站:http://
容器
12. Docker
Docker在相對(duì)新興的容器領(lǐng)域迅速確立起了主導(dǎo)平臺(tái)這一地位??萍冀绲脑S多大牌公司在構(gòu)建或提供擴(kuò)展或使用Docker技術(shù)的產(chǎn)品,包括亞馬遜、微軟、IBM、惠普企業(yè)、紅帽、Rackspace和Canonical。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:https://
輸入標(biāo)題 內(nèi)容管理
13. DNN
這款內(nèi)容管理解決方案之前名為DotNetNuke,承諾構(gòu)建豐富的交互式網(wǎng)站時(shí),只要花較少的精力,就能收到顯著的成效。用戶包括佳能、時(shí)代華納有線電視、德州儀器和美國銀行。
支持的操作系統(tǒng):Windows
相關(guān)網(wǎng)站:http://
14. Drupal
Drupal聲稱,98000多個(gè)開發(fā)人員在為這個(gè)極其流行的內(nèi)容管理系統(tǒng)積極貢獻(xiàn)代碼。支持者包括微軟、Zend、Fastly和New Relic,其內(nèi)容市場有數(shù)百家公司參與其中,它們提供了相關(guān)的產(chǎn)品和服務(wù)。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站:https://
15. Joomla
Joomla為數(shù)百萬個(gè)網(wǎng)站提供平臺(tái),其下載量超過了5000萬人次。許多用戶當(dāng)中就有這些公司:電子港灣、巴諾書店、MTV和標(biāo)致。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站:https://
16. MediaWiki
MediaWiki以維基百科使用的軟件而出名,它還為百度、Vistaprint、Novell、英特爾和美國宇航局支持網(wǎng)站。它是構(gòu)建可編輯網(wǎng)頁的不錯(cuò)選擇,許多企業(yè)組織用它來構(gòu)建內(nèi)部知識(shí)庫。
支持的操作系統(tǒng):Windows、Linux/Unix和OS X
相關(guān)網(wǎng)站:https://
數(shù)據(jù)庫
17. Cassandra
這種NoSQL數(shù)據(jù)庫由Facebook開發(fā),其用戶包括蘋果、歐洲原子核研究組織(CERN)、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、網(wǎng)飛、Reddit及其他科技公司。它支持極其龐大的數(shù)據(jù)集,聲稱擁有非常高的性能和出色的耐用性和彈性??赏ㄟ^第三方獲得支持。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站:http://cassandra.apache.org
18. CouchDB
CouchDB為Web而開發(fā),這種NoSQL數(shù)據(jù)庫將數(shù)據(jù)存儲(chǔ)在JSON文檔中,這類文檔可通過HTTP來加以查詢,并用JavaScript來處理。Cloudant現(xiàn)在歸IBM所有,它提供一款專業(yè)人員支持的軟件版本,用戶包括:三星、Akamai、Expedia、微軟游戲工作室及其他公司。
支持的操作系統(tǒng):Windows、Linux、OS X和安卓
相關(guān)網(wǎng)站:http://couchdb.apache.org
19. MongoDB
MongoDB是一種NoSQL數(shù)據(jù)庫,聲稱“針對(duì)關(guān)鍵任務(wù)型部署環(huán)境進(jìn)行了優(yōu)化”,用戶包括Foursquare、《福布斯》、Pebble、Adobe、領(lǐng)英、eHarmony及其他公司。提供收費(fèi)的專業(yè)版和企業(yè)版。
支持的操作系統(tǒng):Windows、Linux、OS X和Solaris
相關(guān)網(wǎng)站:http://
20. MySQL
MySQL自稱是“世界上最流行的開源數(shù)據(jù)庫”,備受眾多互聯(lián)網(wǎng)公司的青睞,比如YouTube、貝寶、谷歌、Facebook、推特、電子港灣、領(lǐng)英、優(yōu)步和亞馬遜。除了免費(fèi)社區(qū)版外,它還有多款收費(fèi)版。最新更新版聲稱速度比老版本快三倍。
支持的操作系統(tǒng):Windows、Linux、Unix和OS X
相關(guān)網(wǎng)站:http://
21. Neo4j
Neo4J自詡為“世界上領(lǐng)先的圖形數(shù)據(jù)庫”,用于欺詐檢測(cè)、推薦引擎、社交網(wǎng)站、主數(shù)據(jù)管理及更多領(lǐng)域。用戶包括電子港灣、沃爾瑪、思科、惠普、埃森哲、CrunchBase、eHarmony、Care.com及另外許多企業(yè)組織。
支持的操作系統(tǒng):Windows和Linux
相關(guān)網(wǎng)站:http://neo4j.com
開發(fā)工具
22. Bugzilla
Bugzilla是開源社區(qū)的寵兒,用戶包括Mozilla、Linux基金會(huì)、GNOME、KDE、Apache、LibreOffice、Open Office、Eclipse、紅帽、Novell及其他公司。這款軟件缺陷追蹤系統(tǒng)(bugtracker)的重要功能包括:高級(jí)搜索功能、電子郵件通知、預(yù)定報(bào)告、時(shí)間追蹤、出色的安全及更多特性。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:https://
23. Eclipse
Eclipse項(xiàng)目最為知名的是,它是一種大受歡迎的面向Java的集成開發(fā)環(huán)境(IDE),它還提供面向C/C++和PHP的IDE,此外提供另外一大批開發(fā)工具。主要支持者包括冠群科技、谷歌、IBM、甲骨文、紅帽和SAP。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站:http://
24. Ember.js
這種框架用于“構(gòu)建野心勃勃的Web應(yīng)用程序”,旨在為JavaScript開發(fā)人員提高工作效率。官方網(wǎng)站上顯示用戶包括雅虎、Square、Livingsocial、Groupon、Twitch、TED、網(wǎng)飛、Heroku和微軟。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站: http://emberjs.com
25. Grunt
Grunt是一種JavaScript任務(wù)運(yùn)行工具,有助于自動(dòng)處理重復(fù)性的開發(fā)任務(wù)。使用它的知名科技公司包括:Adobe、推特、Mozilla、Cloudant和WordPress。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站:http://gruntjs.com
26. LoopBack
這個(gè)Node.js框架旨在讓用戶很容易構(gòu)建REST API,并連接到后端數(shù)據(jù)存儲(chǔ)區(qū)。知名用戶包括GoDaddy、美國能源部和賽門鐵克。
支持的操作系統(tǒng):Windows、Linux、OS X、安卓和iOS
相關(guān)網(wǎng)站:http://loopback.io
27. Node.js
Node.js的成名之處在于,它讓開發(fā)人員可以使用JavaScript,編寫服務(wù)器端應(yīng)用程序。開發(fā)工作之前由Joyent管控,現(xiàn)在交由Node.js基金會(huì)監(jiān)管。用戶包括IBM、微軟、雅虎、SAP、領(lǐng)英、貝寶和網(wǎng)飛。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:https://nodejs.org/en/
28. PhoneGap
Apache Cordova是一種開源框架,讓開發(fā)人員可以使用HTML、CSS和JavaScript等Web技術(shù),構(gòu)建移動(dòng)應(yīng)用程序。PhoneGap是最受歡迎的Cordova發(fā)行版。使用某一種Cordova發(fā)行版的科技公司包括:維基百科、Facebook、 Salesforce、IBM、微軟、Adobe和黑莓。
支持的操作系統(tǒng):Window、Linux和OS X
相關(guān)網(wǎng)站:http://phonegap.com
29. React Native
React Native由Facebook開發(fā),這種框架可用于使用JavaScript和React JavaScript庫(同樣由Facebook開發(fā)),構(gòu)建原生移動(dòng)應(yīng)用程序。其他用戶包括:《探索》頻道和CBS體育新聞網(wǎng)。
支持的操作系統(tǒng):OS X
相關(guān)網(wǎng)站:http://facebook.github.io/react-native/
30. Ruby on Rails
這個(gè)Web開發(fā)框架在開發(fā)人員當(dāng)中極其流行,它聲稱“為確保編程員滿意和持續(xù)高效地工作進(jìn)行了優(yōu)化”。用戶包括Basecamp、推特、Shopify和GitHub等公司。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:http://rubyonrails.org
31. Sencha Touch
Sencha Touch自稱是“一種用于構(gòu)建通用移動(dòng)應(yīng)用程序的領(lǐng)先的跨平臺(tái)移動(dòng)Web應(yīng)用程序框架,基于HTML5和JavaScript”。它既有開源許可證版本,也有商業(yè)許可證版本。據(jù)官方網(wǎng)站聲稱,《財(cái)富》100強(qiáng)中60%使用它。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站:https://
32. ZK
索尼、Sun、IBM、Adobe、電子港灣、富士通、夢(mèng)工廠和優(yōu)利系統(tǒng)等公司使用這種Java Web框架來構(gòu)建Web和移動(dòng)應(yīng)用程序。提供收費(fèi)支付及相關(guān)工具。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站:http://
中間件
33. JBoss
紅帽的JBoss中間件包括各種輕量級(jí)、對(duì)云計(jì)算友好的工具,同時(shí)結(jié)合、集成和自動(dòng)化各個(gè)企業(yè)應(yīng)用程序和系統(tǒng)。用戶包括:橡樹嶺國家實(shí)驗(yàn)室、日產(chǎn)、思科、冠群科技、AMD及其他公司。
支持的操作系統(tǒng):Linux
相關(guān)網(wǎng)站:http://
操作系統(tǒng)
34. 紅帽企業(yè)版Linux
紅帽最知名的產(chǎn)品就是其旗艦Linux發(fā)行版,這需要付費(fèi)訂購。據(jù)該公司聲稱,《財(cái)富》全球500強(qiáng)公司中超過90%在使用紅帽產(chǎn)品。
相關(guān)網(wǎng)站:http://
35. SUSE Linux企業(yè)版
這款面向企業(yè)的Linux發(fā)行版同樣備受大企業(yè)的追捧,它也需要付費(fèi)訂購。該公司聲稱,它有13000多個(gè)企業(yè)用戶,包括倫敦證券交易所、SAP、天睿(Teradata)和沃爾格林連鎖藥店(Walgreens)。
相關(guān)網(wǎng)站:https://
36. Ubuntu
Ubuntu提供廣受歡迎的Linux發(fā)行版,有多個(gè)版本:桌面版、服務(wù)器版、云版、手機(jī)版、平板電腦版和物聯(lián)網(wǎng)版。聲稱用戶包括亞馬遜、IBM、維基百科和英偉達(dá)。
相關(guān)網(wǎng)站:http://
項(xiàng)目管理
37. Project Libre
這個(gè)屢獲獎(jiǎng)項(xiàng)的項(xiàng)目是微軟Project的替代者,下載量已有近200萬人次。它有一大批用戶,包括IBM、埃森哲、美國能源部、思科、ATI和AMD。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:http://
存儲(chǔ)
38. FreeNAS
這款開源網(wǎng)絡(luò)附加存儲(chǔ)(NAS)軟件聲稱,它備受聯(lián)合國、迪士尼互動(dòng)媒體集團(tuán)、路透社和Dr. Phil等用戶的“喜愛”。它可以安裝到幾乎任何硬件上,而TrueNAS提供的預(yù)先構(gòu)建的設(shè)備就基于該技術(shù)。
支持的操作系統(tǒng):FressBSD
相關(guān)網(wǎng)站:http://
39. Gluster
Gluster是一種可高度擴(kuò)展的網(wǎng)絡(luò)文件系統(tǒng),適合云計(jì)算環(huán)境。紅帽提供一款基于該技術(shù)的收費(fèi)產(chǎn)品,用戶包括卡西歐和Intuit。
支持的操作系統(tǒng):Linux
相關(guān)網(wǎng)站:http://
40. Lustre
Lustre是另一種可高度擴(kuò)展的文件系統(tǒng),旨在支持高性能計(jì)算(HPC)環(huán)境。一些最早采用它的用戶包括美國的幾大國家實(shí)驗(yàn)室:勞倫斯·利物莫爾國家實(shí)驗(yàn)室、桑迪亞國家實(shí)驗(yàn)室、橡樹嶺國家實(shí)驗(yàn)室和洛斯阿拉莫斯國家實(shí)驗(yàn)室。
支持的操作系統(tǒng):Linux
相關(guān)網(wǎng)站:http://lustre.org
系統(tǒng)管理工具
41. Ansible
Ansible現(xiàn)在歸紅帽所有,它自稱是“一種異常簡單的IT自動(dòng)化引擎,可以使云服務(wù)配置、配置管理、應(yīng)用程序部署、服務(wù)內(nèi)部的編排以及其他許多IT操作實(shí)現(xiàn)自動(dòng)化?!笔褂盟目萍脊景ǎ核伎?、瞻博網(wǎng)絡(luò)、Evernote、推特、威瑞信、GoPro、EA Sports、Atlassian和韋里遜。它既有免費(fèi)版,也有收費(fèi)版。
支持的操作系統(tǒng):Linux
相關(guān)網(wǎng)站:http://
42. Chef
作為另一款自動(dòng)化工具,Chef支持開發(fā)運(yùn)維方法,同時(shí)改善了速度、協(xié)作和安全性。擁有免費(fèi)版和收費(fèi)版。官方網(wǎng)站上顯示用戶包括:塔吉特(Target)、諾德斯特龍(Nordstrom)、Facebook、Etsy、IGM、雅虎和彭博社。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:https://
43. Hudson
Hudson在使用敏捷和開發(fā)運(yùn)維方法的企業(yè)當(dāng)中很流行,它是一種可擴(kuò)展的持續(xù)集成服務(wù)器系統(tǒng),可以監(jiān)控重復(fù)作業(yè)的執(zhí)行。這個(gè)項(xiàng)目得到了Eclipse基金會(huì)、甲骨文、Atlassian和YourKit的支持。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)
相關(guān)網(wǎng)站:http://hudson-ci.org
44. Puppet
Puppet號(hào)稱“使用最廣泛的開源IT管理系統(tǒng)”,它包括40多個(gè)基礎(chǔ)設(shè)施管理方面的開源項(xiàng)目。除了開源版本外,它還有一款收費(fèi)的企業(yè)版本。它聲稱,用戶包括25000多家企業(yè),比如迪士尼、沃爾瑪、1-800-Flowers.com、Heartland Payment Systems、蓋蒂圖片社(Getty Images)和Yelp。
支持的操作系統(tǒng):Windows、Linux、Unix和OS X
相關(guān)網(wǎng)站:https://puppetlabs.com/puppet/open-source-projects
版本控制
45. Bazaar
Bazaar由Canonical管理,被許多開源項(xiàng)目所使用,包括Ubuntu、 GNU基金會(huì)、Linux基金會(huì)、MySQL、Bugzilla、 Debian和Maria DB。它簡單易學(xué),支持任何工作流程和工作區(qū)間模式,承諾存儲(chǔ)效率很高、速度很快。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:http://bazaar.canonical.com/en/
46. Git
這個(gè)版本控制系統(tǒng)已變得極受歡迎,這一方面歸功于GitHub服務(wù)的使用日益廣泛。使用它的公司和項(xiàng)目包括:谷歌、Facebook、微軟、推特、領(lǐng)英、網(wǎng)飛、Perl、PostgreSQL、安卓、Rails、QT、Gnome和Eclipse。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:http://git-scm.com
47. Mercurial
Mercurial是一種分布式源代碼控制管理工具,專注于幫助團(tuán)隊(duì)更輕松、更快速地協(xié)同工作。用戶包括OpenJDK和NetBeans等各大項(xiàng)目。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:https://
48. Subversion
這個(gè)企業(yè)級(jí)版本控制系統(tǒng)得到Apache的支持,首次發(fā)布于2000年。使用它的企業(yè)組織包括Apache軟件基金會(huì)自己、Hobby Lobby、Mono、Plone和GNU Enterprise。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:http://subversion.apache.org
Web服務(wù)器
49. Apache HTTP Server
Apache至今已有20年多的歷史,專利是自1996年以來互聯(lián)網(wǎng)上最受歡迎的Web服務(wù)器系統(tǒng)。據(jù)W3Techs聲稱,目前所有網(wǎng)站中55.3%是由Apache支持的。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:http://httpd.apache.org
50. Nginx
Nginx的人氣也極旺,它被互聯(lián)網(wǎng)上所有網(wǎng)站中的大約四分之一所使用。除了俄羅斯許多訪問量很大的網(wǎng)站外,用戶還包括網(wǎng)飛和WordPress.com。
支持的操作系統(tǒng):Windows、Linux和OS X
相關(guān)網(wǎng)站:http://nginx.org
Cassandra屬于最近比較流行的一款NoSQL數(shù)據(jù)庫 中給NoSQL的定義如下:
下一代的數(shù)據(jù)庫產(chǎn)品應(yīng)該具備這幾點(diǎn):非關(guān)系型的,分布式的,開源的,可以線性擴(kuò)展的。這類數(shù)據(jù)庫最初的目的在于提供現(xiàn)代網(wǎng)站可擴(kuò)展的數(shù)據(jù)庫解決方案。這個(gè)運(yùn)動(dòng)開始于2009年初,目前正在迅速的發(fā)展。這種類型的數(shù)據(jù)庫具有:自由的schema,數(shù)據(jù)多處備份,簡單的編程API,數(shù)據(jù)的最終一致性保證等等。所以我們將這種類型的數(shù)據(jù)庫稱為NoSQL(不僅僅是SQL,全稱為“not only sql”)。
下面我們一起來看看如果分別在Windows和Linux環(huán)境下安裝和部署Cassandra。
在WINDOWS上單機(jī)運(yùn)行CASSANDRA
大多數(shù)人使用的OS都是Windows,所以如果只是想簡單地測(cè)試一下Cassandra,我們可以直接在安裝好JDK1.6的Windows系統(tǒng)上安裝Cassandra,并進(jìn)行簡單的測(cè)試。
1 下載Cassandra
下載即可。目前最新的beta版本是0.6.0 b3,但是我們安裝使用的最新的Release版本0.5.1。
2 安裝Cassandra
將下載的壓縮包解壓,假設(shè)解壓的位置是D:\apache-cassandra-0.5.1。
1 修改conf目錄下的log4j.properties文件:
log4j.appender.R.File=D:\apache-cassandra-0.5.1\logs
2 修改conf目錄下的storage-conf.xml文件:
CommitLogDirectoryD:\apache-cassandra-0.5.1\commitlog/CommitLogDirectory
DataFileDirectories
DataFileDirectoryD:\apache-cassandra-0.5.1\data/DataFileDirectory
/DataFileDirectories
CalloutLocationD:\apache-cassandra-0.5.1\callouts/CalloutLocation
StagingFileDirectoryD:\apache-cassandra-0.5.1\staging/StagingFileDirectory
3 設(shè)置系統(tǒng)的環(huán)境變量:
CASSANDRA_HOME=D:\apache-cassandra-0.5.1
3 啟動(dòng)Cassandra
運(yùn)行bin目錄下的cassandra.bat。如果看到:INFO - Starting up server gossip,那么恭喜你,Cassandra已經(jīng)在你的本機(jī)啟動(dòng)起來了。
4 使用命令行進(jìn)行簡單的測(cè)試
運(yùn)行bin目錄下的cassandra-cli.bat。輸入:connect localhost 9160,連接成功后可以看到下面的提示。
cassandra connect localhost 9160
line 1:18 missing SLASH at '9160'
Connected to localhost/9160
然后,我們可以參考README.txt文件中提供的范例進(jìn)行測(cè)試:
cassandra set Keyspace1.Standard1['jsmith']['first'] = 'John'
Value inserted.
cassandra set Keyspace1.Standard1['jsmith']['last'] = 'Smith'
Value inserted.
cassandra set Keyspace1.Standard1['jsmith']['age'] = '42'
Value inserted.
cassandra get Keyspace1.Standard1['jsmith']
(column=age, value=42; timestamp=1249930062801)
(column=first, value=John; timestamp=1249930053103)
(column=last, value=Smith; timestamp=1249930058345)
Returned 3 rows.
cassandra
你也可以根據(jù)這篇文章《談?wù)凜assandra的客戶端》中的內(nèi)容測(cè)試一下如何使用Java編寫簡單的程序和Cassandra交互。
在LINUX上運(yùn)行CASSANDRA集群
如果需要真正在生產(chǎn)環(huán)境中使用Cassandra,我們需要搭建一個(gè)Cassandra集群,這樣才能真正發(fā)揮出它作為NoSQL數(shù)據(jù)所應(yīng)該具備的特性。
在Linux部署Cassandra的步驟基本與Windows上部署的類似,我們需要在每一臺(tái)機(jī)器上安裝JDK1.6,然后下載Cassandra,并修改log4j.properties和storage-conf.xml的配置文件和設(shè)置環(huán)境變量。不同的是,我們需要在storage-conf.xml文件中配置集群的信息:
1 配置集群
1 配置集群節(jié)點(diǎn)信息
Seeds
Seedhadoop2/Seed
Seedhadoop3/Seed
Seedhadoop4/Seed
Seedhadoop5/Seed
Seedhadoop6/Seed
Seedhadoop7/Seed
Seedhadoop8/Seed
Seedhadoop9/Seed
Seedhadoop10/Seed
/Seeds
2 配置集群節(jié)點(diǎn)之間交互的監(jiān)聽地址
直接留空即可:
ListenAddress/ListenAddress
3 配置Thrift Server監(jiān)聽的地址
直接留空即可:
ThriftAddress/ThriftAddress
4 配置集群的名稱
每一個(gè)集群的名稱都應(yīng)該是不用的
ClusterNamegpcuster.cnblogs.com/ClusterName
5 開啟節(jié)點(diǎn)自動(dòng)加入集群的功能
AutoBootstraptrue/AutoBootstrap
6 配置數(shù)據(jù)的備份數(shù)
ReplicationFactor3/ReplicationFactor
7 調(diào)節(jié)Memory和Disk的性能
需要根據(jù)實(shí)際的情況來配置,可以參考Wiki。
2 運(yùn)行Cassandra
在每一臺(tái)節(jié)點(diǎn)上,運(yùn)行bin/cassandra。如果看到:INFO - Starting up server gossip,說明啟動(dòng)成功。
大數(shù)據(jù)技術(shù)包括數(shù)據(jù)收集、數(shù)據(jù)存取、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、模型預(yù)測(cè)、結(jié)果呈現(xiàn)1、數(shù)據(jù)收集:在大數(shù)據(jù)的生命周期中,數(shù)據(jù)采集處于第一個(gè)環(huán)節(jié)。根據(jù)MapReduce產(chǎn)生數(shù)據(jù)的應(yīng)用系統(tǒng)分類,大數(shù)據(jù)的采集主要有4種來源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)。2、數(shù)據(jù)存?。捍髷?shù)據(jù)的存去采用不同的技術(shù)路線,大致可以分為3類。第1類主要面對(duì)的是大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)。第2類主要面對(duì)的是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。第3類面對(duì)的是結(jié)構(gòu)化和非結(jié)構(gòu)化混合的大數(shù)據(jù),3、基礎(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。4、數(shù)據(jù)處理:對(duì)于采集到的不同的數(shù)據(jù)集,可能存在不同的結(jié)構(gòu)和模式,如文件、XML 樹、關(guān)系表等,表現(xiàn)為數(shù)據(jù)的異構(gòu)性。對(duì)多個(gè)異構(gòu)的數(shù)據(jù)集,需要做進(jìn)一步集成處理或整合處理,將來自不同數(shù)據(jù)集的數(shù)據(jù)收集、整理、清洗、轉(zhuǎn)換后,生成到一個(gè)新的數(shù)據(jù)集,為后續(xù)查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。5、統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測(cè)與殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對(duì)應(yīng)分析、多元對(duì)應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。6、數(shù)據(jù)挖掘:目前,還需要改進(jìn)已有數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù);開發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術(shù);突破基于對(duì)象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術(shù);突破用戶興趣分析、網(wǎng)絡(luò)行為分析、情感語義分析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。7、模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。8、結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。
簡單來說,從大數(shù)據(jù)的生命周期來看,無外乎四個(gè)方面:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析,共同組成了大數(shù)據(jù)生命周期里最核心的技術(shù),下面分開來說:
一、大數(shù)據(jù)采集
大數(shù)據(jù)采集,即對(duì)各種來源的結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù),所進(jìn)行的采集。
數(shù)據(jù)庫采集:流行的有Sqoop和ETL,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle 也依然充當(dāng)著許多企業(yè)的數(shù)據(jù)存儲(chǔ)方式。當(dāng)然了,目前對(duì)于開源的Kettle和Talend本身,也集成了大數(shù)據(jù)集成內(nèi)容,可實(shí)現(xiàn)hdfs,hbase和主流Nosq數(shù)據(jù)庫之間的數(shù)據(jù)同步和集成。
網(wǎng)絡(luò)數(shù)據(jù)采集:一種借助網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API,從網(wǎng)頁獲取非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),并將其統(tǒng)一結(jié)構(gòu)化為本地?cái)?shù)據(jù)的數(shù)據(jù)采集方式。
文件采集:包括實(shí)時(shí)文件采集和處理技術(shù)flume、基于ELK的日志采集和增量采集等等。
二、大數(shù)據(jù)預(yù)處理
大數(shù)據(jù)預(yù)處理,指的是在進(jìn)行數(shù)據(jù)分析之前,先對(duì)采集到的原始數(shù)據(jù)所進(jìn)行的諸如“清洗、填補(bǔ)、平滑、合并、規(guī)格化、一致性檢驗(yàn)”等一系列操作,旨在提高數(shù)據(jù)質(zhì)量,為后期分析工作奠定基礎(chǔ)。數(shù)據(jù)預(yù)處理主要包括四個(gè)部分:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)規(guī)約。
數(shù)據(jù)清理:指利用ETL等清洗工具,對(duì)有遺漏數(shù)據(jù)(缺少感興趣的屬性)、噪音數(shù)據(jù)(數(shù)據(jù)中存在著錯(cuò)誤、或偏離期望值的數(shù)據(jù))、不一致數(shù)據(jù)進(jìn)行處理。
數(shù)據(jù)集成:是指將不同數(shù)據(jù)源中的數(shù)據(jù),合并存放到統(tǒng)一數(shù)據(jù)庫的,存儲(chǔ)方法,著重解決三個(gè)問題:模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突檢測(cè)與處理。
數(shù)據(jù)轉(zhuǎn)換:是指對(duì)所抽取出來的數(shù)據(jù)中存在的不一致,進(jìn)行處理的過程。它同時(shí)包含了數(shù)據(jù)清洗的工作,即根據(jù)業(yè)務(wù)規(guī)則對(duì)異常數(shù)據(jù)進(jìn)行清洗,以保證后續(xù)分析結(jié)果準(zhǔn)確性。
數(shù)據(jù)規(guī)約:是指在最大限度保持?jǐn)?shù)據(jù)原貌的基礎(chǔ)上,最大限度精簡數(shù)據(jù)量,以得到較小數(shù)據(jù)集的操作,包括:數(shù)據(jù)方聚集、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值規(guī)約、概念分層等。
三、大數(shù)據(jù)存儲(chǔ)
大數(shù)據(jù)存儲(chǔ),指用存儲(chǔ)器,以數(shù)據(jù)庫的形式,存儲(chǔ)采集到的數(shù)據(jù)的過程,包含三種典型路線:
1、基于MPP架構(gòu)的新型數(shù)據(jù)庫集群
采用Shared Nothing架構(gòu),結(jié)合MPP架構(gòu)的高效分布式計(jì)算模式,通過列存儲(chǔ)、粗粒度索引等多項(xiàng)大數(shù)據(jù)處理技術(shù),重點(diǎn)面向行業(yè)大數(shù)據(jù)所展開的數(shù)據(jù)存儲(chǔ)方式。具有低成本、高性能、高擴(kuò)展性等特點(diǎn),在企業(yè)分析類應(yīng)用領(lǐng)域有著廣泛的應(yīng)用。
較之傳統(tǒng)數(shù)據(jù)庫,其基于MPP產(chǎn)品的PB級(jí)數(shù)據(jù)分析能力,有著顯著的優(yōu)越性。自然,MPP數(shù)據(jù)庫,也成為了企業(yè)新一代數(shù)據(jù)倉庫的最佳選擇。
2、基于Hadoop的技術(shù)擴(kuò)展和封裝
基于Hadoop的技術(shù)擴(kuò)展和封裝,是針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫難以處理的數(shù)據(jù)和場景(針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算等),利用Hadoop開源優(yōu)勢(shì)及相關(guān)特性(善于處理非結(jié)構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)、復(fù)雜的ETL流程、復(fù)雜的數(shù)據(jù)挖掘和計(jì)算模型等),衍生出相關(guān)大數(shù)據(jù)技術(shù)的過程。
伴隨著技術(shù)進(jìn)步,其應(yīng)用場景也將逐步擴(kuò)大,目前最為典型的應(yīng)用場景:通過擴(kuò)展和封裝 Hadoop來實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)、分析的支撐,其中涉及了幾十種NoSQL技術(shù)。
3、大數(shù)據(jù)一體機(jī)
這是一種專為大數(shù)據(jù)的分析處理而設(shè)計(jì)的軟、硬件結(jié)合的產(chǎn)品。它由一組集成的服務(wù)器、存儲(chǔ)設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng),以及為數(shù)據(jù)查詢、處理、分析而預(yù)安裝和優(yōu)化的軟件組成,具有良好的穩(wěn)定性和縱向擴(kuò)展性。
四、大數(shù)據(jù)分析挖掘
從可視化分析、數(shù)據(jù)挖掘算法、預(yù)測(cè)性分析、語義引擎、數(shù)據(jù)質(zhì)量管理等方面,對(duì)雜亂無章的數(shù)據(jù),進(jìn)行萃取、提煉和分析的過程。
1、可視化分析
可視化分析,指借助圖形化手段,清晰并有效傳達(dá)與溝通信息的分析手段。主要應(yīng)用于海量數(shù)據(jù)關(guān)聯(lián)分析,即借助可視化數(shù)據(jù)分析平臺(tái),對(duì)分散異構(gòu)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,并做出完整分析圖表的過程。
具有簡單明了、清晰直觀、易于接受的特點(diǎn)。
2、數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘算法,即通過創(chuàng)建數(shù)據(jù)挖掘模型,而對(duì)數(shù)據(jù)進(jìn)行試探和計(jì)算的,數(shù)據(jù)分析手段。它是大數(shù)據(jù)分析的理論核心。
數(shù)據(jù)挖掘算法多種多樣,且不同算法因基于不同的數(shù)據(jù)類型和格式,會(huì)呈現(xiàn)出不同的數(shù)據(jù)特點(diǎn)。但一般來講,創(chuàng)建模型的過程卻是相似的,即首先分析用戶提供的數(shù)據(jù),然后針對(duì)特定類型的模式和趨勢(shì)進(jìn)行查找,并用分析結(jié)果定義創(chuàng)建挖掘模型的最佳參數(shù),并將這些參數(shù)應(yīng)用于整個(gè)數(shù)據(jù)集,以提取可行模式和詳細(xì)統(tǒng)計(jì)信息。
3、預(yù)測(cè)性分析
預(yù)測(cè)性分析,是大數(shù)據(jù)分析最重要的應(yīng)用領(lǐng)域之一,通過結(jié)合多種高級(jí)分析功能(特別統(tǒng)計(jì)分析、預(yù)測(cè)建模、數(shù)據(jù)挖掘、文本分析、實(shí)體分析、優(yōu)化、實(shí)時(shí)評(píng)分、機(jī)器學(xué)習(xí)等),達(dá)到預(yù)測(cè)不確定事件的目的。
幫助分用戶析結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的趨勢(shì)、模式和關(guān)系,并運(yùn)用這些指標(biāo)來預(yù)測(cè)將來事件,為采取措施提供依據(jù)。
4、語義引擎
語義引擎,指通過為已有數(shù)據(jù)添加語義的操作,提高用戶互聯(lián)網(wǎng)搜索體驗(yàn)。
5、數(shù)據(jù)質(zhì)量管理
指對(duì)數(shù)據(jù)全生命周期的每個(gè)階段(計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡等)中可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等操作,以提高數(shù)據(jù)質(zhì)量的一系列管理活動(dòng)。
以上是從大的方面來講,具體來說大數(shù)據(jù)的框架技術(shù)有很多,這里列舉其中一些:
文件存儲(chǔ):Hadoop HDFS、Tachyon、KFS
離線計(jì)算:Hadoop MapReduce、Spark
流式、實(shí)時(shí)計(jì)算:Storm、Spark Streaming、S4、Heron
K-V、NOSQL數(shù)據(jù)庫:HBase、Redis、MongoDB
資源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash、Kibana
消息系統(tǒng):Kafka、StormMQ、ZeroMQ、RabbitMQ
查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式協(xié)調(diào)服務(wù):Zookeeper
集群管理與監(jiān)控:Ambari、Ganglia、Nagios、Cloudera Manager
數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí):Mahout、Spark MLLib
數(shù)據(jù)同步:Sqoop
任務(wù)調(diào)度:Oozie
······
想要學(xué)習(xí)更多關(guān)于大數(shù)據(jù)的知識(shí)可以加群和志同道合的人一起交流一下啊[ ]
大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析師該了解哪些事情
近幾年來,大數(shù)據(jù)養(yǎng)精蓄銳,從剛開始的無人談及,到現(xiàn)在的盛行談?wù)?,就這樣走進(jìn)了公眾的視野。什么是大數(shù)據(jù)呢?對(duì)于數(shù)據(jù)分析師,它有意味著什么?處在人人高談的大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析師該了解哪些內(nèi)容,本文將為您解答。
用Google搜索了一下“BigData”,得到了19,600,000個(gè)結(jié)果……而使用同樣的詞語,在兩年前你幾乎搜索不到什么內(nèi)容,而現(xiàn)在大數(shù)據(jù)的內(nèi)容被大肆宣傳,內(nèi)容多得讓人眼花繚亂。而這些內(nèi)容主要是來自IBM、麥肯錫和O’Reilly ,大多數(shù)文章都是基于營銷目的的夸夸其談,對(duì)真實(shí)的情況并不了解,有些觀點(diǎn)甚至是完全錯(cuò)誤的。我問自己…… 大數(shù)據(jù)之于數(shù)據(jù)分析師,它意味著什么呢?如下圖所示,谷歌趨勢(shì)顯示,與“網(wǎng)站分析”(web analytics)和”商業(yè)智能”(business intelligence)較為平穩(wěn)的搜索曲線相比,“大數(shù)據(jù)”(big data)的搜索量迎來了火箭式的大幅度增長。
被神話的大數(shù)據(jù)
Gartner把“大數(shù)據(jù)”的發(fā)展階段定位在“社交電視”和“移動(dòng)機(jī)器人”之間,正向著中部期望的高峰點(diǎn)邁進(jìn),而現(xiàn)在是達(dá)到較為成熟的階段前的二至五年。這種定位有著其合理性。各種奏唱著“大數(shù)據(jù)”頌歌的產(chǎn)品數(shù)量正在迅速增長,大眾媒體也進(jìn)入了“大數(shù)據(jù)”主題的論辯中,比如紐約時(shí)報(bào)的“大數(shù)據(jù)的時(shí)代“,以及一系列在福布斯上發(fā)布的題為” 大數(shù)據(jù)技術(shù)評(píng)估檢查表“的文章。
進(jìn)步的一面體現(xiàn)在
,大數(shù)據(jù)的概念正在促使內(nèi)部組織的文化發(fā)生轉(zhuǎn)變,對(duì)過時(shí)的“商務(wù)智能”形成挑戰(zhàn),并促進(jìn)了“分析”意識(shí)的提升。
基于大數(shù)據(jù)的創(chuàng)新技術(shù)可以很容易地被應(yīng)用到類似數(shù)據(jù)分析的各種環(huán)境中。值得一提的是,企業(yè)組織通過應(yīng)用先進(jìn)的業(yè)務(wù)分析,業(yè)務(wù)將變得更廣泛、更復(fù)雜,價(jià)值也更高,而傳統(tǒng)的網(wǎng)站分析受到的關(guān)注將會(huì)有所減弱。
大數(shù)據(jù)的定義
什么是“大數(shù)據(jù)”,目前并沒有統(tǒng)一的定義。維基百科提供的定義有些拙劣,也不完整:“ 大數(shù)據(jù),指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過主流的工具,在合理的時(shí)間內(nèi)擷取、管理、處理、并整理成為人們所能解讀的信息 “。
IBM 提供了一個(gè)充分的簡單易懂的概述:
大數(shù)據(jù)有以下三個(gè)特點(diǎn):大批量(Volume)、高速度(Velocity)和多樣化(Variety) 。 大批量 – 大數(shù)據(jù)體積龐大。企業(yè)里到處充斥著數(shù)據(jù),信息動(dòng)不動(dòng)就達(dá)到了TB級(jí),甚至是PB級(jí)。 高速度 – 大數(shù)據(jù)通常對(duì)時(shí)間敏感。為了最大限度地發(fā)揮其業(yè)務(wù)價(jià)值,大數(shù)據(jù)必須及時(shí)使用起來。 多樣化 – 大數(shù)據(jù)超越了結(jié)構(gòu)化數(shù)據(jù),它包括所有種類的非結(jié)構(gòu)化數(shù)據(jù),如文本、音頻、視頻、點(diǎn)擊流、日志文件等等都可以是大數(shù)據(jù)的組成部分。 MSDN的布萊恩·史密斯在IBM的基礎(chǔ)上增加了第四點(diǎn): 變異性 – 數(shù)據(jù)可以使用不同的定義方式來進(jìn)行解釋。不同的問題需要不同的闡釋。
從技術(shù)角度看大數(shù)據(jù)
大數(shù)據(jù)包括了以下幾個(gè)方面:數(shù)據(jù)采集、存儲(chǔ)、搜索、共享、分析和可視化,而這些步驟在商務(wù)智能中也可以找到。在皮特·沃登的“ 大數(shù)據(jù)詞匯表 “中,囊括了60種創(chuàng)新技術(shù),并提供了相關(guān)的大數(shù)據(jù)技術(shù)概念的簡要概述。
獲取 :數(shù)據(jù)的獲取包括了各種數(shù)據(jù)源、內(nèi)部或外部的、結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。“大多數(shù)公共數(shù)據(jù)源的結(jié)構(gòu)都不清晰,充滿了噪音,而且還很難獲得。” 技術(shù): Google Refine、Needlebase、ScraperWiki、BloomReach 。
序列化:“你在努力把你的數(shù)據(jù)變成有用的東西,而這些數(shù)據(jù)會(huì)在不同的系統(tǒng)間傳遞,并可能存儲(chǔ)在不同節(jié)點(diǎn)的文件中。這些操作都需要某種序列化,因?yàn)閿?shù)據(jù)處理的不同階段可能需要不同的語言和API。當(dāng)你在處理非常大量的記錄時(shí),該如何表示和存儲(chǔ)數(shù)據(jù),你所做的選擇對(duì)你的存儲(chǔ)要求和性能將產(chǎn)生巨大影響。 技術(shù): JSON、BSON、Thrift、Avro、Google Protocol Buffers 。
存儲(chǔ) :“大規(guī)模的數(shù)據(jù)處理操作使用了全新的方式來訪問數(shù)據(jù),而傳統(tǒng)的文件系統(tǒng)并不適用。它要求數(shù)據(jù)能即時(shí)大批量的讀取和寫入。效率優(yōu)先,而那些有助于組織信息的易于用戶使用的目錄功能可能就顯得沒那么重要。因?yàn)閿?shù)據(jù)的規(guī)模巨大,這也意味著它需要被存儲(chǔ)在多臺(tái)分布式計(jì)算機(jī)上?!?技術(shù): Amazon S3、Hadoop分布式文件系統(tǒng) 。
服務(wù)器 :“云”是一個(gè)非常模糊的術(shù)語,我們可能對(duì)它所表示的內(nèi)容并不很了解,但目前在計(jì)算資源的可用性方面已有了真正突破性的發(fā)展。以前我們都習(xí)慣于購買或長期租賃實(shí)體機(jī)器,而現(xiàn)在更常見的情況是直接租用正運(yùn)行著虛擬實(shí)例的計(jì)算機(jī)來作為服務(wù)器。這樣供應(yīng)商可以以較為經(jīng)濟(jì)的價(jià)格為用戶提供一些短期的靈活的機(jī)器租賃服務(wù),這對(duì)于很多數(shù)據(jù)處理應(yīng)用程序來說這是再理想不過的事情。因?yàn)橛辛四軌蚩焖賳?dòng)的大型集群,這樣使用非常小的預(yù)算處理非常大的數(shù)據(jù)問題就可能成為現(xiàn)實(shí)。“ 技術(shù): Amazon EC2、Google App Engine、Amazon Elastic Beanstalk、Heroku 。
NoSQL:在IT行為中,NoSQL(實(shí)際上意味著“不只是SQL”)是一類廣泛的數(shù)據(jù)庫管理系統(tǒng),它與關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的傳統(tǒng)模型有著一些顯著不同,而最重要的是,它們并不使用SQL作為其主要的查詢語言。這些數(shù)據(jù)存儲(chǔ)可能并不需要固定的表格模式,通常不支持連接操作,也可能無法提供完整的ACID(原子性—Atomicity、一致性—Consistency、隔離性—Isolation、持久性—Durability)的保證,而且通常從水平方向擴(kuò)展(即通過添加新的服務(wù)器以分?jǐn)偣ぷ髁?,而不是升?jí)現(xiàn)有的服務(wù)器)。 技術(shù): Apache Hadoop、Apache Casandra、MongoDB、Apache CouchDB、Redis、BigTable、HBase、Hypertable、Voldemort 。
處理 :“從數(shù)據(jù)的海洋中獲取你想要的簡潔而有價(jià)值的信息是一件挑戰(zhàn)性的事情,不過現(xiàn)在的數(shù)據(jù)系統(tǒng)已經(jīng)有了長足的進(jìn)步,這可以幫助你把數(shù)據(jù)集到轉(zhuǎn)變成為清晰而有意義的內(nèi)容。在數(shù)據(jù)處理的過程中你會(huì)遇上很多不同的障礙,你需要使用到的工具包括了快速統(tǒng)計(jì)分析系統(tǒng)以及一些支持性的助手程序?!?技術(shù): R、Yahoo! Pipes、Mechanical Turk、Solr/ Lucene、ElasticSearch、Datameer、Bigsheets、Tinkerpop 。 初創(chuàng)公司: Continuuity、Wibidata、Platfora 。
MapReduce :“在傳統(tǒng)的關(guān)系數(shù)據(jù)庫的世界里,在信息被加載到存儲(chǔ)器后,所有的數(shù)據(jù)處理工作才能開始,使用的是一門專用的基于高度結(jié)構(gòu)化和優(yōu)化過的數(shù)據(jù)結(jié)構(gòu)的查詢語言。這種方法由Google首創(chuàng),并已被許多網(wǎng)絡(luò)公司所采用,創(chuàng)建一個(gè)讀取和寫入任意文件格式的管道,中間的結(jié)果橫跨多臺(tái)計(jì)算機(jī)進(jìn)行計(jì)算,以文件的形式在不同的階段之間傳送?!?技術(shù): Hadoop和Hive、Pig、Cascading、Cascalog、mrjob、Caffeine、S4、MapR、Acunu、Flume、Kafka、Azkaban、Oozie、Greenplum 。
自然語言處理 :“自然語言處理(NLP)……重點(diǎn)是利用好凌亂的、由人類創(chuàng)造的文本并提取有意義的信息?!?技術(shù): 自然語言工具包Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais。
機(jī)器學(xué)習(xí):“機(jī)器學(xué)習(xí)系統(tǒng)根據(jù)數(shù)據(jù)作出自動(dòng)化決策。系統(tǒng)利用訓(xùn)練的信息來處理后續(xù)的數(shù)據(jù)點(diǎn),自動(dòng)生成類似于推薦或分組的輸出結(jié)果。當(dāng)你想把一次性的數(shù)據(jù)分析轉(zhuǎn)化成生產(chǎn)服務(wù)的行為,而且這些行為在沒有監(jiān)督的情況下也能根據(jù)新的數(shù)據(jù)執(zhí)行類似的動(dòng)作,這些系統(tǒng)就顯得特別有用。亞馬遜的產(chǎn)品推薦功能就是這其中最著名的一項(xiàng)技術(shù)應(yīng)用?!?技術(shù): WEKA、Mahout、scikits.learn、SkyTree 。
可視化 :“要把數(shù)據(jù)的含義表達(dá)出來,一個(gè)最好的方法是從數(shù)據(jù)中提取出重要的組成部分,然后以圖形的方式呈現(xiàn)出來。這樣就可以讓大家快速探索其中的規(guī)律而不是僅僅籠統(tǒng)的展示原始數(shù)值,并以此簡潔地向最終用戶展示易于理解的結(jié)果。隨著Web技術(shù)的發(fā)展,靜態(tài)圖像甚至交互式對(duì)象都可以用于數(shù)據(jù)可視化的工作中,展示和探索之間的界限已經(jīng)模糊?!?技術(shù): GraphViz、Processing、Protovis、Google Fusion Tables、Tableau 。
大數(shù)據(jù)的挑戰(zhàn)
最近舉行的世界經(jīng)濟(jì)論壇也在討論大數(shù)據(jù),會(huì)議確定了一些大數(shù)據(jù)應(yīng)用的機(jī)會(huì),但在數(shù)據(jù)共用的道路上仍有兩個(gè)主要的問題和障礙。
1.隱私和安全
正如Craig Ludloff在“隱私和大數(shù)據(jù)“的專題中所提到的,一個(gè)難以避免的危機(jī)正在形成,大數(shù)據(jù)將瓦解并沖擊著我們生活的很多方面,這些方面包括私隱權(quán)、政府或國際法規(guī)、隱私權(quán)的安全性和商業(yè)化、市場營銷和廣告……試想一下歐盟的cookie法規(guī),或是這樣的一個(gè)簡單情景,一個(gè)公司可以輕易地在社交網(wǎng)絡(luò)上收集各種信息并建立完整的資料檔案,這其中包括了人們?cè)敿?xì)的電子郵箱地址、姓名、地理位置、興趣等等。這真是一件嚇人的事情!
2.人力資本
麥肯錫全球研究所的報(bào)告顯示 ,美國的數(shù)據(jù)人才的缺口非常大,還將需要140,000到190,000個(gè)有著“深度分析”專業(yè)技能的工作人員和1.500個(gè)精通數(shù)據(jù)的經(jīng)理。尋找熟練的“網(wǎng)站分析”人力資源是一個(gè)挑戰(zhàn),另外,要培養(yǎng)自己的真正擁有分析技能的人員,需要學(xué)習(xí)的內(nèi)容很多,這無疑是另一個(gè)大挑戰(zhàn)。
大數(shù)據(jù)的價(jià)值創(chuàng)造
很多大數(shù)據(jù)的內(nèi)容都提及了價(jià)值創(chuàng)造、競爭優(yōu)勢(shì)和生產(chǎn)率的提高。要利用大數(shù)據(jù)創(chuàng)造價(jià)值,主要有以下六種方式。
透明度 :讓利益相關(guān)人員都可以及時(shí)快速訪問數(shù)據(jù)。實(shí)驗(yàn) :啟用實(shí)驗(yàn)以發(fā)現(xiàn)需求,展示不同的變體并提升效果。隨著越來越多的交易數(shù)據(jù)以數(shù)字形式存儲(chǔ),企業(yè)可以收集更準(zhǔn)確、更詳細(xì)的績效數(shù)據(jù)。決策支持 :使用自動(dòng)化算法替換/支持人類決策,這可以改善決策,減少風(fēng)險(xiǎn),并發(fā)掘被隱藏的但有價(jià)值的見解。創(chuàng)新 :大數(shù)據(jù)有助于企業(yè)創(chuàng)造出新的產(chǎn)品和服務(wù),或提升現(xiàn)有的產(chǎn)品和服務(wù),發(fā)明新的商業(yè)模式或完善原來的商業(yè)模式。細(xì)分 :更精細(xì)的種群細(xì)分,可以帶來不同的自定義行為。
工業(yè)領(lǐng)域的增長 :有了足夠的和經(jīng)過適當(dāng)培訓(xùn)的人力資源,那些重要的成果才會(huì)成為現(xiàn)實(shí)并產(chǎn)生價(jià)值。
數(shù)據(jù)分析的機(jī)會(huì)領(lǐng)域
當(dāng)“網(wǎng)站分析”發(fā)展到“數(shù)據(jù)智能“,毫無疑問,數(shù)據(jù)分析人員也工作也應(yīng)該發(fā)生一些轉(zhuǎn)變,過去的工作主要是以網(wǎng)站為中心并制定渠道的具體戰(zhàn)術(shù),而在將來則需要負(fù)責(zé)更具戰(zhàn)略性的、面向業(yè)務(wù)和(大)數(shù)據(jù)專業(yè)知識(shí)的工作。
數(shù)據(jù)分析師的主要關(guān)注點(diǎn)不應(yīng)該是較低層的基礎(chǔ)設(shè)施和工具開發(fā)。以下幾點(diǎn)是數(shù)據(jù)分析的機(jī)會(huì)領(lǐng)域:
處理:掌握正確的工具以便可以在不同條件下(不同的數(shù)據(jù)集、不同的業(yè)務(wù)環(huán)境等)進(jìn)行高效的分析。目前網(wǎng)站分析專家們最常用的工具無疑是各類網(wǎng)站分析工具,大多數(shù)人并不熟悉商業(yè)智能和統(tǒng)計(jì)分析工具如Tableau、SAS、Cognos等的使用。擁有這些工具的專業(yè)技能將對(duì)數(shù)據(jù)分析人員的發(fā)展大有好處。
NLP:學(xué)習(xí)非結(jié)構(gòu)化數(shù)據(jù)分析的專業(yè)技能,比如社交媒體、呼叫中心日志和郵件的數(shù)據(jù)多為非結(jié)構(gòu)化數(shù)據(jù)。從數(shù)據(jù)處理的角度來看,在這個(gè)行業(yè)中我們的目標(biāo)應(yīng)該是確定和掌握一些最合適的分析方法和工具,無論是社會(huì)化媒體情感分析還是一些更復(fù)雜的平臺(tái)。
可視化 :掌握儀表板的展示技能,或者寬泛點(diǎn)來說,掌握數(shù)據(jù)可視化的技術(shù)是擺在數(shù)據(jù)分析師面前一個(gè)明顯的機(jī)會(huì)(注:不要把數(shù)據(jù)可視化與現(xiàn)在網(wǎng)絡(luò)營銷中常用的“信息圖”infographics相混淆)。
行動(dòng)計(jì)劃
在大數(shù)時(shí)代,其中一個(gè)最大的挑戰(zhàn)將是滿足需求和技術(shù)資源的供給。當(dāng)前的“網(wǎng)站分析”的基礎(chǔ)普遍并不足夠成熟以支持真正的大數(shù)據(jù)的使用,填補(bǔ)技能差距,越來越多的“網(wǎng)站分析師”將成長為“數(shù)據(jù)分析師”。