考慮到現(xiàn)有技術解決方案的復雜性與多樣化,企業(yè)往往很難找到適合自己的大數(shù)據(jù)收集與分析工具。
創(chuàng)新互聯(lián)公司主營黃岡網(wǎng)站建設的網(wǎng)絡公司,主營網(wǎng)站建設方案,app軟件開發(fā),黃岡h5重慶小程序開發(fā)公司搭建,黃岡網(wǎng)站營銷推廣歡迎黃岡等地區(qū)企業(yè)咨詢
然而,混亂的時局之下已經(jīng)有多種方案脫穎而出,證明其能夠幫助大家切實完成大數(shù)據(jù)分析類工作。
下面湖北IT培訓將整理出一份包含十款工具的清單,從而有效壓縮選擇范疇。
OpenRefine這是一款高人氣數(shù)據(jù)分析工具,適用于各類與分析相關的任務。
這意味著即使大家擁有多川不同數(shù)據(jù)類型及名稱,這款工具亦能夠利用其強大的聚類算法完成條目分組。
在聚類完成后,分析即可開始。
Hadoop大數(shù)據(jù)與Hadoop可謂密不可分。
這套軟件庫兼框架能夠利用簡單的編程模型將大規(guī)模數(shù)據(jù)集分發(fā)于計算機集群當中。
其尤為擅長處理大規(guī)模數(shù)據(jù)并使其可用于本地設備當中。
作為Hadoop的開發(fā)方,Apache亦在不斷強化這款工具以提升其實際效果。
Storm同樣來自Apache的Storm是另一款偉大的實時計算系統(tǒng),能夠極大強化無限數(shù)據(jù)流的處理效果。
其亦可用于執(zhí)行多種其它與大數(shù)據(jù)相關的任務,具體包括分布式RPC、持續(xù)處理、在線機器學習以及實時分析等等。
使用Storm的另一大優(yōu)勢在于,其整合了大量其它技術,從而進一步降低大數(shù)據(jù)處理的復雜性。
Plotly這是一款數(shù)據(jù)可視化工具,可兼容JaScript、MATLAB、Python以及R等語言。
Plotly甚至能夠幫助不具備代碼編寫技能或者時間的用戶完成動態(tài)可視化處理。
這款工具常由新一代數(shù)據(jù)科學家使用,因為其屬于一款業(yè)務開發(fā)平臺且能夠快速完成大規(guī)模數(shù)據(jù)的理解與分析。
Rapidminer作為另一款大數(shù)據(jù)處理必要工具,Rapidminer屬于一套開源數(shù)據(jù)科學平臺,且通過可視化編程機制發(fā)揮作用。
其功能包括對模型進行修改、分析與創(chuàng)建,且能夠快速將結果整合至業(yè)務流程當中。
Rapidminer目前備受矚目,且已經(jīng)成為眾多知名數(shù)據(jù)科學家心目中的可靠工具。
CassandraApacheCassandra是另一款值得關注的工具,因為其能夠有效且高效地對大規(guī)模數(shù)據(jù)加以管理。
它屬于一套可擴展NoSQL數(shù)據(jù)庫,能夠監(jiān)控多座數(shù)據(jù)中心內的數(shù)據(jù)并已經(jīng)在Netflix及eBay等知名企業(yè)當中效力。
HadoopMapReduce這是一套軟件框架,允許用戶利用其編寫出以可靠方式并發(fā)處理大規(guī)模數(shù)據(jù)的應用。
MapReduce應用主要負責完成兩項任務,即映射與規(guī)約,并由此提供多種數(shù)據(jù)處理結果。
這款工具最初由谷歌公司開發(fā)完成。
Bokeh這套可視化框架的主要目標在于提供精致且簡潔的圖形處理結果,用以強化大規(guī)模數(shù)據(jù)流的交互能力。
其專門供Python語言使用。
WolframAlpha這是一套搜索引擎,旨在幫助用戶搜索其需要的計算素材或者其它內容。
舉例來說,如果大家輸入“Facebook”,即可獲得與Facebook相關的HTML元素結構、輸入解釋、Web托管信息、網(wǎng)絡統(tǒng)計、子域、Alexa預估以及網(wǎng)頁信息等大量內容。
星環(huán)科技
星環(huán)信息科技主要從事大數(shù)據(jù)時代核心平臺數(shù)據(jù)庫軟件的研發(fā)與服務,被Gartner列為國際主流Hadoop發(fā)行版廠商。其產(chǎn)品Transwarp Data Hub提供高速SQL引擎Transwarp Inceptor, NoSQL搜索引擎Transwarp Hyperbase、流處理引擎Transwarp Stream和數(shù)據(jù)挖掘組件Transwarp Discover。
帆軟軟件
帆軟軟件由報表軟件FineReport起家,目前已成為報表領域的權威者,擁有10年企業(yè)數(shù)據(jù)分析的行業(yè)經(jīng)驗。后發(fā)布的商業(yè)智能自助式BI工具FineBI,提供包括Hadoop、分布式數(shù)據(jù)庫、多維數(shù)據(jù)庫的大數(shù)據(jù)可視化分析;提供PC端、移動端、大屏的可視化方案,廣泛應用于銀行、電商、地產(chǎn)、醫(yī)藥、制造、電信、制造、化工等行業(yè),擁有成熟的行業(yè)化解決方案。
數(shù)據(jù)可視化類
數(shù)字冰雹
數(shù)字冰雹主營大數(shù)據(jù)可視化業(yè)務,提供集設計、程序開發(fā)、硬件集成為一體的解決方案,廣泛應用于航天戰(zhàn)場、智慧城市、網(wǎng)絡安全、企業(yè)管理、工業(yè)監(jiān)控等領域。
海云數(shù)據(jù)
海云數(shù)據(jù)的產(chǎn)品——圖易能夠集成用戶內部系統(tǒng)大量結構化、非結構化數(shù)據(jù),在真實的數(shù)據(jù)源上,將行業(yè)大數(shù)據(jù)進行多維度的可視分析。目前主要應用于公安、航空、快消、制造、金融、醫(yī)療、信息安全等領域。
星圖數(shù)據(jù)
星圖數(shù)據(jù)是互聯(lián)網(wǎng)大數(shù)據(jù)服務公司,涉及線上零售、線上娛樂、線上教育等領域。基于分布式大數(shù)據(jù)獲取與存儲系統(tǒng)進行大數(shù)據(jù)處理及分析,具有自有的大數(shù)據(jù)分析體系和云計算處理技術。
用戶行為/精準營銷分析類
大數(shù)據(jù)技術使得用戶在互聯(lián)網(wǎng)的行為,得到精準定位,從而細化營銷方案、快速迭代產(chǎn)品。這方面的廠商有GrowingIO、神策數(shù)據(jù)等。
GrowingIO
GrowingIO是基于互聯(lián)網(wǎng)的用戶行為數(shù)據(jù)分析產(chǎn)品,具有無埋點的數(shù)據(jù)采集技術,可以通過網(wǎng)頁或APP的瀏覽軌跡、點擊記錄和鼠標滑動軌跡等行為數(shù)據(jù),進行實時的用戶行為數(shù)據(jù)分析,用于優(yōu)化產(chǎn)品體驗,實現(xiàn)精益化運營。
神策數(shù)據(jù)
與GrowingIO類似,也是基于用戶網(wǎng)絡行為,采集數(shù)據(jù)進行分析。技術上提供開放的查詢 API 和完整的 SQL 接口,同時與 MapReduce 和 Spark 等計算引擎無縫融合,隨時以最高效的方式來訪問干凈、規(guī)范的數(shù)據(jù)。
分析服務類
提供輿情分析的有百度統(tǒng)計、品友互動、Talking data、友盟、中科數(shù)據(jù)等等。
百度統(tǒng)計
百度統(tǒng)計是專業(yè)的網(wǎng)站流量分析工具,和GA類似,提供免費的流量分析、來源分析、網(wǎng)站分析等多種統(tǒng)計分析服務,能夠告訴用戶訪客是如何找到并瀏覽用戶的網(wǎng)站,在網(wǎng)站上做了些什么,以此來改善訪客在用戶的網(wǎng)站上的使用體驗。
Talking Data
TalkingData是獨立的第三方移動數(shù)據(jù)服務品牌。其產(chǎn)品及服務涵蓋移動應用數(shù)據(jù)統(tǒng)計、移動廣告監(jiān)測、移動游戲運營、公共數(shù)據(jù)查詢、綜合數(shù)據(jù)管理等多款極具針對性的產(chǎn)品及服務。在銀行、互聯(lián)網(wǎng)、電商行業(yè)有廣泛的數(shù)據(jù)服務應用。
友盟+
第三方全域大數(shù)據(jù)服務提供商,通過全面覆蓋PC、手機、傳感器、無線路由器等多種設備數(shù)據(jù),打造全域數(shù)據(jù)平臺。提供全業(yè)務鏈數(shù)據(jù)應用解決方案,包括基礎統(tǒng)計、運營分析、數(shù)據(jù)決策和數(shù)據(jù)業(yè)務等,幫助企業(yè)實現(xiàn)數(shù)據(jù)化運營和管理。
特點:
它們可以處理超大量的數(shù)據(jù)。
它們運行在便宜的PC服務器集群上。
PC集群擴充起來非常方便并且成本很低,避免了“sharding”操作的復雜性和成本。
它們擊碎了性能瓶頸。
NoSQL的支持者稱,通過NoSQL架構可以省去將Web或Java應用和數(shù)據(jù)轉換成SQL友好格式的時間,執(zhí)行速度變得更快。
“SQL并非適用于所有的程序代碼,” 對于那些繁重的重復操作的數(shù)據(jù),SQL值得花錢。但是當數(shù)據(jù)庫結構非常簡單時,SQL可能沒有太大用處。
沒有過多的操作。
雖然NoSQL的支持者也承認關系數(shù)據(jù)庫提供了無可比擬的功能集合,而且在數(shù)據(jù)完整性上也發(fā)揮絕對穩(wěn)定,他們同時也表示,企業(yè)的具體需求可能沒有那么多。
Bootstrap支持
因為NoSQL項目都是開源的,因此它們缺乏供應商提供的正式支持。這一點它們與大多數(shù)開源項目一樣,不得不從社區(qū)中尋求支持。
優(yōu)點:
易擴展
NoSQL數(shù)據(jù)庫種類繁多,但是一個共同的特點都是去掉關系數(shù)據(jù)庫的關系型特性。數(shù)據(jù)之間無關系,這樣就非常容易擴展。也無形之間,在架構的層面上帶來了可擴展的能力。
大數(shù)據(jù)量,高性能
NoSQL數(shù)據(jù)庫都具有非常高的讀寫性能,尤其在大數(shù)據(jù)量下,同樣表現(xiàn)優(yōu)秀。這得益于它的無關系性,數(shù)據(jù)庫的結構簡單。一般MySQL使用 Query Cache,每次表的更新Cache就失效,是一種大粒度的Cache,在針對web2.0的交互頻繁的應用,Cache性能不高。而NoSQL的 Cache是記錄級的,是一種細粒度的Cache,所以NoSQL在這個層面上來說就要性能高很多了。
靈活的數(shù)據(jù)模型
NoSQL無需事先為要存儲的數(shù)據(jù)建立字段,隨時可以存儲自定義的數(shù)據(jù)格式。而在關系數(shù)據(jù)庫里,增刪字段是一件非常麻煩的事情。如果是非常大數(shù)據(jù)量的表,增加字段簡直就是一個噩夢。這點在大數(shù)據(jù)量的web2.0時代尤其明顯。
高可用
NoSQL在不太影響性能的情況,就可以方便的實現(xiàn)高可用的架構。比如Cassandra,HBase模型,通過復制模型也能實現(xiàn)高可用。
主要應用:
Apache HBase
這個大數(shù)據(jù)管理平臺建立在谷歌強大的BigTable管理引擎基礎上。作為具有開源、Java編碼、分布式多個優(yōu)勢的數(shù)據(jù)庫,Hbase最初被設計應用于Hadoop平臺,而這一強大的數(shù)據(jù)管理工具,也被Facebook采用,用于管理消息平臺的龐大數(shù)據(jù)。
Apache Storm
用于處理高速、大型數(shù)據(jù)流的分布式實時計算系統(tǒng)。Storm為Apache Hadoop添加了可靠的實時數(shù)據(jù)處理功能,同時還增加了低延遲的儀表板、安全警報,改進了原有的操作方式,幫助企業(yè)更有效率地捕獲商業(yè)機會、發(fā)展新業(yè)務。
Apache Spark
該技術采用內存計算,從多迭代批量處理出發(fā),允許將數(shù)據(jù)載入內存做反復查詢,此外還融合數(shù)據(jù)倉庫、流處理和圖計算等多種計算范式,Spark用Scala語言實現(xiàn),構建在HDFS上,能與Hadoop很好的結合,而且運行速度比MapReduce快100倍。
Apache Hadoop
該技術迅速成為了大數(shù)據(jù)管理標準之一。當它被用來管理大型數(shù)據(jù)集時,對于復雜的分布式應用,Hadoop體現(xiàn)出了非常好的性能,平臺的靈活性使它可以運行在商用硬件系統(tǒng),它還可以輕松地集成結構化、半結構化和甚至非結構化數(shù)據(jù)集。
Apache Drill
你有多大的數(shù)據(jù)集?其實無論你有多大的數(shù)據(jù)集,Drill都能輕松應對。通過支持HBase、Cassandra和MongoDB,Drill建立了交互式分析平臺,允許大規(guī)模數(shù)據(jù)吞吐,而且能很快得出結果。
Apache Sqoop
也許你的數(shù)據(jù)現(xiàn)在還被鎖定于舊系統(tǒng)中,Sqoop可以幫你解決這個問題。這一平臺采用并發(fā)連接,可以將數(shù)據(jù)從關系數(shù)據(jù)庫系統(tǒng)方便地轉移到Hadoop中,可以自定義數(shù)據(jù)類型以及元數(shù)據(jù)傳播的映射。事實上,你還可以將數(shù)據(jù)(如新的數(shù)據(jù))導入到HDFS、Hive和Hbase中。
Apache Giraph
這是功能強大的圖形處理平臺,具有很好可擴展性和可用性。該技術已經(jīng)被Facebook采用,Giraph可以運行在Hadoop環(huán)境中,可以將它直接部署到現(xiàn)有的Hadoop系統(tǒng)中。通過這種方式,你可以得到強大的分布式作圖能力,同時還能利用上現(xiàn)有的大數(shù)據(jù)處理引擎。
Cloudera Impala
Impala模型也可以部署在你現(xiàn)有的Hadoop群集上,監(jiān)視所有的查詢。該技術和MapReduce一樣,具有強大的批處理能力,而且Impala對于實時的SQL查詢也有很好的效果,通過高效的SQL查詢,你可以很快的了解到大數(shù)據(jù)平臺上的數(shù)據(jù)。
Gephi
它可以用來對信息進行關聯(lián)和量化處理,通過為數(shù)據(jù)創(chuàng)建功能強大的可視化效果,你可以從數(shù)據(jù)中得到不一樣的洞察力。Gephi已經(jīng)支持多個圖表類型,而且可以在具有上百萬個節(jié)點的大型網(wǎng)絡上運行。Gephi具有活躍的用戶社區(qū),Gephi還提供了大量的插件,可以和現(xiàn)有系統(tǒng)完美的集成到一起,它還可以對復雜的IT連接、分布式系統(tǒng)中各個節(jié)點、數(shù)據(jù)流等信息進行可視化分析。
MongoDB
這個堅實的平臺一直被很多組織推崇,它在大數(shù)據(jù)管理上有極好的性能。MongoDB最初是由DoubleClick公司的員工創(chuàng)建,現(xiàn)在該技術已經(jīng)被廣泛的應用于大數(shù)據(jù)管理。MongoDB是一個應用開源技術開發(fā)的NoSQL數(shù)據(jù)庫,可以用于在JSON這樣的平臺上存儲和處理數(shù)據(jù)。目前,紐約時報、Craigslist以及眾多企業(yè)都采用了MongoDB,幫助他們管理大型數(shù)據(jù)集。(Couchbase服務器也作為一個參考)。
十大頂尖公司:
Amazon Web Services
Forrester將AWS稱為“云霸主”,談到云計算領域的大數(shù)據(jù),那就不得不提到亞馬遜。該公司的Hadoop產(chǎn)品被稱為EMR(Elastic Map Reduce),AWS解釋這款產(chǎn)品采用了Hadoop技術來提供大數(shù)據(jù)管理服務,但它不是純開源Hadoop,經(jīng)過修改后現(xiàn)在被專門用在AWS云上。
Forrester稱EMR有很好的市場前景。很多公司基于EMR為客戶提供服務,有一些公司將EMR應用于數(shù)據(jù)查詢、建模、集成和管理。而且AWS還在創(chuàng)新,F(xiàn)orrester稱未來EMR可以基于工作量的需要自動縮放調整大小。亞馬遜計劃為其產(chǎn)品和服務提供更強大的EMR支持,包括它的RedShift數(shù)據(jù)倉庫、新公布的Kenesis實時處理引擎以及計劃中的NoSQL數(shù)據(jù)庫和商業(yè)智能工具。不過AWS還沒有自己的Hadoop發(fā)行版。
Cloudera
Cloudera有開源Hadoop的發(fā)行版,這個發(fā)行版采用了Apache Hadoop開源項目的很多技術,不過基于這些技術的發(fā)行版也有很大的進步。Cloudera為它的Hadoop發(fā)行版開發(fā)了很多功能,包括Cloudera管理器,用于管理和監(jiān)控,以及名為Impala的SQL引擎等。Cloudera的Hadoop發(fā)行版基于開源Hadoop,但也不是純開源的產(chǎn)品。當Cloudera的客戶需要Hadoop不具備的某些功能時,Cloudera的工程師們就會實現(xiàn)這些功能,或者找一個擁有這項技術的合作伙伴。Forrester表示:“Cloudera的創(chuàng)新方法忠于核心Hadoop,但因為其可實現(xiàn)快速創(chuàng)新并積極滿足客戶需求,這一點使它不同于其他那些供應商?!蹦壳?,Cloudera的平臺已經(jīng)擁有200多個付費客戶,一些客戶在Cloudera的技術支持下已經(jīng)可以跨1000多個節(jié)點實現(xiàn)對PB級數(shù)據(jù)的有效管理。
Hortonworks
和Cloudera一樣,Hortonworks是一個純粹的Hadoop技術公司。與Cloudera不同的是,Hortonworks堅信開源Hadoop比任何其他供應商的Hadoop發(fā)行版都要強大。Hortonworks的目標是建立Hadoop生態(tài)圈和Hadoop用戶社區(qū),推進開源項目的發(fā)展。Hortonworks平臺和開源Hadoop聯(lián)系緊密,公司管理人員表示這會給用戶帶來好處,因為它可以防止被供應商套牢(如果Hortonworks的客戶想要離開這個平臺,他們可以輕松轉向其他開源平臺)。這并不是說Hortonworks完全依賴開源Hadoop技術,而是因為該公司將其所有開發(fā)的成果回報給了開源社區(qū),比如Ambari,這個工具就是由Hortonworks開發(fā)而成,用來填充集群管理項目漏洞。Hortonworks的方案已經(jīng)得到了Teradata、Microsoft、Red Hat和SAP這些供應商的支持。
IBM
當企業(yè)考慮一些大的IT項目時,很多人首先會想到IBM。IBM是Hadoop項目的主要參與者之一,F(xiàn)orrester稱IBM已有100多個Hadoop部署,它的很多客戶都有PB級的數(shù)據(jù)。IBM在網(wǎng)格計算、全球數(shù)據(jù)中心和企業(yè)大數(shù)據(jù)項目實施等眾多領域有著豐富的經(jīng)驗?!癐BM計劃繼續(xù)整合SPSS分析、高性能計算、BI工具、數(shù)據(jù)管理和建模、應對高性能計算的工作負載管理等眾多技術。”
Intel
和AWS類似,英特爾不斷改進和優(yōu)化Hadoop使其運行在自己的硬件上,具體來說,就是讓Hadoop運行在其至強芯片上,幫助用戶打破Hadoop系統(tǒng)的一些限制,使軟件和硬件結合的更好,英特爾的Hadoop發(fā)行版在上述方面做得比較好。Forrester指出英特爾在最近才推出這個產(chǎn)品,所以公司在未來還有很多改進的可能,英特爾和微軟都被認為是Hadoop市場上的潛力股。
MapR Technologies
MapR的Hadoop發(fā)行版目前為止也許是最好的了,不過很多人可能都沒有聽說過。Forrester對Hadoop用戶的調查顯示,MapR的評級最高,其發(fā)行版在架構和數(shù)據(jù)處理能力上都獲得了最高分。MapR已將一套特殊功能融入其Hadoop發(fā)行版中。例如網(wǎng)絡文件系統(tǒng)(NFS)、災難恢復以及高可用性功能。Forrester說MapR在Hadoop市場上沒有Cloudera和Hortonworks那樣的知名度,MapR要成為一個真正的大企業(yè),還需要加強伙伴關系和市場營銷。
Microsoft
微軟在開源軟件問題上一直很低調,但在大數(shù)據(jù)形勢下,它不得不考慮讓Windows也兼容Hadoop,它還積極投入到開源項目中,以更廣泛地推動Hadoop生態(tài)圈的發(fā)展。我們可以在微軟的公共云Windows Azure HDInsight產(chǎn)品中看到其成果。微軟的Hadoop服務基于Hortonworks的發(fā)行版,而且是為Azure量身定制的。
微軟也有一些其他的項目,包括名為Polybase的項目,讓Hadoop查詢實現(xiàn)了SQLServer查詢的一些功能。Forrester說:“微軟在數(shù)據(jù)庫、數(shù)據(jù)倉庫、云、OLAP、BI、電子表格(包括PowerPivot)、協(xié)作和開發(fā)工具市場上有很大優(yōu)勢,而且微軟擁有龐大的用戶群,但要在Hadoop這個領域成為行業(yè)領導者還有很遠的路要走?!?/p>
Pivotal Software
EMC和Vmware部分大數(shù)據(jù)業(yè)務分拆組合產(chǎn)生了Pivotal。Pivotal一直努力構建一個性能優(yōu)越的Hadoop發(fā)行版,為此,Pivotal在開源Hadoop的基礎上又添加了一些新的工具,包括一個名為HAWQ的SQL引擎以及一個專門解決大數(shù)據(jù)問題的Hadoop應用。Forrester稱Pivotal Hadoop平臺的優(yōu)勢在于它整合了Pivotal、EMC、Vmware的眾多技術,Pivotal的真正優(yōu)勢實際上等于EMC和Vmware兩大公司為其撐腰。到目前為止,Pivotal的用戶還不到100個,而且大多是中小型客戶。
Teradata
對于Teradata來說,Hadoop既是一種威脅也是一種機遇。數(shù)據(jù)管理,特別是關于SQL和關系數(shù)據(jù)庫這一領域是Teradata的專長。所以像Hadoop這樣的NoSQL平臺崛起可能會威脅到Teradata。相反,Teradata接受了Hadoop,通過與Hortonworks合作,Teradata在Hadoop平臺集成了SQL技術,這使Teradata的客戶可以在Hadoop平臺上方便地使用存儲在Teradata數(shù)據(jù)倉庫中的數(shù)據(jù)。
AMPLab
通過將數(shù)據(jù)轉變?yōu)樾畔ⅲ覀儾趴梢岳斫馐澜?,而這也正是AMPLab所做的。AMPLab致力于機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)庫、信息檢索、自然語言處理和語音識別等多個領域,努力改進對信息包括不透明數(shù)據(jù)集內信息的甄別技術。除了Spark,開源分布式SQL查詢引擎Shark也源于AMPLab,Shark具有極高的查詢效率,具有良好的兼容性和可擴展性。近幾年的發(fā)展使計算機科學進入到全新的時代,而AMPLab為我們設想一個運用大數(shù)據(jù)、云計算、通信等各種資源和技術靈活解決難題的方案,以應對越來越復雜的各種難題。
1.大數(shù)據(jù)是什么?
大數(shù)據(jù)是最近IT界最常用的術語之一。然而對大數(shù)據(jù)的定義也不盡相同,所有已知的論點例如結構化的和非結構化、大規(guī)模的數(shù)據(jù)等等都不夠完整。大數(shù)據(jù)系統(tǒng)通常被認為具有數(shù)據(jù)的五個主要特征,通常稱為數(shù)據(jù)的5 Vs。分別是大規(guī)模,多樣性,高效性、準確性和價值性。
據(jù)Gartner稱,大規(guī)模可以被定義為“在本(地)機數(shù)據(jù)采集和處理技術能力不足以為用戶帶來商業(yè)價值。當現(xiàn)有的技術能夠針對性的進行改造后來處理這種規(guī)模的數(shù)據(jù)就可以說是一個成功的大數(shù)據(jù)解決方案。
這種大規(guī)模的數(shù)據(jù)沒將不僅僅是來自于現(xiàn)有的數(shù)據(jù)源,同時也會來自于一些新興的數(shù)據(jù)源,例如常規(guī)(手持、工業(yè))設備,日志,汽車等,當然包括結構化的和非結構化的數(shù)據(jù)。
據(jù)Gartner稱,多樣性可以定義如下:“高度變異的信息資產(chǎn),在生產(chǎn)和消費時不進行嚴格定義的包括多種形式、類型和結構的組合。同時還包括以前的歷史數(shù)據(jù),由于技術的變革歷史數(shù)據(jù)同樣也成為多樣性數(shù)據(jù)之一 “。
高效性可以被定義為來自不同源的數(shù)據(jù)到達的速度。從各種設備,傳感器和其他有組織和無組織的數(shù)據(jù)流都在不斷進入IT系統(tǒng)。由此,實時分析和對于該數(shù)據(jù)的解釋(展示)的能力也應該隨之增加。
根據(jù)Gartner,高效性可以被定義如下:“高速的數(shù)據(jù)流I/O(生產(chǎn)和消費),但主要聚焦在一個數(shù)據(jù)集內或多個數(shù)據(jù)集之間的數(shù)據(jù)生產(chǎn)的速率可變上”。
準確性,或真實性或叫做精度是數(shù)據(jù)的另一個重要組成方面。要做出正確的商業(yè)決策,當務之急是在數(shù)據(jù)上進行的所有分析必須是正確和準確(精確)的。
大數(shù)據(jù)系統(tǒng)可以提供巨大的商業(yè)價值。像電信,金融,電子商務,社交媒體等,已經(jīng)認識到他們的數(shù)據(jù)是一個潛在的巨大的商機。他們可以預測用戶行為,并推薦相關產(chǎn)品,提供危險交易預警服務,等等。
與其他IT系統(tǒng)一樣,性能是大數(shù)據(jù)系統(tǒng)獲得成功的關鍵。本文的中心主旨是要說明如何讓大數(shù)據(jù)系統(tǒng)保證其性能。
2.大數(shù)據(jù)系統(tǒng)應包含的功能模塊
大數(shù)據(jù)系統(tǒng)應該包含的功能模塊,首先是能夠從多種數(shù)據(jù)源獲取數(shù)據(jù)的功能,數(shù)據(jù)的預處理(例如,清洗,驗證等),存儲數(shù)據(jù),數(shù)據(jù)處理、數(shù)據(jù)分析等(例如做預測分析,生成在線使用建議等等),最后呈現(xiàn)和可視化的總結、匯總結果。
下圖描述了大數(shù)據(jù)系統(tǒng)的這些高層次的組件:
2.1各種各樣的數(shù)據(jù)源
當今的IT生態(tài)系統(tǒng),需要對各種不同種類來源的數(shù)據(jù)進行分析。這些來源可能是從在線Web應用程序,批量上傳或feed,流媒體直播數(shù)據(jù),來自工業(yè)、手持、家居傳感的任何東西等等。
顯然從不同數(shù)據(jù)源獲取的數(shù)據(jù)具有不同的格式、使用不同的協(xié)議。例如,在線的Web應用程序可能會使用SOAP / XML格式通過HTTP發(fā)送數(shù)據(jù),feed可能會來自于CSV文件,其他設備則可能使用MQTT通信協(xié)議。
由于這些單獨的系統(tǒng)的性能是不在大數(shù)據(jù)系統(tǒng)的控制范圍之內,并且通常這些系統(tǒng)都是外部應用程序,由第三方供應商或團隊提供并維護,所以本文將不會在深入到這些系統(tǒng)的性能分析中去。
2.2數(shù)據(jù)采集
第一步,獲取數(shù)據(jù)。這個過程包括分析,驗證,清洗,轉換,去重,然后存到適合你們公司的一個持久化設備中(硬盤、存儲、云等)。
在下面的章節(jié)中,本文將重點介紹一些關于如何獲取數(shù)據(jù)方面的非常重要的技巧。請注意,本文將不討論各種數(shù)據(jù)采集技術的優(yōu)缺點。
2.3存儲數(shù)據(jù)
第二步,一旦數(shù)據(jù)進入大數(shù)據(jù)系統(tǒng),清洗,并轉化為所需格式時,這些過程都將在數(shù)據(jù)存儲到一個合適的持久化層中進行。
在下面的章節(jié)中,本文將介紹一些存儲方面的最佳實踐(包括邏輯上和物理上)。在本文結尾也會討論一部分涉及數(shù)據(jù)安全方面的問題。
2.4數(shù)據(jù)處理和分析
第三步,在這一階段中的一部分干凈數(shù)據(jù)是去規(guī)范化的,包括對一些相關的數(shù)據(jù)集的數(shù)據(jù)進行一些排序,在規(guī)定的時間間隔內進行數(shù)據(jù)結果歸集,執(zhí)行機器學習算法,預測分析等。
在下面的章節(jié)中,本文將針對大數(shù)據(jù)系統(tǒng)性能優(yōu)化介紹一些進行數(shù)據(jù)處理和分析的最佳實踐。
2.5數(shù)據(jù)的可視化和數(shù)據(jù)展示
最后一個步驟,展示經(jīng)過各個不同分析算法處理過的數(shù)據(jù)結果。該步驟包括從預先計算匯總的結果(或其他類似數(shù)據(jù)集)中的讀取和用一種友好界面或者表格(圖表等等)的形式展示出來。這樣便于對于數(shù)據(jù)分析結果的理解。
3.數(shù)據(jù)采集中的性能技巧
數(shù)據(jù)采集是各種來自不同數(shù)據(jù)源的數(shù)據(jù)進入大數(shù)據(jù)系統(tǒng)的第一步。這個步驟的性能將會直接決定在一個給定的時間段內大數(shù)據(jù)系統(tǒng)能夠處理的數(shù)據(jù)量的能力。
數(shù)據(jù)采集過程基于對該系統(tǒng)的個性化需求,但一些常用執(zhí)行的步驟是 – 解析傳入數(shù)據(jù),做必要的驗證,數(shù)據(jù)清晰,例如數(shù)據(jù)去重,轉換格式,并將其存儲到某種持久層。
涉及數(shù)據(jù)采集過程的邏輯步驟示如下圖所示:
下面是一些性能方面的技巧:
●來自不同數(shù)據(jù)源的傳輸應該是異步的??梢允褂梦募韨鬏?、或者使用面向消息的(MoM)中間件來實現(xiàn)。由于數(shù)據(jù)異步傳輸,所以數(shù)據(jù)采集過程的吞吐量可以大大高于大數(shù)據(jù)系統(tǒng)的處理能力。 異步數(shù)據(jù)傳輸同樣可以在大數(shù)據(jù)系統(tǒng)和不同的數(shù)據(jù)源之間進行解耦。大數(shù)據(jù)基礎架構設計使得其很容易進行動態(tài)伸縮,數(shù)據(jù)采集的峰值流量對于大數(shù)據(jù)系統(tǒng)來說算是安全的。
●如果數(shù)據(jù)是直接從一些外部數(shù)據(jù)庫中抽取的,確保拉取數(shù)據(jù)是使用批量的方式。
●如果數(shù)據(jù)是從feed file解析,請務必使用合適的解析器。例如,如果從一個XML文件中讀取也有不同的解析器像JDOM,SAX,DOM等。類似地,對于CSV,JSON和其它這樣的格式,多個解析器和API是可供選擇。選擇能夠符合需求的性能最好的。
●優(yōu)先使用內置的驗證解決方案。大多數(shù)解析/驗證工作流程的通常運行在服務器環(huán)境(ESB /應用服務器)中。大部分的場景基本上都有現(xiàn)成的標準校驗工具。在大多數(shù)的情況下,這些標準的現(xiàn)成的工具一般來說要比你自己開發(fā)的工具性能要好很多。
●類似地,如果數(shù)據(jù)XML格式的,優(yōu)先使用XML(XSD)用于驗證。
●即使解析器或者校等流程使用自定義的腳本來完成,例如使用java優(yōu)先還是應該使用內置的函數(shù)庫或者開發(fā)框架。在大多數(shù)的情況下通常會比你開發(fā)任何自定義代碼快得多。
●盡量提前濾掉無效數(shù)據(jù),以便后續(xù)的處理流程都不用在無效數(shù)據(jù)上浪費過多的計算能力。
●大多數(shù)系統(tǒng)處理無效數(shù)據(jù)的做法通常是存放在一個專門的表中,請在系統(tǒng)建設之初考慮這部分的數(shù)據(jù)庫存儲和其他額外的存儲開銷。
●如果來自數(shù)據(jù)源的數(shù)據(jù)需要清洗,例如去掉一些不需要的信息,盡量保持所有數(shù)據(jù)源的抽取程序版本一致,確保一次處理的是一個大批量的數(shù)據(jù),而不是一條記錄一條記錄的來處理。一般來說數(shù)據(jù)清洗需要進行表關聯(lián)。數(shù)據(jù)清洗中需要用到的靜態(tài)數(shù)據(jù)關聯(lián)一次,并且一次處理一個很大的批量就能夠大幅提高數(shù)據(jù)處理效率。
●數(shù)據(jù)去重非常重要這個過程決定了主鍵的是由哪些字段構成。通常主鍵都是時間戳或者id等可以追加的類型。一般情況下,每條記錄都可能根據(jù)主鍵進行索引來更新,所以最好能夠讓主鍵簡單一些,以保證在更新的時候檢索的性能。
●來自多個源接收的數(shù)據(jù)可以是不同的格式。有時,需要進行數(shù)據(jù)移植,使接收到的數(shù)據(jù)從多種格式轉化成一種或一組標準格式。
●和解析過程一樣,我們建議使用內置的工具,相比于你自己從零開發(fā)的工具性能會提高很多。
●數(shù)據(jù)移植的過程一般是數(shù)據(jù)處理過程中最復雜、最緊急、消耗資源最多的一步。因此,確保在這一過程中盡可能多的使用并行計算。
●一旦所有的數(shù)據(jù)采集的上述活動完成后,轉換后的數(shù)據(jù)通常存儲在某些持久層,以便以后分析處理,綜述,聚合等使用。
●多種技術解決方案的存在是為了處理這種持久(RDBMS,NoSQL的分布式文件系統(tǒng),如Hadoop和等)。
●謹慎選擇一個能夠最大限度的滿足需求的解決方案。
4.數(shù)據(jù)存儲中的性能技巧
一旦所有的數(shù)據(jù)采集步驟完成后,數(shù)據(jù)將進入持久層。
在本節(jié)中將討論一些與數(shù)據(jù)數(shù)據(jù)存儲性能相關的技巧包括物理存儲優(yōu)化和邏輯存儲結構(數(shù)據(jù)模型)。這些技巧適用于所有的數(shù)據(jù)處理過程,無論是一些解析函數(shù)生的或最終輸出的數(shù)據(jù)還是預計算的匯總數(shù)據(jù)等。
●首先選擇數(shù)據(jù)范式。您對數(shù)據(jù)的建模方式對性能有直接的影響,例如像數(shù)據(jù)冗余,磁盤存儲容量等方面。對于一些簡單的文件導入數(shù)據(jù)庫中的場景,你也許需要保持數(shù)據(jù)原始的格式,對于另外一些場景,如執(zhí)行一些分析計算聚集等,你可能不需要將數(shù)據(jù)范式化。
●大多數(shù)的大數(shù)據(jù)系統(tǒng)使用NoSQL數(shù)據(jù)庫替代RDBMS處理數(shù)據(jù)。
●不同的NoSQL數(shù)據(jù)庫適用不同的場景,一部分在select時性能更好,有些是在插入或者更新性能更好。
●數(shù)據(jù)庫分為行存儲和列存儲。
●具體的數(shù)據(jù)庫選型依賴于你的具體需求(例如,你的應用程序的數(shù)據(jù)庫讀寫比)。
●同樣每個數(shù)據(jù)庫都會根據(jù)不同的配置從而控制這些數(shù)據(jù)庫用于數(shù)據(jù)庫復制備份或者嚴格保持數(shù)據(jù)一致性。
●這些設置會直接影響數(shù)據(jù)庫性能。在數(shù)據(jù)庫技術選型前一定要注意。
●壓縮率、緩沖池、超時的大小,和緩存的對于不同的NoSQL數(shù)據(jù)庫來說配置都是不同的,同時對數(shù)據(jù)庫性能的影響也是不一樣的。
●數(shù)據(jù)Sharding和分區(qū)是這些數(shù)據(jù)庫的另一個非常重要的功能。數(shù)據(jù)Sharding的方式能夠對系統(tǒng)的性能產(chǎn)生巨大的影響,所以在數(shù)據(jù)Sharding和分區(qū)時請謹慎選擇。
●并非所有的NoSQL數(shù)據(jù)庫都內置了支持連接,排序,匯總,過濾器,索引等。
●如果有需要還是建議使用內置的類似功能,因為自己開發(fā)的還是不靈。
●NoSQLs內置了壓縮、編解碼器和數(shù)據(jù)移植工具。如果這些可以滿足您的部分需求,那么優(yōu)先選擇使用這些內置的功能。這些工具可以執(zhí)行各種各樣的任務,如格式轉換、壓縮數(shù)據(jù)等,使用內置的工具不僅能夠帶來更好的性能還可以降低網(wǎng)絡的使用率。
●許多NoSQL數(shù)據(jù)庫支持多種類型的文件系統(tǒng)。其中包括本地文件系統(tǒng),分布式文件系統(tǒng),甚至基于云的存儲解決方案。
●如果在交互式需求上有嚴格的要求,否則還是盡量嘗試使用NoSQL本地(內置)文件系統(tǒng)(例如HBase 使用HDFS)。
●這是因為,如果使用一些外部文件系統(tǒng)/格式,則需要對數(shù)據(jù)進行相應的編解碼/數(shù)據(jù)移植。它將在整個讀/寫過程中增加原本不必要的冗余處理。
●大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)模型一般來說需要根據(jù)需求用例來綜合設計。與此形成鮮明對比的是RDMBS數(shù)據(jù)建模技術基本都是設計成為一個通用的模型,用外鍵和表之間的關系用來描述數(shù)據(jù)實體與現(xiàn)實世界之間的交互。
●在硬件一級,本地RAID模式也許不太適用。請考慮使用SAN存儲。
5.數(shù)據(jù)處理分析中的性能技巧
數(shù)據(jù)處理和分析是一個大數(shù)據(jù)系統(tǒng)的核心。像聚合,預測,聚集,和其它這樣的邏輯操作都需要在這一步完成。
本節(jié)討論一些數(shù)據(jù)處理性能方面的技巧。需要注意的是大數(shù)據(jù)系統(tǒng)架構有兩個組成部分,實時數(shù)據(jù)流處理和批量數(shù)據(jù)處理。本節(jié)涵蓋數(shù)據(jù)處理的各個方面。
●在細節(jié)評估和數(shù)據(jù)格式和模型后選擇適當?shù)臄?shù)據(jù)處理框架。
●其中一些框架適用于批量數(shù)據(jù)處理,而另外一些適用于實時數(shù)據(jù)處理。
●同樣一些框架使用內存模式,另外一些是基于磁盤io處理模式。
●有些框架擅長高度并行計算,這樣能夠大大提高數(shù)據(jù)效率。
●基于內存的框架性能明顯優(yōu)于基于磁盤io的框架,但是同時成本也可想而知。
●概括地說,當務之急是選擇一個能夠滿足需求的框架。否則就有可能既無法滿足功能需求也無法滿足非功能需求,當然也包括性能需求。
●一些這些框架將數(shù)據(jù)劃分成較小的塊。這些小數(shù)據(jù)塊由各個作業(yè)獨立處理。協(xié)調器管理所有這些獨立的子作業(yè)
●在數(shù)據(jù)分塊是需要當心。
●該數(shù)據(jù)快越小,就會產(chǎn)生越多的作業(yè),這樣就會增加系統(tǒng)初始化作業(yè)和清理作業(yè)的負擔。
●如果數(shù)據(jù)快太大,數(shù)據(jù)傳輸可能需要很長時間才能完成。這也可能導致資源利用不均衡,長時間在一臺服務器上運行一個大作業(yè),而其他服務器就會等待。
●不要忘了查看一個任務的作業(yè)總數(shù)。在必要時調整這個參數(shù)。
●最好實時監(jiān)控數(shù)據(jù)塊的傳輸。在本機機型io的效率會更高,這么做也會帶來一個副作用就是需要將數(shù)據(jù)塊的冗余參數(shù)提高(一般hadoop默認是3份)這樣又會反作用使得系統(tǒng)性能下降。
●此外,實時數(shù)據(jù)流需要與批量數(shù)據(jù)處理的結果進行合并。設計系統(tǒng)時盡量減少對其他作業(yè)的影響。
●大多數(shù)情況下同一數(shù)據(jù)集需要經(jīng)過多次計算。這種情況可能是由于數(shù)據(jù)抓取等初始步驟就有報錯,或者某些業(yè)務流程發(fā)生變化,值得一提的是舊數(shù)據(jù)也是如此。設計系統(tǒng)時需要注意這個地方的容錯。
●這意味著你可能需要存儲原始數(shù)據(jù)的時間較長,因此需要更多的存儲。
●數(shù)據(jù)結果輸出后應該保存成用戶期望看到的格式。例如,如果最終的結果是用戶要求按照每周的時間序列匯總輸出,那么你就要將結果以周為單位進行匯總保存。
●為了達到這個目標,大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)庫建模就要在滿足用例的前提下進行。例如,大數(shù)據(jù)系統(tǒng)經(jīng)常會輸出一些結構化的數(shù)據(jù)表,這樣在展示輸出上就有很大的優(yōu)勢。
●更常見的是,這可能會這將會讓用戶感覺到性能問題。例如用戶只需要上周的數(shù)據(jù)匯總結果,如果在數(shù)據(jù)規(guī)模較大的時候按照每周來匯總數(shù)據(jù),這樣就會大大降低數(shù)據(jù)處理能力。
●一些框架提供了大數(shù)據(jù)查詢懶評價功能。在數(shù)據(jù)沒有在其他地方被使用時效果不錯。
●實時監(jiān)控系統(tǒng)的性能,這樣能夠幫助你預估作業(yè)的完成時間。
6.數(shù)據(jù)可視化和展示中的性能技巧
精心設計的高性能大數(shù)據(jù)系統(tǒng)通過對數(shù)據(jù)的深入分析,能夠提供有價值戰(zhàn)略指導。這就是可視化的用武之地。良好的可視化幫助用戶獲取數(shù)據(jù)的多維度透視視圖。
需要注意的是傳統(tǒng)的BI和報告工具,或用于構建自定義報表系統(tǒng)無法大規(guī)模擴展?jié)M足大數(shù)據(jù)系統(tǒng)的可視化需求。同時,許多COTS可視化工具現(xiàn)已上市。
本文將不會對這些個別工具如何進行調節(jié),而是聚焦在一些通用的技術,幫助您能打造可視化層。
●確??梢暬瘜语@示的數(shù)據(jù)都是從最后的匯總輸出表中取得的數(shù)據(jù)。這些總結表可以根據(jù)時間短進行匯總,建議使用分類或者用例進行匯總。這么做可以避免直接從可視化層讀取整個原始數(shù)據(jù)。
●這不僅最大限度地減少數(shù)據(jù)傳輸,而且當用戶在線查看在報告時還有助于避免性能卡頓問題。
●重分利用大化可視化工具的緩存。緩存可以對可視化層的整體性能產(chǎn)生非常不錯的影響。
●物化視圖是可以提高性能的另一個重要的技術。
●大部分可視化工具允許通過增加線程數(shù)來提高請求響應的速度。如果資源足夠、訪問量較大那么這是提高系統(tǒng)性能的好辦法。
●盡量提前將數(shù)據(jù)進行預處理,如果一些數(shù)據(jù)必須在運行時計算請將運行時計算簡化到最小。
●可視化工具可以按照各種各樣的展示方法對應不同的讀取策略。其中一些是離線模式、提取模式或者在線連接模式。每種服務模式都是針對不同場景設計的。
●同樣,一些工具可以進行增量數(shù)據(jù)同步。這最大限度地減少了數(shù)據(jù)傳輸,并將整個可視化過程固化下來。
●保持像圖形,圖表等使用最小的尺寸。
●大多數(shù)可視化框架和工具的使用可縮放矢量圖形(SVG)。使用SVG復雜的布局可能會產(chǎn)生嚴重的性能影響。
7.數(shù)據(jù)安全以及對于性能的影響
像任何IT系統(tǒng)一樣安全性要求也對大數(shù)據(jù)系統(tǒng)的性能有很大的影響。在本節(jié)中,我們討論一下安全對大數(shù)據(jù)平臺性能的影響。
– 首先確保所有的數(shù)據(jù)源都是經(jīng)過認證的。即使所有的數(shù)據(jù)源都是安全的,并且沒有針對安全方面的需求,那么你可以靈活設計一個安全模塊來配置實現(xiàn)。
– 數(shù)據(jù)進過一次認證,那么就不要進行二次認證。如果實在需要進行二次認證,那么使用一些類似于token的技術保存下來以便后續(xù)繼續(xù)使用。這將節(jié)省數(shù)據(jù)一遍遍認證的開銷。
– 您可能需要支持其他的認證方式,例如基于PKI解決方案或Kerberos。每一個都有不同的性能指標,在最終方案確定前需要將其考慮進去。
– 通常情況下數(shù)據(jù)壓縮后進入大數(shù)據(jù)處理系統(tǒng)。這么做好處非常明顯不細說。
– 針對不同算法的效率、對cpu的使用量你需要進行比較來選出一個傳輸量、cpu使用量等方面均衡的壓縮算法。
– 同樣,評估加密邏輯和算法,然后再選擇。
– 明智的做法是敏感信息始終進行限制。
– 在審計跟蹤表或登錄時您可能需要維護記錄或類似的訪問,更新等不同的活動記錄。這可能需要根據(jù)不同的監(jiān)管策略和用戶需求個性化的進行設計和修改。
– 注意,這種需求不僅增加了數(shù)據(jù)處理的復雜度,但會增加存儲成本。
– 盡量使用下層提供的安全技術,例如操作系統(tǒng)、數(shù)據(jù)庫等。這些安全解決方案會比你自己設計開發(fā)性能要好很多。
8.總結
本文介紹了各種性能方面的技巧,這些技術性的知道可以作為打造大數(shù)據(jù)分析平臺的一般準則。大數(shù)據(jù)分析平臺非常復雜,為了滿足這種類型系統(tǒng)的性能需求,需要我們從開始建設的時候進行考量。
本文介紹的技術準則可以用在大數(shù)據(jù)平臺建設的各個不同階段,包括安全如何影響大數(shù)據(jù)分析平臺的性能。
QuickRedis 是一款 永久免費 的 Redis 可視化管理工具。它支持直連、哨兵、集群模式,支持億萬數(shù)量級的 key,還有令人興奮的事情 UI。QuickRedis 支持 Windows 、 Mac OS X 和 Linux 下運行。
下載地址:QuickRedis: QuickRedis 是一款 永久免費 的 Redis 可視化管理工具。它支持直連、哨兵、集群模式,支持億萬數(shù)量級的 key,還有令人興奮的 UI。QuickRedis 支持 Windows 、 Mac OS X 和 Linux 下運行。
界面截圖:
RDM 是存在時間最久最古老的Redis可視化工具?;?Qt 5 開發(fā),支持跨平臺的桌面管理工具,由社區(qū)愛好者們共同維護。提供開源版本,但是安裝比較麻煩,需要自己編譯,github上提供的下載安裝地址打不開。最大的缺陷是收費且很貴,企業(yè)員工: 379 每年。
下載地址:
界面截圖:
布局簡潔,跨平臺支持。MAC 版本收費。
下載地址:
TablePlus是一個現(xiàn)代化的本地工具,UI優(yōu)雅,redis功能相對簡單,正如他的取名一樣,操作非常的表單化。它允許您同時管理多個數(shù)據(jù)庫,如MySQL、PostgreSQL、SQLite、microsoftsqlserver等等。
下載地址:
界面截圖:
開源免費,但是RedisPlus將不再更新。
下載地址:RedisPlus: RedisPlus是為Redis可視化管理開發(fā)的一款開源免費的桌面客戶端軟件,支持Windows 、Linux 、Mac三大系統(tǒng)平臺,RedisPlus提供更加高效、方便、快捷的使用體驗,有著更加現(xiàn)代化的用戶界面風格。
界面截圖:
這是一款在蘋果app store下載的redis可視化工具。
下載地址:Mac App Store
界面截圖:
布局簡潔,跨平臺支持。免費。
下載地址:
界面截圖:
這個軟件來頭挺大的,是redis labs出的一款監(jiān)控分析級別的redis可視化工具。這款軟件是web版的
那redis labs是啥公司,redis labs創(chuàng)立于2011年,公司致力于為Redis、Memcached等流行的NoSQL開源數(shù)據(jù)庫提供云托管服務??梢运闶菍iT致力于redis云的一家專業(yè)公司。他們的提供的軟件中,除了可以連接企業(yè)私有的redis服務,也可以連接他們的redis云。
下載地址:
Iedis是一款基于IntelliJ IDEA的插件,在IDEA的plugin市場里就可以搜到,但是為收費插件。可試用7天。
下載地址:idea plugins
界面截圖:
# 評測總結
前面介紹的9款redis可視化工具,供大家參考和比較。如果你想獲得免費、功能比收費還要強大且界面精美,依次推薦QuickRedis、medis和AnotherRedisDesktopManager。