本文就架構(gòu),功能,產(chǎn)品線,概念等方面就ElasticSearch和Splunk做了一下全方位的對比,希望能夠大家在制定大數(shù)據(jù)搜索方案的時候有所幫助。
創(chuàng)新互聯(lián)不只是一家網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司;我們對營銷、技術(shù)、服務(wù)都有自己獨特見解,公司采取“創(chuàng)意+綜合+營銷”一體化的方式為您提供更專業(yè)的服務(wù)!我們經(jīng)歷的每一步也許不一定是最完美的,但每一步都有值得深思的意義。我們珍視每一份信任,關(guān)注我們的網(wǎng)站設(shè)計、成都網(wǎng)站設(shè)計質(zhì)量和服務(wù)品質(zhì),在得到用戶滿意的同時,也能得到同行業(yè)的專業(yè)認可,能夠為行業(yè)創(chuàng)新發(fā)展助力。未來將繼續(xù)專注于技術(shù)創(chuàng)新,服務(wù)升級,滿足企業(yè)一站式全網(wǎng)整合營銷推廣需求,讓再小的高端網(wǎng)站設(shè)計也能產(chǎn)生價值!ElasticSearch?(1)(2)是一個基于Lucene的開源搜索服務(wù)。它提供了一個分布式多用戶能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布,是當前流行的企業(yè)級搜索引擎。設(shè)計用于云計算中,能夠達到實時搜索,穩(wěn)定,可靠,快速,安裝使用方便。
ELK是ElasticSearch,Logstash,Kibana的縮寫,分別提供搜索,數(shù)據(jù)接入和可視化功能,構(gòu)成了Elastic的應(yīng)用棧。
Splunk?是大數(shù)據(jù)領(lǐng)域第一家在納斯達克上市公司,Splunk提供一個機器數(shù)據(jù)的引擎。使用 Splunk 可收集、索引和利用所有應(yīng)用程序、服務(wù)器和設(shè)備(物理、虛擬和云中)生成的快速移動型計算機數(shù)據(jù) 。從一個位置搜索并分析所有實時和歷史數(shù)據(jù)。 使用 Splunk?處理計算機數(shù)據(jù),可讓您在幾分鐘內(nèi)(而不是幾個小時或幾天)解決問題和調(diào)查安全事件。監(jiān)視您的端對端基礎(chǔ)結(jié)構(gòu),避免服務(wù)性能降低或中斷。以較低成本滿足合規(guī)性要求。關(guān)聯(lián)并分析跨越多個系統(tǒng)的復(fù)雜事件。獲取新層次的運營可見性以及 IT 和業(yè)務(wù)智能。
根據(jù)最新的數(shù)據(jù)庫引擎排名顯示,Elastic,Solr和Splunk分別占據(jù)了數(shù)據(jù)庫搜索引擎的前三位。
從趨勢上來看,Elastic和Splunk上升明顯,Elastic更是表現(xiàn)出了非常強勁的勢頭。
Elastic
準實時(NRT)
Elasticsearch是一個準實時性的搜索平臺,從數(shù)據(jù)索引到數(shù)據(jù)可以被搜索存在一定的時延。
索引(Index)
索引是有共同特性的文檔的集合,索引有自己的名字,可以對索引執(zhí)行搜索,更新,刪除等操作。
類型(Type)
每個索引可以包含一個或者多個類型,類型可以看作一個索引數(shù)據(jù)的邏輯分組,通常我們會把擁有相同字段的文檔定義為同一個類型。
文檔(Document)
文檔是索引信息的基本單元。Elastic中文檔表現(xiàn)為JSON對象,文檔物理存貯在索引中,并需要被制定一個類型。因為表現(xiàn)為JSON, 很自然的,文檔是由一個個的字段(Feilds)組成,每個字段是一個名值對(Name Value Pair)
評分(score)
Elastic是基于Lucene構(gòu)建的,所以搜索的結(jié)果會有一個打分。來評價搜索結(jié)果和查詢的相關(guān)性。
下圖是一個Elastic的搜索在Kibana中看到的例子,原始的數(shù)據(jù)是一個簡單的日志文件:
我們通過logstash索引到Elasticsearch后,就可以搜索了。
Splunk
實時性
Splunk同樣是準實時的,Splunk的實時搜索(Realtime Search)可以提供不間斷的搜索結(jié)果的數(shù)據(jù)流。
事件(Event)
對應(yīng)于Elastic的文檔,Splunk的數(shù)據(jù)索引的基本單元是事件,每一個事件包含了一組值,字段,時間戳。Splunk的事件可以是一段文本,一個配置文件,一段日志或者JSON對象。
字段(Fields)
字段是可以被搜索的名值對,不同的事件可能擁有不同的字段。Splunk支持索引時(index time)和搜索時(search time)的字段抽取(fields extraction)
索引(Indexes)
類似Elastic的索引,所有的事件物理存儲在索引上,可以把索引理解為一個數(shù)據(jù)庫的表。
知識對象(Knowledge Object)
Splunk的知識對象提供對數(shù)據(jù)進一步的解釋,分類,增強等功能,包括:字段(fields),字段抽?。╢ields extraction),事件類型(event type),事務(wù)(transaction),查找(lookups),標簽(tags),別名(aliases),數(shù)據(jù)模型(data model)等等。
下圖是一個Splunk的搜索在Splunk客戶端看到的和前一個例子同樣的日志數(shù)據(jù)的搜索結(jié)果。
從基本概念上來看,Elasticsearch和Splunk基本一致。從例子中我們可以看到很多的共性,事件/文檔,時間戳,字段,搜索,時間軸圖等等。其中有幾個主要的差別:
Elastic不支持搜索時的字段抽取,也就是說Elastic的文檔中的所有字段在索引時已經(jīng)固定了,而Splunk支持在搜索時,動態(tài)的抽取新的字段
Elastic的搜索是基于評分機制的,搜索的結(jié)果有一個打分,而Splunk沒有對搜索結(jié)果評分
Splunk的知識對象可以提供對數(shù)據(jù)更高級,更靈活的管理能力。
ElasticSearch提供REST API來進行
集群的管理,監(jiān)控,健康檢查
索引的管理(CURD)
搜索的執(zhí)行,包括排序,分頁,過濾,腳本,聚合等等高級的搜索功能。
Elasticsearch 本身并沒有提供任何UI的功能,搜索可以用Kibana,但是沒有管理UI還是讓人不爽的,好在開源的好處就是會有很多的開發(fā)者來構(gòu)建缺失的功能:
ElasticHQ
cerebro?(推薦,界面干凈,我喜歡)
dejavu
另一選擇就是安裝X-Pack,這個是要收費的。
Splunk作為企業(yè)軟件,管理及訪問接口比較豐富,除了REST API 和命令行接口,Splunk的UI非常友好易用,基本上所有的功能都能通過集成的UI來使用。同時提供以下接口
REST API
Splunk UI
CLI
Elastic棧使用Logstash和Beats來進行數(shù)據(jù)的消化和獲取。
Logstash用jruby實現(xiàn),有點像一個數(shù)據(jù)管道,把輸入的數(shù)據(jù)進行處理,變形,過濾,然后輸出到其它地方。Logstash 設(shè)計了自己的 DSL,包括有區(qū)域,注釋,數(shù)據(jù)類型(布爾值,字符串,數(shù)值,數(shù)組,哈希),條件判斷,字段引用等。
Logstash的數(shù)據(jù)管道包含三個步驟,Input,F(xiàn)ilter和Output,每一步都可以通過plugin來擴展。另外Input和Output還支持配置Codecs,完成對輸入輸出數(shù)據(jù)的編解碼工作。
Logstash支持的常見的Input包含F(xiàn)ile,syslog,beats等。Filter中主要完成數(shù)據(jù)的變形處理,可以增刪改字段,加標簽,等等。作為一個開源軟件,Output不僅僅支持ElasticSearch,還可以和許多其它軟件集成和目標,Output可以是文件,graphite,數(shù)據(jù)庫,Nagios,S3,Hadoop等。
在實際運用中,logstash 進程會被分為兩個不同的角色。運行在應(yīng)用服務(wù)器上的,盡量減輕運行壓力,只做讀取和轉(zhuǎn)發(fā),這個角色叫做 shipper;運行在獨立服務(wù)器上,完成數(shù)據(jù)解析處理,負責(zé)寫入 Elasticsearch 的角色,叫 indexer。
logstash 作為無狀態(tài)的軟件,配合消息隊列系統(tǒng),可以很輕松的做到線性擴展
Beats是 Elastic?從 packetbeat 發(fā)展出來的數(shù)據(jù)收集器系統(tǒng)。beat 收集器可以直接寫入 Elasticsearch,也可以傳輸給 Logstash。其中抽象出來的 libbeat,提供了統(tǒng)一的數(shù)據(jù)發(fā)送方法,輸入配置解析,日志記錄框架等功能。
開源社區(qū)已經(jīng)貢獻了許多的beats種類。
因為Beats是使用Golang編寫的,效率上很不錯。
Splunk使用Farwarder和Add-ons來進行數(shù)據(jù)的消化和獲取。
Splunk內(nèi)置了對文件,syslog,網(wǎng)絡(luò)端口等input的處理。當配置某個節(jié)點為Forwarder的時候,Splunk Forwarder可以作為一個數(shù)據(jù)通道把數(shù)據(jù)發(fā)送到配置好的indexer去。這時候,它就類似logstash。這里一個主要的區(qū)別就是對數(shù)據(jù)字段的抽取,Elastic必須在logstash中通過filter配置或者擴展來做,也就是我們所說的Index time抽取,抽取后不能改變。Splunk支持Index time的抽取,但是更多時候,Splunk 在index time并不抽取而是等到搜索是在決定如何抽取字段。
對于特定領(lǐng)域的數(shù)據(jù)獲取,Splunk是用Add-on的形式。Splunk 的App市場上有超過600個不同種類的Add-on。
用戶可以通過特定的Add-on或者自己開發(fā)Add-on來獲取特定的數(shù)據(jù)。
對于大數(shù)據(jù)的數(shù)據(jù)采集,大家也可以參考我的另一篇博客。
ElasticSearch的數(shù)據(jù)存貯模型來自于Lucene,基本原理是實用了倒排表。大家可以參考這篇文章。
Splunk的核心同樣是倒排表,推薦大家看這篇去年Splunk Conf上的介紹,Behind the Magnifying Glass: How Search Works
Splunk的Event存在許多Buckets中,多個Buckets構(gòu)成邏輯分組的索引分布在Indexer上。
每個Bucket中都是倒排表的結(jié)構(gòu)存儲數(shù)據(jù),原始數(shù)據(jù)通過gzip壓縮。
搜索時,利用Bloom filter定位數(shù)據(jù)所在的bucket。
在對數(shù)據(jù)的存儲管理上,Elastic 和Splunk都是利用了倒排表。Splunk對數(shù)據(jù)進行壓縮,所以存儲空間的占用要少很多,尤其考慮到大部分數(shù)據(jù)是文本,壓縮比很高的,當然這會損失一部分性能用于數(shù)據(jù)的解壓。
對數(shù)據(jù)的處理分析,ElasticSearch主要使用?Search API來實現(xiàn)。而Splunk則提供了非常強大的SPL,相比起ES的Search API,Splunk的SPL要好用很多,可以說SPL就是非結(jié)構(gòu)化數(shù)據(jù)的SQL。無論是利用SPL來開發(fā)分析應(yīng)用,還是直接在Splunk UI上用SPL來處理數(shù)據(jù),SPL都非常易用。開源社區(qū)也在試圖為Elastic增加類似SPL的DSL來改善數(shù)據(jù)處理的易用性。例如:
https://github.com/chenryn/ESPL
從這篇反饋可以看出,ES的search還有許多的不足。
作為對此的響應(yīng),Elastic推出了painless script,該功能還處于實驗階段。
Kibana是一個針對Elasticsearch的開源分析及可視化平臺,用來搜索、查看交互存儲在Elasticsearch索引中的數(shù)據(jù)。使用Kibana,可以通過各種圖表進行高級數(shù)據(jù)分析及展示。
Splunk集成了非常方便的數(shù)據(jù)可視化和儀表盤功能,對于SPL的結(jié)果,可以非常方便的通過UI的簡單設(shè)置進行可視化的分析,導(dǎo)出到儀表盤。
下圖的比較來自https://www.itcentralstation.com/products/comparisons/kibana_vs_splunk
在數(shù)據(jù)可視化的領(lǐng)域的排名,Splunk僅僅落后于Tableau而已
從擴展性的角度來看,兩個平臺都擁有非常好的擴展性。
Elastic棧作為一個開源棧,很容易通過Plugin的方式擴展。包括:
ElasticSearch Plugin?
Kibana Plugin
Logstash Plugin
Beats Platform
Splunk提供一系列的擴展點支持應(yīng)用和Add-on的開發(fā), 在http://dev.splunk.com/可以找到更多的信息和文檔。包括:
Web Framework
SDK
Modular Input
… …
比起Elastic的Plugin,Splunk的擴展概念上比較復(fù)雜,開發(fā)一個App或者Add-on的門檻都要相對高一些。做為一個數(shù)據(jù)平臺,Splunk應(yīng)該在擴展性上有所改進,使得擴展變的更為容易和簡單。
Elastic Stack
如上圖所示,ELK是一套棧,Logstash提供數(shù)據(jù)的消化和獲取,Elasticsearch對數(shù)據(jù)進行存儲,索引和搜索,而Kibana提供數(shù)據(jù)可視化和報表的功能。
Splunk
Splunk的架構(gòu)主要有三個角色:
Indexer
Indexer提供數(shù)據(jù)的存儲,索引,類似Elasticsearch的作用
Search Head
Search Head負責(zé)搜素,客戶接入,從功能上看,一部分是Kibana,因為Splunk的UI是運行在Search Head上的,提供所有的客戶端和可視化的功能,還有一部分,是提供分布式的搜索功能,包含對搜索的分發(fā)到Indexer和搜索結(jié)果的合并,這一部分功能對應(yīng)在Elasticsearch上。
Forwarder
Splunk的Forwarder負責(zé)數(shù)據(jù)接入,類似Logstash
除了以上的三個主要的角色,Splunk的架構(gòu)中還有:Deployment Server,License Server,Master Cluster Node,Deployer等。
Splunk和ELK的基本架構(gòu)非常類似,但是ELK的架構(gòu)更為簡單和清楚,Logstash負責(zé)數(shù)據(jù)接入,Kibana負責(zé)數(shù)據(jù)展現(xiàn),所有的復(fù)雜性在Elasticsearch中。Splunk的架構(gòu)更為復(fù)雜一些,角色的類型也更多一些。
如果裝單機版本,Splunk更容易,因為所有的功能一次性就裝好了,而ELK則必須分別安裝E/L/K,從這一點上來看,Splunk有一定的優(yōu)勢。
ElasticSearch
ElasticSearch是為分布式設(shè)計的,有很好的擴展性,在一個典型的分布式配置中,每一個節(jié)點(node)可以配制成不同的角色,如上圖所示:
Client Node,負責(zé)API和數(shù)據(jù)的訪問的節(jié)點,不存儲/處理數(shù)據(jù)
Data Node,負責(zé)數(shù)據(jù)的存儲和索引
Master Node, 管理節(jié)點,負責(zé)Cluster中的節(jié)點的協(xié)調(diào),不存儲數(shù)據(jù)。
每一種角色可以通過ElasticSearch的配置文件或者環(huán)境變量來配置。每一種角色都可以很方便的Scale,因為Elastic采用了對等性的設(shè)計,也就是所有的角色是平等的,(Master Node會進行Leader Election,其中有一個是領(lǐng)導(dǎo)者)這樣的設(shè)計使得在集群環(huán)境的伸縮性非常好,尤其是在容器環(huán)境,例如Docker Swarm或者Kubernetes中使用。
參考:
https://elk-docker.readthedocs.io/#elasticsearch-cluster
https://github.com/pires/kubernetes-elasticsearch-cluster
Splunk
Splunk作為企業(yè)級的分布式機器數(shù)據(jù)的平臺,擁有強大的分布式配置,包括跨數(shù)據(jù)中心的集群配置。Splunk提供兩種集群,Indexer集群和Search Head集群。
Splunk?Indexer集群
如上圖所示,Splunk的indexer集群主要由三種角色:
Master Node,Master Node負責(zé)管理和協(xié)調(diào)整個的集群,類似ES的Master。但是只有一個節(jié)點,不支持多Master(最新版本6.6)。Master Node負責(zé)
協(xié)調(diào)Peer Node之間的數(shù)據(jù)復(fù)制
告訴Search Head數(shù)據(jù)在哪里
Peer Node的配置管理
Peer Node故障時的故障恢復(fù)
Peer Nodes,負責(zé)數(shù)據(jù)索引,類似ES的Data Node,Peer Node負責(zé)
存儲索引數(shù)據(jù)
發(fā)送/接收復(fù)制數(shù)據(jù)到其他Peer節(jié)點
響應(yīng)搜索請求
Search Head,負責(zé)數(shù)據(jù)的搜索和客戶端API訪問,類似ES的Client Node,但不完全相同。Search Head負責(zé)發(fā)送搜索請求到Peer Nodes,并對搜索的結(jié)果進行合并。
有人會問,那Master是不是集群中的單點故障?What if Master node goes down?Splunk的回答是否。即使Master 節(jié)點出現(xiàn)故障,Peer Nodes仍然可以正常工作,除非,同時有Peer Node出現(xiàn)故障。
http://docs.splunk.com/Documentation/Splunk/6.6.1/Indexer/Whathappenswhenamasternodegoesdown
https://answers.splunk.com/answers/129446/why-does-master-node-continue-to-be-single-point-of-failure-in-clustering.html
Splunk?Search Header 集群
Search Head集群是由一組Search Head組成,它們共享配置,搜索任務(wù)等狀態(tài)。該Cluster主要有以下角色:
Deployer, 負責(zé)分發(fā)狀態(tài)和應(yīng)用到peers
Cluster Member,其中有一個是Captain,負責(zé)協(xié)調(diào)。Cluster Memeber之間會互相通信,來保證狀態(tài)一致。Load Balancer是個可選項,可以負責(zé)Search的接入。
Search Peers,負責(zé)數(shù)據(jù)索引的?Indexer Nodes
另外Splunk還曾經(jīng)提供過一個功能叫做Search Head Pooling,不過現(xiàn)在已經(jīng)Depecated了。
Indexer集群可以和Search Head集群一起配置,構(gòu)成一個分布式的Splunk配置。
相比較ES的相對比較簡單的集群配置,Splunk的集群配置比較復(fù)雜,ES中所有每一個節(jié)點可以靈活的配置角色,并且可以相對比較容易的擴展,利用例如Kubernetes的Pod的復(fù)制可以很容易的擴展每一個角色。擴展Splunk相對比較困難,要做到動態(tài)的伸縮,需要比較復(fù)雜的配置。大家可以參考這里,在容器環(huán)境里配置一個Splunk的集群需要比較多的布置,例如在這個Master的配置中,用戶需要考慮:
如何配置License
修改缺省的用戶名口令
為每一個Search Head配置Search Head Cluster
等待Splunk進程成功啟動
配置業(yè)務(wù)發(fā)現(xiàn)
安裝應(yīng)用
… …
并且集群的擴展很難直接利用容器編排平臺提供的擴展接口,這一點Splunk還有很多提高的空間。
Elastic
Elastic的產(chǎn)品線除了大家熟悉的ELK(ElasticSearch,Logstash,Kikana),主要包含
Beats?Beats是一個開源組件,提供一個代理,把本地抓到的數(shù)據(jù)傳送到ElasticSearch
Elastic Cloud, Elasti提供的云服務(wù)
X-Pack, Elastic的擴展組件,提供安全,告警,監(jiān)控,機器學(xué)習(xí)和圖處理能力。主要功能需要付費使用。
Splunk
Splunk的產(chǎn)品線包括
Splunk Enterprise
Splunk Cloud, Splunk運營的云服務(wù),跑在AWS上
Splunk Light,Splunk Light版本,功能有所精簡,面向中小企業(yè)
Hunk, Splunk on Hadoop
Apps / Add-ons, ?Splunk提供大量的應(yīng)用和數(shù)據(jù)獲取的擴展,可以參考?http://apps.splunk.com/
Splunk ITSI (IT Service Intelligence), Splunk為IT運維專門開發(fā)的產(chǎn)品
Splunk ES (Enterprise Security), Splunk為企業(yè)安全開發(fā)的產(chǎn)品,這個是Splunk 公司的拳頭產(chǎn)品,連續(xù)被Gartner評為SIEM領(lǐng)域的領(lǐng)導(dǎo)者,挑戰(zhàn)了該行業(yè)的傳統(tǒng)巨鱷IBM,HP
Splunk UBA (User Behavior Analytic), UBA是Splunk在15年收購的Caspidia帶來的基于機器學(xué)習(xí)的安全產(chǎn)品。
從產(chǎn)品線的角度來看,Splunk除了提供基本平臺,在IT運維和安全領(lǐng)域都有自己的拳頭產(chǎn)品。Elastic缺乏某個領(lǐng)域的應(yīng)用。
價格是大家非常關(guān)心的一個因素
Elastic的基本組件都是開源的,參看下表,X-pack中的一些高級功能需要付費使用。包含安全,多集群,報表,監(jiān)控等等。
云服務(wù)的價格參考下圖,ES的云是按照所使用的資源來收費,從這里選取的區(qū)域可以看出,ES的云也是運行在AWS上的。下圖中的配置每月需要花費200美元左右。(不同區(qū)域的收費不同)
同時,除了Elastic自己,還有許多其他公司也提供Elastic Search的云服務(wù),例如Bonsai,Qbox.io等。
Splunk
Splunk Enterprise是按照數(shù)據(jù)每日的流量按年或者無限制事件付費,每天1GB的話,每年是2700美元,每個月也是差不多200塊。如果每天的數(shù)據(jù)量少于500M,可以使用Splunk提供的免費License,只是不能用安全,分布式等高級功能,500M可以做很多事情了。
云服務(wù)的價格就要便宜多了,每天5GB,每年只要2430元,每個月不到200塊。當然因為計費的方式不同,和Elastic的云就不好比較了。另外因為是在AWS上,中國的用戶,呵呵了。
大數(shù)據(jù)的搜索平臺已經(jīng)成為了眾多企業(yè)的標配,Elastic棧和Splunk是其中最為優(yōu)秀和流行的選擇。兩者都有各自的優(yōu)點和值得改進的地方。希望本文能夠在你的大數(shù)據(jù)平臺的選型上,有所幫助。也希望大家來和我交流,共同成長。
ELK
ElasticSearch 參考文檔https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html
Github上收集的ElasticSearch相關(guān)開源軟件列表?https://github.com/dzharii/awesome-elasticsearch
知乎ElaticSearch專題?https://www.zhihu.com/topic/19899427/hot
中文書?https://github.com/chenryn/ELKstack-guide-cn
中文書?https://www.gitbook.com/book/wizardforcel/mastering-elasticsearch/details
Splunk
Splunk 文檔?https://docs.splunk.com/Documentation
Splunk電子書?https://www.splunk.com/web_assets/v5/book/Exploring_Splunk.pdf
Splunk 開發(fā)文檔?http://dev.splunk.com/getstarted
Splunk 應(yīng)用市場?http://apps.splunk.com/
Splunk 快速參考?https://www.splunk.com/content/dam/splunk2/pdfs/solution-guides/splunk-quick-reference-guide.pdf
其它
https://www.upguard.com/articles/splunk-vs-elk
https://db-engines.com/en/system/Elasticsearch%3BSplunk
https://www.searchtechnologies.com/blog/log-analytics-tools-open-source-vs-commercial
http://www.learnsplunk.com/splunk-vs-elk-stack.html
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。