本文小編為大家詳細(xì)介紹“ElasticSearch索引數(shù)據(jù)優(yōu)化的方法”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“ElasticSearch索引數(shù)據(jù)優(yōu)化的方法”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學(xué)習(xí)新知識吧。
為深州等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計(jì)制作服務(wù),及深州網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都做網(wǎng)站、網(wǎng)站制作、深州網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!
1. 索引數(shù)據(jù)優(yōu)化
搜索引擎(以ES為例),是將一個查詢拆分為最細(xì)粒度的單位條件之后,按照單位條件檢索倒排索引得到單位結(jié)果集,然后對所有單位結(jié)果取交集得到最終的查詢結(jié)果,也就是說雖然一個查詢看起來只返回了10條記錄,但是有可能其中間結(jié)果是(100w)∩(100w)∩(100w)=10,所以看起來滿足條件的結(jié)果很少,但是查詢性能卻上不去。
這時要優(yōu)化性能,我們需要做的就是盡量減少中間結(jié)果集大小,讓取交集的時間盡可能短:
冷熱隔離
查詢倒排表是搜索引擎在執(zhí)行查詢時必需要做的,單個條件得到的結(jié)果集(id set)越小,當(dāng)然loop執(zhí)行獲取交集的時間越短,所以大致上查詢性能與索引數(shù)據(jù)量的大小成正比。
當(dāng)索引數(shù)據(jù)量變大之后,按照二八定律,80%的查詢落在最熱的20%數(shù)據(jù)上,那么將這20%數(shù)據(jù)單獨(dú)放到一個熱索引,可以有效減少單條件結(jié)果集大小,從而提高查詢性能;
ElasticSearch也會利用緩存來提高排序性能,比如fielddata,如果一個查詢命中了未緩存的冷字段,系統(tǒng)會自動加載該字段內(nèi)容(fielddata)到內(nèi)存,所以就冷查詢來說,通常帶排序的查詢要遠(yuǎn)遠(yuǎn)慢于普通查詢,如果做到冷熱隔離,命中熱索引的冷查詢加載fielddata的時間會大大減少,就算是冷查詢也能基本滿足低rt的查詢需求。
水平拆分
冷熱隔離有時候并不一定能完美解決業(yè)務(wù)需求,比如店內(nèi)搜索,商品編輯很多,冷熱交替頻繁,而且80%的店鋪商品量都不大。
對于此類數(shù)據(jù),有個明顯的特點(diǎn)是所有的查詢都帶有店鋪屬性,也就是只查詢單店鋪內(nèi)的數(shù)據(jù),這時候就可以考慮索引水平拆分了,按照店鋪維度將所有的商品數(shù)據(jù)拆分為n個子索引。
這樣原本一次查詢需要加載全部字段數(shù)據(jù)(fielddata),就可以變?yōu)橹患虞d店鋪所在的某個子索引的字段數(shù)據(jù)(1/n),所耗費(fèi)的資源能下降幾個數(shù)量級,另外單條件匹配倒排索引得到的結(jié)果集也可以縮小到原本的1/n,能夠?yàn)V掉很多其它店鋪的數(shù)據(jù)(對于本次查詢來說就是廢數(shù)據(jù))。
當(dāng)然拆分策略可以視具體的業(yè)務(wù)而定,比如也可以按照時間范圍來拆分。
另外補(bǔ)充一點(diǎn),之所以沒有垂直拆分是因?yàn)樗阉饕鏇]有辦法做在線join操作,要實(shí)現(xiàn)join需要自己動手取不同索引的數(shù)據(jù)做交集,如果跨度范圍大或者帶了排序條件,那么跨索引的查詢基本是無解。
引擎配置
配置調(diào)優(yōu)一般是搜索引擎性能優(yōu)化的第一步,這里又可以分為server配置和索引配置兩方面:
server配置
Lucene系的搜索引擎都是跑在jvm上的,所以合適的jvm啟動參數(shù)對搜索引擎的表現(xiàn)有著重要的影響,如果分配的heap內(nèi)存很大則更是如此,這里我就拋磚引玉把我們目前用到的一些jvm參數(shù)列一下,理念也就是盡量控制garbage內(nèi)存在ygc時就回收掉,控制臨時的大對象不進(jìn)入old區(qū)(當(dāng)然優(yōu)化查詢讓這些臨時大對象少生成也是一方面,下文會講到):
-XX:MaxGCPauseMillis=2000
-XX:+PrintGCDateStamps
-XX:+G1PrintHeapRegions
-XX:+UnlockDiagnosticVMOptions
-XX:+UnlockExperimentalVMOptions
-XX:+PrintAdaptiveSizePolicy
-XX:G1HeapRegionSize=32m
-XX:G1ReservePercent=15
-XX:InitiatingHeapOccupancyPercent=60
在集群規(guī)模擴(kuò)大之后,將各個node按角色拆分為master/data/client也是需要做
的,將全集群的狀態(tài)同步/選舉過程等任務(wù)剝離到master,將結(jié)果聚合(內(nèi)存開銷很大)/客戶端連接交互(http協(xié)議如果有大量短連接創(chuàng)建/銷毀,開銷也很大)等任務(wù)剝離到client,盡量減輕data node的負(fù)載(查詢/索引執(zhí)行過程都是data node負(fù)責(zé)的),以提高服務(wù)性能。
針對ElasticSearch,其緩存配置和breaker配置也需要根據(jù)業(yè)務(wù)應(yīng)用場景調(diào)整,比如寫多讀少并且索引量比較大的場景可以適當(dāng)降低filter cache大小,調(diào)高field data大?。ūM量讓加載到內(nèi)存的字段內(nèi)容保留,冷加載一次field data是有比較大開銷的,而且失效的field data eviction也會加重gc的負(fù)擔(dān));
而讀多寫少并且索引量也比較小的場景就可以降低field data的大小,調(diào)高filter的比例(提高緩存復(fù)用率);
breaker配置最好寫定比例,盡量讓緩存不要在堆內(nèi)存互相擠兌,避免加重gc負(fù)擔(dān)。
索引配置
索引配置比較靈活,粒度也比較細(xì),當(dāng)我們查詢索引時其實(shí)都是查詢某個時間的一個快照數(shù)據(jù),只有index searcher重載一次索引文件,這期間(兩次reopen index searcher之間)對索引進(jìn)行的操作才會可見,這段時間也叫做刷新時間(refresh_interval);
需要注意的是重載索引文件(reopen index searcher)的開銷很大,所以一般搜索引擎都是提供近實(shí)時的查詢服務(wù),以減少重載索引文件的次數(shù),降低系統(tǒng)負(fù)載,有個案例:曾經(jīng)將一個索引的刷新時間從1s調(diào)整到5s,整個搜索響應(yīng)時間從200ms降低到20ms以內(nèi),效果可見一斑。
字段配置是索引配置的一方面,簡而言之就是能不索引的就不索引,能不存到引擎的就不存,也要避免出現(xiàn)大面積的稀疏數(shù)據(jù)分布,目的就是減少資源消耗/減小索引文件大小,以提高內(nèi)存使用率,降低merge時間(索引文件需要定期merge,清理碎片文件);
有條件也可以指定查詢routing,讓某個查詢能夠直接命中特定的shard,而不必去所有shard收集數(shù)據(jù),減少等待時間;
到5.x版本,ES還是可以配置一個索引包含多個type的,實(shí)際上同一個索引的多個type物理上是存儲在同一個索引文件目錄內(nèi),也就是共享同一批索引文件,僅僅是通過隱藏的_uid/_type字段來區(qū)分。
那么問題來了,如果某個type的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于其他type,數(shù)據(jù)量最大的type就會成為其他type性能表現(xiàn)的瓶頸(merge受影響,如果字段不相同還會導(dǎo)致稀疏數(shù)據(jù)問題,浪費(fèi)寶貴的mem資源)。
因此生產(chǎn)中我們是禁止一個索引包含多個type的,而在ES6.x版本預(yù)告中也表示7.0版本中將使用默認(rèn)type,不再允許同一個索引配置多type了。
順便提一句:多type在字段映射(mapping)上也有所限制,同名字段必須使用相同的類型 。
讀到這里,這篇“ElasticSearch索引數(shù)據(jù)優(yōu)化的方法”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識點(diǎn)還需要大家自己動手實(shí)踐使用過才能領(lǐng)會,如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。