英文原文:https://qbox.io/blog/elasticsearch-search-tuning-5-0-ultimate-guide
作者:Adam Vanderbush
譯者:楊振濤在峽江等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場(chǎng)前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供網(wǎng)站設(shè)計(jì)、網(wǎng)站制作 網(wǎng)站設(shè)計(jì)制作定制網(wǎng)站制作,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),成都品牌網(wǎng)站建設(shè),營(yíng)銷型網(wǎng)站,成都外貿(mào)網(wǎng)站建設(shè),峽江網(wǎng)站建設(shè)費(fèi)用合理。
目錄
Elasticsearch搜索調(diào)優(yōu)權(quán)威指南,是QBOX在其博客上發(fā)布的系列文章之一,本文是該系列的第一篇,主要從文檔建模、內(nèi)存分配、文件系統(tǒng)緩存、GC和硬件等方面介紹了優(yōu)化查詢性能的一些經(jīng)驗(yàn)。
Elasticsearch 5.0.0確實(shí)是在2.x之后的一個(gè)大版本,為大家?guī)砹嗽S多新東西。Elasticsearch現(xiàn)在作為Elastic Stack中的一員,與整個(gè)技術(shù)棧的其他產(chǎn)品的版本號(hào)已經(jīng)對(duì)齊,現(xiàn)在Kibana、Logstash、Beats和Elasticsearch全都是5.0版本了。
這個(gè)版本的Elasticsearch是目前為止最快、最安全、最彈性,也是最易用的,而且還帶來了很多的改進(jìn)和新特性。
我們已經(jīng)通過“Elasticsearch性能調(diào)優(yōu)權(quán)威指南”系列,介紹了一些性能調(diào)優(yōu)的基本經(jīng)驗(yàn)和方法,解釋了每一步最關(guān)鍵的系統(tǒng)設(shè)置和衡量指標(biāo)。該系列共分下列3個(gè)部分:
索引決策也很重要,它對(duì)如何搜索數(shù)據(jù)有很大的影響。如果是一個(gè)字符串字段,是否需要分詞或歸一化?如果是,怎么做?如果是一個(gè)數(shù)值型屬性,需要哪種精度?還有很多其他類型,比如date-time、geospatial shape以及父子關(guān)系等,需要更多特別的考慮。
我們也通過一個(gè)系列教程討論了“Elasticsearch索引性能優(yōu)化”,介紹了一些通用的技巧和方法,來最大化索引的吞吐量并降低監(jiān)控和管理的負(fù)載。該教程分如下3個(gè)部分:
本文旨在推薦一些搜索調(diào)優(yōu)技術(shù)、策略以及Elasticsearch 5.0及以上的推薦特性。
內(nèi)部對(duì)象屬性數(shù)組并不像期望的那樣工作。Lucene?中沒有內(nèi)部對(duì)象的概念,所以Elasticsearch把對(duì)象層次展開到一個(gè)由屬性名稱和屬性值組成的簡(jiǎn)單列表中。以下列文檔為例:
curl -XPUT 'localhost:9200/my_index/my_type/1?pretty' -H 'Content-Type: application/json' -d '{
"group" : "fans",
"user" : [
{
"first" : "John",
"last" : "Smith"
},
{
"first" : "Alice",
"last" : "White"
}
]
}'
該請(qǐng)求會(huì)在內(nèi)部轉(zhuǎn)換為如下的文檔形式:
{
"group" : "fans",
"user.first" : [ "alice", "john" ],
"user.last" : [ "smith", "white" ]
}
如果需要索引對(duì)象數(shù)組,并維護(hù)數(shù)組中每個(gè)對(duì)象的依賴關(guān)系,應(yīng)當(dāng)使用內(nèi)嵌數(shù)據(jù)類型而不是對(duì)象數(shù)據(jù)類型。內(nèi)嵌對(duì)象在內(nèi)部會(huì)把數(shù)組中的每個(gè)對(duì)象當(dāng)作單獨(dú)的隱藏文檔來索引,即使用下述內(nèi)嵌查詢,可以單獨(dú)查詢每個(gè)內(nèi)嵌對(duì)象:
curl -XPUT 'ES_HOST:ES_PORT/my_index?pretty' -H 'Content-Type: application/json' -d '{
"mappings": {
"my_type": {
"properties": {
"user": {
"type": "nested"
}
}
}
}
}'
curl -XPUT 'ES_HOST:ES_PORT/my_index/my_type/1?pretty' -H 'Content-Type: application/json' -d '{
"group" : "fans",
"user" : [
{
"first" : "John",
"last" : "Smith"
},
{
"first" : "Alice",
"last" : "White"
}
]
}'
curl -XGET 'ES_HOST:ES_PORT/my_index/_search?pretty' -H 'Content-Type: application/json' -d '{
"query": {
"nested": {
"path": "user",
"query": {
"bool": {
"must": [
{ "match": { "user.first": "Alice" }},
{ "match": { "user.last": "Smith" }}
]
}
}
}
}
}'
curl -XGET 'ES_HOST:ES_PORT/my_index/_search?pretty' -H 'Content-Type: application/json' -d '{
"query": {
"nested": {
"path": "user",
"query": {
"bool": {
"must": [
{ "match": { "user.first": "Alice" }},
{ "match": { "user.last": "White" }}
]
}
},
"inner_hits": {
"highlight": {
"fields": {
"user.first": {}
}
}
}
}
}
}'
當(dāng)有一個(gè)主實(shí)體比如一篇博客文章,帶有一些有一定關(guān)系但又不是非常重要的其他實(shí)體比如評(píng)論時(shí),內(nèi)嵌對(duì)象會(huì)非常有用。如果能根據(jù)評(píng)論內(nèi)容來查詢到博客文章,那就很不錯(cuò),而且內(nèi)嵌查詢和過濾器一起提供了更快的join查詢能力。
內(nèi)嵌對(duì)象模型的缺點(diǎn)如下:
為了 增加 、修改 或 刪除 一個(gè)內(nèi)嵌對(duì)象文檔,整個(gè)文檔必須重建索引;這就導(dǎo)致內(nèi)嵌文檔越多開銷就越大。
搜索請(qǐng)求返回整個(gè)文檔,而不是只返回匹配的內(nèi)嵌文檔。雖然已經(jīng)以后計(jì)劃支持返回根文檔的部分最配內(nèi)嵌文檔,但目前仍然不支持。
有時(shí)候可能需要把主文檔和其關(guān)聯(lián)實(shí)體分離,這種分離由父子關(guān)系來提供。
通過建立另一個(gè)文檔的父類型mapping,可以在相同索引的文檔之間建立父子關(guān)系:
curl -XPUT 'ES_HOST:ES_PORT/my_index?pretty' -H 'Content-Type: application/json' -d '{
"mappings": {
"my_parent": {},
"my_child": {
"_parent": {
"type": "my_parent"
}
}
}
}'
curl -XPUT 'ES_HOST:ES_PORT/my_index/my_parent/1?pretty' -H 'Content-Type: application/json' -d '{
"text": "This is a parent document"
}'
curl -XPUT 'ES_HOST:ES_PORT/my_index/my_child/2?parent=1&pretty' -H 'Content-Type: application/json' -d '{
"text": "This is a child document"
}'
curl -XPUT 'ES_HOST:ES_PORT/my_index/my_child/3?parent=1&refresh=true&pretty' -H 'Content-Type: application/json' -d '{
"text": "This is another child document"
}'
curl -XGET 'ES_HOST:ES_PORT/my_index/my_parent/_search?pretty' -H 'Content-Type: application/json' -d '{
"query": {
"has_child": {
"type": "my_child",
"query": {
"match": {
"text": "child document"
}
}
}
}
}'
父子join對(duì)管理實(shí)體關(guān)系非常有用,尤其是在索引時(shí)間比檢索時(shí)間很重要的情形下,但是它會(huì)帶來較大的開銷;父子查詢比同等的內(nèi)嵌查詢要慢5到10倍。
父子關(guān)系使用了全局序列號(hào)來加速join操作。無論父子map是否使用了內(nèi)存緩存或磁盤上的doc value,全局序列號(hào)仍然需要在索引發(fā)生任何改變時(shí)進(jìn)行重建。
分片中的父代越多,全局序列號(hào)構(gòu)建就越耗時(shí)。相對(duì)于需要父代和較少的子代, 父子關(guān)系最適合每個(gè)父代有很多子代的情形。
全局序列號(hào)默認(rèn)是 延遲 構(gòu)建:refresh后的第一個(gè)父子查詢或聚合請(qǐng)求將會(huì)觸發(fā)構(gòu)建全局序列號(hào)。這會(huì)讓用戶感知到一個(gè)明顯的潛在峰值??梢允褂胑ager_global_ordinals 來把查詢期構(gòu)建全局序列號(hào)的成本轉(zhuǎn)移到refresh期,通過如下方式mapping _parent屬性:
curl -XPUT 'ES_HOST:ES_PORT/company -d ‘{
"mappings": {
"branch": {},
"employee": {
"_parent": {
"type": "branch",
"fielddata": {
"loading": "eager_global_ordinals"
}
}
}
}
}’
這里,_parent屬性的全局序列號(hào)將會(huì)在一個(gè)新的段搜索可見時(shí)被構(gòu)建。
對(duì)于很多的父代,全局序列號(hào)要花費(fèi)數(shù)秒鐘來構(gòu)建。此時(shí),需要增加refresh_interval,以便refresh的頻率更低,而全局序列號(hào)保持可用的時(shí)間更長(zhǎng)。這將大幅減少每秒鐘重建全局序列號(hào)的CPU消耗。
對(duì)多代數(shù)據(jù)的Join(參考Grandparents and Grandchildren)能力聽起來很吸引人,但需要思考其代價(jià):
對(duì)于運(yùn)行中Elasticsearch,內(nèi)存是需要密切監(jiān)控的重要資源之一。Elasticsearch和Lucene通過JVM堆內(nèi)存和文件系統(tǒng)緩存兩種方式來消耗內(nèi)存。由于Elasticsearch運(yùn)行在Java虛擬機(jī)(JVM)中,所以JVM的GC周期和頻率也需要重點(diǎn)監(jiān)控。
JVM堆內(nèi)存
對(duì)于Elasticsearch一個(gè)“剛好合適”的JVM堆大小是非常重要的——不能設(shè)置過大或過小,原因見后文。一般來說Elasticsearch的經(jīng)驗(yàn)值是分配少于50%的可用RAM給JVM堆,且不要超過32GB。
為Elasticsearch分配過少的堆內(nèi)存,那么就會(huì)留給Lucene更多內(nèi)存,而Lucene重度依賴于文件系統(tǒng)緩存來快速處理請(qǐng)求。不管怎樣也不能設(shè)置過小的堆內(nèi)存,因?yàn)楫?dāng)應(yīng)用由于頻繁GC而面臨短時(shí)中斷時(shí),可能會(huì)遭遇內(nèi)存溢出錯(cuò)誤或吞吐量下降。
Elasticsearch默認(rèn)安裝時(shí)設(shè)置的JVM堆大小為1GB,這在大多數(shù)情況下都偏小。可以通過環(huán)境變量來設(shè)置期望的對(duì)大小并重啟Elasticsearch:
export ES_HEAP_SIZE=10g
設(shè)置JVM堆大小的另一種方式(相當(dāng)于設(shè)置一樣的最小值和最大值,以防止重新調(diào)整堆大?。窃诿看螁?dòng)Elasticsearch時(shí)通過命令行參數(shù)指定:
ES_HEAP_SIZE="10g" ./bin/elasticsearch
這兩種示例方式都是設(shè)置了10GB的堆大小,為了驗(yàn)證是否設(shè)置成功,執(zhí)行:
curl -XGET http://ES_HOST:9200/_cat/nodes?h=heap.max
返回的輸出會(huì)顯示已正確地更新了最大堆內(nèi)存。
垃圾回收
Elasticsearch依靠GC過程來釋放堆內(nèi)存。由于GC本身也要消耗資源(為了釋放資源?。詰?yīng)當(dāng)留意GC頻率和持續(xù)時(shí)間,以確認(rèn)是否需要調(diào)整堆內(nèi)存大小。設(shè)置過大的堆內(nèi)存,換來的是更長(zhǎng)的GC時(shí)間;這種過多的停頓非常危險(xiǎn),因?yàn)榭赡軐?dǎo)致集群誤認(rèn)為該節(jié)點(diǎn)網(wǎng)絡(luò)異常而失聯(lián)。
因此,Elasticsearch重度依賴文件系統(tǒng)緩存來加速搜索。一般需要保證至少有一半的可用內(nèi)存用于文件系統(tǒng)緩存,這樣Elasticsearch才能保持索引數(shù)據(jù)的熱點(diǎn)區(qū)域都在物理內(nèi)存中。
使用更快的硬件
如果搜索受限于I/O,應(yīng)當(dāng)考慮為文件系統(tǒng)緩存分片更多內(nèi)存(參考前文),或者購(gòu)買更快的驅(qū)動(dòng)。特別地,SSD公認(rèn)地比機(jī)械磁盤性能好很多。盡可能使用本地存儲(chǔ),避免使用像 NFS 或 SMB 之類的遠(yuǎn)程或網(wǎng)絡(luò)文件系統(tǒng),也要注意像Amazon EBS這樣的虛擬化存儲(chǔ)。
Elasticsearch使用虛擬化存儲(chǔ)工作是沒有問題的,它因?yàn)榭焖俸桶惭b簡(jiǎn)單而受歡迎,但同樣不幸的是,在基礎(chǔ)上與專用的本地存儲(chǔ)相比它天生就比較慢。如果在EBS上創(chuàng)建了一個(gè)索引庫,請(qǐng)確認(rèn)使用預(yù)分配的IOPS,否則很快就會(huì)被限流。
如果搜索受限于CPU,那么應(yīng)當(dāng)考慮購(gòu)買更快的CPU。