ElasticSearch的作用是什么,針對這個(gè)問題,這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡單易行的方法。
創(chuàng)新互聯(lián)一直秉承“誠信做人,踏實(shí)做事”的原則,不欺瞞客戶,是我們最起碼的底線! 以服務(wù)為基礎(chǔ),以質(zhì)量求生存,以技術(shù)求發(fā)展,成交一個(gè)客戶多一個(gè)朋友!為您提供成都網(wǎng)站制作、網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)、成都網(wǎng)頁設(shè)計(jì)、重慶小程序開發(fā)公司、成都網(wǎng)站開發(fā)、成都網(wǎng)站制作、成都軟件開發(fā)、手機(jī)APP定制開發(fā)是成都本地專業(yè)的網(wǎng)站建設(shè)和網(wǎng)站設(shè)計(jì)公司,等你一起來見證!
ElasticSearch的目標(biāo)就是實(shí)現(xiàn)搜索。在數(shù)據(jù)量少的時(shí)候,我們可以通過索引去搜索關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),但是如果數(shù)據(jù)量很大,搜索的效率就會(huì)很低,這個(gè)時(shí)候我們就需要一種分布式的搜索引擎。Elasticsearch是一個(gè)基于Lucene的搜索服務(wù)器。它提供了一個(gè)分布式多用戶能力的全文搜索引擎,基于RESTful web接口。
ES主要用于全文檢索、結(jié)構(gòu)化搜索以及分析。ES的應(yīng)用十分廣泛,比如維基百科、Github等都使用ES實(shí)現(xiàn)搜索。
ES既然是用來搜索的,那么它必然也需要存儲(chǔ)數(shù)據(jù)。在MySQL等關(guān)系型數(shù)據(jù)庫中,數(shù)據(jù)的存儲(chǔ)遵循下面的邏輯:
一個(gè)數(shù)據(jù)庫(database)中有多個(gè)表(tables),每個(gè)表有多行數(shù)據(jù)(rows),每一行數(shù)據(jù)由多個(gè)字段(columns)組成。
ES中的存儲(chǔ)是這樣的:
一個(gè)索引(indeces)相當(dāng)于一個(gè)數(shù)據(jù)庫(database),每個(gè)索引中有多個(gè)類型types(相當(dāng)于表結(jié)構(gòu)),每個(gè)索引中有多個(gè)documents(相當(dāng)于行),每個(gè)documents由多個(gè)fields組成(相當(dāng)于字段)。
你可以把ES理解為他是一個(gè)面向文檔的數(shù)據(jù)庫。下面用一張圖描述ES和關(guān)系型數(shù)據(jù)庫之間的相似之處:
值得注意的是,在ES7.x版本中,types將慢慢被遺棄,在8.x版本中,types將會(huì)徹底棄用。
ES中的索引和Mysql中的索引不是同一種東西,ES中的索引是一個(gè)文檔的集合,索引就是一個(gè)數(shù)據(jù)庫。
前面說了ES是面向文檔的,文檔是ES中最重要的單位,文檔就是一條條的數(shù)據(jù)。文檔中有幾個(gè)重要的概念:
1、一篇文檔中包含多個(gè)key:value
2、文檔其實(shí)就是一個(gè)JSON字符串
我們通過EShead創(chuàng)建一個(gè)索引時(shí),他會(huì)讓我們選擇分片數(shù)量和副本數(shù)量
ES是一個(gè)分布式搜索引擎,分片就是把一堆數(shù)據(jù)分布到多個(gè)分片中。而索引是對每個(gè)分片的一個(gè)備份,這些副本同樣能處理查詢請求。
現(xiàn)在假設(shè)集群有兩個(gè)node節(jié)點(diǎn),設(shè)置分片數(shù)是5個(gè),副本數(shù)是1個(gè),那么數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)將變成下面這樣,可以保證副本和分片在不同的節(jié)點(diǎn)上:
為什么ES的搜索這么快,和其中所使用的倒排索引也有一定的關(guān)系。倒排索引建立的是分詞和文檔之間的映射關(guān)系。下面通過一個(gè)簡單的例子來講解一下什么是倒排索引
原來的數(shù)據(jù)中我們通過文檔ID去關(guān)聯(lián)標(biāo)簽,但是在查詢時(shí)就需要遍歷所有文檔。通過倒排索引,我們可以通過關(guān)鍵詞來找到最匹配的文檔。
ES是基于Restful風(fēng)格進(jìn)行操作的,因此對于習(xí)慣了寫crud的程序員來說,ES很容易上手。ES的操作可以使用Kibana,也可以使用Postman直接調(diào)用,因?yàn)闅w根結(jié)底它就是一個(gè)restful的操作。我這里使用Idea的ES插件直接調(diào)用。 3.1 創(chuàng)建文檔
PUT http://ip:port/索引名/類型名/文檔id { "key":"value" }
因?yàn)轭愋兔诤罄m(xù)的版本中將會(huì)被刪除,這里可以用_doc代表默認(rèn)類型:
PUT http://ip:port/索引名/_doc/文檔id
下面給出操作截圖
通過put創(chuàng)建一個(gè)索引之后,我們可以在head中看到對應(yīng)的數(shù)據(jù)
3.1中創(chuàng)建數(shù)據(jù)時(shí),沒有指定具體的數(shù)據(jù)類型,我們當(dāng)然也可以為索引指定數(shù)據(jù)類型
PUT http://ip:port/索引名 參數(shù)示例: { "mappings": { "properties": { "name": { "type": "text" }, "address": { "type": "text" } } } }
ES中的核心數(shù)據(jù)類型如下:
(1)字符串類型: text, keyword (2)數(shù)字類型:long, integer, short, byte, double, float, half_float, scaled_float (3)日期:date (4)日期 納秒:date_nanos (5)布爾型:boolean (6)Binary:binary (7)Range: integer_range, float_range, long_range, double_range, date_range
通過GET請求可以查看索引以及文檔的信息:
GET http://ip:port/索引名 #查看索引 GET http://ip:port/索引名/類型名/文檔ID #查看文檔
修改數(shù)據(jù)和創(chuàng)建數(shù)據(jù)一樣,通過PUT操作就會(huì)更新原來的數(shù)據(jù):
PUT http://ip:port/索引名/類型名/文檔id { "key":"value" }
如果是修改的話,響應(yīng)結(jié)果中的version就會(huì)增加。
另外一種方法是使用Post請求:
POST http://ip:port/索引名/類型名/文檔id/_update 參數(shù)實(shí)例: { "doc": { "name": "javayz4" } }
更推薦使用這種方式,如果使用PUT方法忘了加某個(gè)key,更新就會(huì)變成新增
通過DELETE的方式刪除數(shù)據(jù)
DELETE http://ip:port/索引名/類型名/文檔id #刪除具體的文檔 DELETE http://ip:port/索引名 #刪除索引
ES最重要的就是它的搜索操作了。
直接將搜索的參數(shù)帶到鏈接中:
GET http://ip:port/索引名/_search?q=key:value
結(jié)果如下:
除了將參數(shù)放到鏈接當(dāng)中,還可以將參數(shù)通過JSON請求體的方式傳遞,其中from和size是分頁的參數(shù),query中傳遞查詢條件,_source表示結(jié)果中要展示的列,不寫就表示展示所有。
GET http://ip:port/索引名/_search 參數(shù)示例: { "from": 0, "size": 20, "query": { "match": { "name": "javayz2" } }, "_source": ["name","address"] }
除了上面示例中的這些參數(shù)之外,還有很多參數(shù)可以使用,比如排序:
"sort": [ { "age": { "order": "desc" } } ]
多條件查詢:must表示下面的兩個(gè)條件都要滿足,還可以填should,表示任意滿足其中一個(gè)條件即可,或者是must_not,表示must的相反值
"query": { "bool": { "must": [ { "match": { "name": "javayz" } }, { "match": { "address": "hz" } } ] } }
如果你的數(shù)據(jù)中存在集合,可以通過空格對多個(gè)條件進(jìn)行查詢:
查詢過程中還支持高亮查詢
"highlight":{ "pre_tags": "", "post_tags": "", "fields": { "name": {} } }
所謂分詞器,就是將一段話分成一個(gè)個(gè)關(guān)鍵字,搜索時(shí)就按照這些關(guān)鍵字進(jìn)行搜索。比較好用的分詞器有中文的IK分詞器。
給出下載鏈接:https://github.com/medcl/elasticsearch-analysis-ik/releases
下載和自己ES相同的版本,在plugin目錄下新建一個(gè)ik文件夾,將下載的文件解壓到ik目錄下,重新啟動(dòng)即可。
IK分詞器提供了兩種算法:
1、ik_smart:最少切分
2、ik_max_word:最細(xì)粒劃分
首先最少切分是根據(jù)字典給出最少的切分:
ik_max_word是最細(xì)粒劃分,他會(huì)給出最多的結(jié)果:
{ "analyzer": "ik_max_word", "text": "我是Java工程師" }
結(jié)果:
{ "tokens": [ { "token": "我", "start_offset": 0, "end_offset": 1, "type": "CN_CHAR", "position": 0 }, { "token": "是", "start_offset": 1, "end_offset": 2, "type": "CN_CHAR", "position": 1 }, { "token": "java", "start_offset": 2, "end_offset": 6, "type": "ENGLISH", "position": 2 }, { "token": "工程師", "start_offset": 6, "end_offset": 9, "type": "CN_WORD", "position": 3 }, { "token": "工程", "start_offset": 6, "end_offset": 8, "type": "CN_WORD", "position": 4 }, { "token": "師", "start_offset": 8, "end_offset": 9, "type": "CN_CHAR", "position": 5 } ] }
對于一些名詞,IK自帶的字典無法區(qū)分,比如我的博客名Java魚仔,它分詞后是這樣的:
因此我們需要手動(dòng)去增加這樣的字典,IK目錄下的config/IKAnalyzer.cfg.xml中可以添加自己的字典,首先我在config下新建一個(gè)my.dic文件,里面的詞匯現(xiàn)在只寫了一個(gè)Java魚仔。然后在配置文件中配置自己的my.dic
IK Analyzer 擴(kuò)展配置 my.dic
重啟后再次進(jìn)行分詞,結(jié)果如下:
關(guān)于ElasticSearch的作用是什么問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。