Elasticsearch不支持事務有什么好的彌補方案,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
創(chuàng)新互聯(lián)建站主要從事成都網站建設、網站建設、網頁設計、企業(yè)做網站、公司建網站等業(yè)務。立足成都服務龍巖,十余年網站建設經驗,價格優(yōu)惠、服務專業(yè),歡迎來電咨詢建站服務:18980820575
es如何與hive或MySQL結合使用?es不支持事務有什么好的彌補方案嗎?
如果一個數(shù)據(jù)庫聲稱支持事務的操作,那么該數(shù)據(jù)庫必須要具備以下ACID四個特性:
原子性(Atomicity)
原子性是指事務包含的所有操作要么全部成功,要么全部失敗回滾,
一致性(Consistency)
一致性是指事務必須使數(shù)據(jù)庫從一個一致性狀態(tài)變換到另一個一致性狀態(tài),也就是說一個事務執(zhí)行之前和執(zhí)行之后都必須處于一致性狀態(tài)。
隔離性(Isolation)
隔離性是當多個用戶并發(fā)訪問數(shù)據(jù)庫時,比如操作同一張表時,數(shù)據(jù)庫為每一個用戶開啟的事務,不能被其他事務的操作所干擾,多個并發(fā)事務之間要相互隔離。
持久性(Durability)
持久性是指一個事務一旦被提交了,那么對數(shù)據(jù)庫中的數(shù)據(jù)的改變就是永久性的,即便是在數(shù)據(jù)庫系統(tǒng)遇到故障的情況下也不會丟失提交事務的操作。
為了更好地理解ACID,以銀行賬戶轉賬為例:
1START TRANSACTION;
2SELECT balance FROM checking WHERE customer_id = 10233276;
3UPDATE checking SET balance = balance - 200.00 WHERE customer_id = 10233276;
4UPDATE savings SET balance = balance + 200.00 WHERE customer_id = 10233276;
5COMMIT;
原子性:要么完全提交(10233276的checking余額減少200,savings 的余額增加200),要么完全回滾(兩個表的余額都不發(fā)生變化)
一致性:這個例子的一致性體現(xiàn)在 200元不會因為數(shù)據(jù)庫系統(tǒng)運行到第3行之后,第4行之前時崩潰而不翼而飛,因為事務還沒有提交。
隔離性:允許在一個事務中的操作語句會與其他事務的語句隔離開,比如事務A運行到第3行之后,第4行之前,此時事務B去查詢checking余額時,它仍然能夠看到在事務A中被減去的200元(賬戶錢不變),因為事務A和B是彼此隔離的。在事務A提交之前,事務B觀察不到數(shù)據(jù)的改變。
持久性:一個事務一旦commit,對數(shù)據(jù)的修改是持久的。
一些支持ACID數(shù)據(jù)存儲的數(shù)據(jù)庫包括:Postgres, SQLite, Oracle, MySQL (with InnoDB), and MongoDB (4.0+),不包括Elasticsearch。
Elasticsearch的底層技術是Lucene,Lucene是追求速度而非冗余的信息檢索技術。Lucene具有完全不同的體系結構,可以提供極快的性能,但代價是更容易受到數(shù)據(jù)丟失的影響。
丟失數(shù)據(jù)有很多種方式,如果需要的話,你需要重新創(chuàng)建數(shù)據(jù)。 沒錯,Elasticsearch有一個快照/恢復功能,但是這個過程只會在數(shù)據(jù)丟失的情況下部分恢復。 除非您在其他系統(tǒng)對數(shù)據(jù)有額外的備份存儲,否則最新快照和中斷之間的更新將會丟失。 快照/恢復在分裂大腦的情況下也無濟于事,因為沒有用于協(xié)調每個分區(qū)的更新的機制。 更新將會丟失。
數(shù)據(jù)安全性場景:ElasticSearch的shard支持replication,一份數(shù)據(jù)可以保存多份,如果某一臺機器掛掉了,數(shù)據(jù)在其他機器上還有,不用擔心丟失。
訪問安全性場景:隨著x-pack開源,ElasticSearch支持驗證,不用擔心未授權的訪問?;蛘呓柚谌絪earch-guard等。
遷移特性:ElasticSearch支持眾多的插件,在和其他開源系統(tǒng)之間導入,導出數(shù)據(jù)都很簡單。
數(shù)據(jù)完整性:ElasticSearch支持保存數(shù)據(jù)原文。
不支持事務,如前所述。
類似數(shù)據(jù)庫中通過外鍵的復雜的多表關聯(lián)操作,Elasticsearch天生支持不足。
讀寫有一定延時,寫入的數(shù)據(jù),最快1s中能被檢索到。
實時性的官網解讀:
In Elasticsearch, this lightweight process of writing and opening a
new segment is called a refresh. By default, every shard is refreshed
automatically once every second. This is why we say that Elasticsearch
has near real-time search: document changes are not visible to search
immediately, but will become visible within 1 second.
默認的刷新頻率設置是1秒,也就是說文檔從Index請求到對外可見能夠被搜到,最少要1秒鐘,強制的,你的網絡和CPU再快也不行。這么做是Lucene為了提高寫操作的吞吐量而做出的延遲犧牲,當然這個設置是可以手動調整的,但是并不建議你去動它,會極大地影響搜索性能。不同的應用對實時性的定義并不一樣,這取決于你的需求。
ES不是關系數(shù)據(jù)庫,因此如果您的數(shù)據(jù)會受益于外鍵等等,那么ES不是您主要數(shù)據(jù)存儲的好選擇
使用哪種產品作為數(shù)據(jù)倉庫或主數(shù)據(jù)庫存儲完全取決于具體的應用場景。
如果信息獲取及分析的能力是你的首要需求,那么無疑Elasticsearch是一個好的選擇。
如果你的數(shù)據(jù)并不頻繁的update操作,也沒有事務性操作,那么完全可以用Elasticsearch替代其他存儲。
實時性要求高的場景,需要結合ACID特性的數(shù)據(jù)庫和Elasticsearch結合使用。
選型核心思考問題如下:
設計時候注意:
創(chuàng)建的每個Elasticsearch索引都應該由符合ACID的數(shù)據(jù)存儲支持。
數(shù)據(jù)庫應該是真實的最終來源,從中填充索引。
如果異常情況發(fā)生(節(jié)點丟失,中斷或誤操作 )導致丟失了索引,您將能夠完全恢復它。
一般的用法是另外的數(shù)據(jù)庫比如NOSQL里面有一份,然后實時同步到ES,這樣一個用于鍵值查詢,一個用于各種其他查詢。 如果ES升級了之類的,比如數(shù)據(jù)結構變了,那么老版本數(shù)據(jù)可以不要,直接NOSQL再導入一份到新版本,還可以恢復。
logstash的同步插件如logstash_input_jdbc 不支持同步刪除操作,建議改為更新操作加標記flag,或者通過業(yè)務邏輯實現(xiàn)同步刪除操作。
核心操作:
ES中只存儲檢索字段,方便快速檢索、全文檢索。
Mysql中存儲全部字段,利用ACID事務特性。
通過關聯(lián)字段建立關聯(lián),比如:news_id在ES和mysql中要有相同的值。
核心數(shù)據(jù)先通過ES快速獲取Id(如news_id),再通過Mysql二次查詢。
關于Elasticsearch不支持事務有什么好的彌補方案問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關知識。