支持NoSQL的搜索引擎,nosql查詢

AWS開(kāi)源可跨關(guān)聯(lián)式與NoSQL數(shù)據(jù)庫(kù)的查詢語(yǔ)言PartiQL

AWS推出了與SQL兼容的查詢語(yǔ)言PartiQL，只要數(shù)據(jù)庫(kù)查詢引擎提供PartiQL支持，使用者就能以PartiQL單一查詢關(guān)聯(lián)式數(shù)據(jù)庫(kù)的結(jié)構(gòu)化資料，以及開(kāi)放資料格式中的巢狀資料或是半結(jié)構(gòu)化資料，甚至還能用來(lái)查詢NoSQL或是文件數(shù)據(jù)庫(kù)中無(wú)固定結(jié)構(gòu)（Schema-less）的資料。除了AWS自家的數(shù)據(jù)庫(kù)服務(wù)，NoSQL數(shù)據(jù)庫(kù)Couchbase Server也承諾將會(huì)支持PartiQL。

創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),邊壩企業(yè)網(wǎng)站建設(shè),邊壩品牌網(wǎng)站建設(shè),網(wǎng)站定制,邊壩網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,邊壩網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè)，幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力?？沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿，時(shí)刻以成就客戶成長(zhǎng)自我，堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己，讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。

企業(yè)資料分散在關(guān)聯(lián)式數(shù)據(jù)庫(kù)、非關(guān)聯(lián)式數(shù)據(jù)庫(kù)以及資料湖泊中。高度結(jié)構(gòu)化的資料，儲(chǔ)存在SQL數(shù)據(jù)庫(kù)或是資料倉(cāng)儲(chǔ)；無(wú)固定結(jié)構(gòu)的資料則由鍵值儲(chǔ)存、圖形數(shù)據(jù)庫(kù)（Graph Database）、分類帳數(shù)據(jù)庫(kù)或是時(shí)間序列數(shù)據(jù)庫(kù)等NoSQL數(shù)據(jù)庫(kù)處理；而在資料湖泊中的資料，可能也有部分缺乏結(jié)構(gòu)，或是可能為巢狀或是多值結(jié)構(gòu)。不同的資料類型適用于不同的使用案例，而每種類型的資料，可能都有自己的查詢語(yǔ)言。

不同的資料儲(chǔ)存對(duì)應(yīng)不同的查詢語(yǔ)言，當(dāng)企業(yè)更換資料格式或是數(shù)據(jù)庫(kù)引擎時(shí)，可能還需要跟著改變應(yīng)用程式和查詢語(yǔ)法，AWS提到，這對(duì)于資料的應(yīng)用，特別是使用資料湖泊的靈活性與效率，有著很大的阻礙。為了統(tǒng)一不同類型數(shù)據(jù)庫(kù)存取方法，AWS發(fā)布了查詢語(yǔ)言PartiQL，這是個(gè)與SQL兼容的查詢語(yǔ)言，可以用來(lái)查詢以各種格式儲(chǔ)存在各地的資料。

用戶可以使用PartiQL來(lái)查詢關(guān)聯(lián)式數(shù)據(jù)庫(kù)，像是在Redshift實(shí)作交易或是資料分析等應(yīng)用，或?qū)τ贏mazon S3資料湖泊的開(kāi)放資料格式，同樣能使用PartiQL對(duì)巢狀資料與半結(jié)構(gòu)化資料例如Amazon Ion格式進(jìn)行查詢，另外，PartiQL也可用于文件數(shù)據(jù)庫(kù)等NoSQL數(shù)據(jù)庫(kù)，查詢無(wú)固定結(jié)構(gòu)的資料。

AWS表示，PartiQL的出現(xiàn)，是為了滿足自家查詢和轉(zhuǎn)換大量資料的需求，其提供嚴(yán)格的SQL兼容性，可與標(biāo)準(zhǔn)SQL混合使用，執(zhí)行連接（Join）、過(guò)濾（Filtering）與聚合（Aggregation）操作，并以最小擴(kuò)充支持巢狀和半結(jié)構(gòu)化資料，讓開(kāi)發(fā)者以簡(jiǎn)單且一致的方法，不需要更改查詢語(yǔ)言，就能查詢各種格式和服務(wù)的資料。

PartiQL具格式獨(dú)立性與儲(chǔ)存獨(dú)立性，PartiQL語(yǔ)法和語(yǔ)義不依賴任何資料格式，無(wú)論使用者是要查詢JSON、Parquet、ORC、CSV還是Ion等格式，查詢語(yǔ)句的寫(xiě)法都相同，PartiQL的查詢?cè)诰C合邏輯類型系統(tǒng)上運(yùn)作，才對(duì)應(yīng)到不同底層的格式。而PartiQL也不相依于特定資料儲(chǔ)存，因此適用于不同的底層資料儲(chǔ)存。

雖然過(guò)去針對(duì)跨不同類型數(shù)據(jù)庫(kù)查詢的問(wèn)題，已有不少解決方案，AWS指出，像是Postgres JSON同樣也兼容于SQL，但是卻無(wú)法良好地處理JSON巢狀資料；而半結(jié)構(gòu)化查詢語(yǔ)言，雖然能良好處理巢狀資料，但卻無(wú)法與SQL語(yǔ)言兼容。AWS提到，PartiQL是第一個(gè)能夠完全解決這些問(wèn)題的查詢語(yǔ)言。

目前AWS已在自家多項(xiàng)服務(wù)支持PartiQL，包括Amazon S3 Select、Amazon Glacier Select、Amazon Redshift Spectrum、Amazon QLDB，接下來(lái)幾個(gè)月將會(huì)有更多的AWS服務(wù)支持PartiQL，Couchbase也公布將加入支持PartiQL的行列?，F(xiàn)在PartiQL以Apache2.0授權(quán)許可開(kāi)源，公開(kāi)教學(xué)、規(guī)范以及參考實(shí)作，所有社群都能使用并參與貢獻(xiàn)。

大型互聯(lián)網(wǎng)架構(gòu)概述，看完文章又漲知識(shí)了

1. 大型網(wǎng)站系統(tǒng)的特點(diǎn)

2. 大型網(wǎng)站架構(gòu)演化歷程

2.1. 初始階段架構(gòu)

問(wèn)題：網(wǎng)站運(yùn)營(yíng)初期，訪問(wèn)用戶少，一臺(tái)服務(wù)器綽綽有余。

特征：應(yīng)用程序、數(shù)據(jù)庫(kù)、文件等所有的資源都在一臺(tái)服務(wù)器上。

描述：通常服務(wù)器操作系統(tǒng)使用 linux，應(yīng)用程序使用 PHP 開(kāi)發(fā)，然后部署在 Apache 上，數(shù)據(jù)庫(kù)使用 Mysql，通俗稱為 LAMP。匯集各種免費(fèi)開(kāi)源軟件以及一臺(tái)廉價(jià)服務(wù)器就可以開(kāi)始系統(tǒng)的發(fā)展之路了。

2.2. 應(yīng)用服務(wù)和數(shù)據(jù)服務(wù)分離

問(wèn)題：越來(lái)越多的用戶訪問(wèn)導(dǎo)致性能越來(lái)越差，越來(lái)越多的數(shù)據(jù)導(dǎo)致存儲(chǔ)空間不足，一臺(tái)服務(wù)器已不足以支撐。

特征：應(yīng)用服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器、文件服務(wù)器分別獨(dú)立部署。

描述：三臺(tái)服務(wù)器對(duì)性能要求各不相同：應(yīng)用服務(wù)器要處理大量業(yè)務(wù)邏輯，因此需要更快更強(qiáng)大的 CPU；數(shù)據(jù)庫(kù)服務(wù)器需要快速磁盤(pán)檢索和數(shù)據(jù)緩存，因此需要更快的硬盤(pán)和更大的內(nèi)存；文件服務(wù)器需要存儲(chǔ)大量文件，因此需要更大容量的硬盤(pán)。

2.3. 使用緩存改善性能

問(wèn)題：隨著用戶逐漸增多，數(shù)據(jù)庫(kù)壓力太大導(dǎo)致訪問(wèn)延遲。

特征：由于網(wǎng)站訪問(wèn)和財(cái)富分配一樣遵循二八定律：80% 的業(yè)務(wù)訪問(wèn)集中在 20% 的數(shù)據(jù)上。將數(shù)據(jù)庫(kù)中訪問(wèn)較集中的少部分?jǐn)?shù)據(jù)緩存在內(nèi)存中，可以減少數(shù)據(jù)庫(kù)的訪問(wèn)次數(shù)，降低數(shù)據(jù)庫(kù)的訪問(wèn)壓力。

描述：緩存分為兩種：應(yīng)用服務(wù)器上的本地緩存和分布式緩存服務(wù)器上的遠(yuǎn)程緩存，本地緩存訪問(wèn)速度更快，但緩存數(shù)據(jù)量有限，同時(shí)存在與應(yīng)用程序爭(zhēng)用內(nèi)存的情況。分布式緩存可以采用集群方式，理論上可以做到不受內(nèi)存容量限制的緩存服務(wù)。

2.4. 使用應(yīng)用服務(wù)器集群

問(wèn)題：使用緩存后，數(shù)據(jù)庫(kù)訪問(wèn)壓力得到有效緩解。但是單一應(yīng)用服務(wù)器能夠處理的請(qǐng)求連接有限，在訪問(wèn)高峰期，成為瓶頸。

特征：多臺(tái)服務(wù)器通過(guò)負(fù)載均衡同時(shí)向外部提供服務(wù)，解決單一服務(wù)器處理能力和存儲(chǔ)空間不足的問(wèn)題。

描述：使用集群是系統(tǒng)解決高并發(fā)、海量數(shù)據(jù)問(wèn)題的常用手段。通過(guò)向集群中追加資源，提升系統(tǒng)的并發(fā)處理能力，使得服務(wù)器的負(fù)載壓力不再成為整個(gè)系統(tǒng)的瓶頸。

2.5. 數(shù)據(jù)庫(kù)讀寫(xiě)分離

問(wèn)題：網(wǎng)站使用緩存后，使絕大部分?jǐn)?shù)據(jù)讀操作訪問(wèn)都可以不通過(guò)數(shù)據(jù)庫(kù)就能完成，但是仍有一部分讀操作和全部的寫(xiě)操作需要訪問(wèn)數(shù)據(jù)庫(kù)，在網(wǎng)站的用戶達(dá)到一定規(guī)模后，數(shù)據(jù)庫(kù)因?yàn)樨?fù)載壓力過(guò)高而成為網(wǎng)站的瓶頸。

特征：目前大部分的主流數(shù)據(jù)庫(kù)都提供主從熱備功能，通過(guò)配置兩臺(tái)數(shù)據(jù)庫(kù)主從關(guān)系，可以將一臺(tái)數(shù)據(jù)庫(kù)服務(wù)器的數(shù)據(jù)更新同步到一臺(tái)服務(wù)器上。網(wǎng)站利用數(shù)據(jù)庫(kù)的主從熱備功能，實(shí)現(xiàn)數(shù)據(jù)庫(kù)讀寫(xiě)分離，從而改善數(shù)據(jù)庫(kù)負(fù)載壓力。

描述：應(yīng)用服務(wù)器在寫(xiě)操作的時(shí)候，訪問(wèn)主數(shù)據(jù)庫(kù)，主數(shù)據(jù)庫(kù)通過(guò)主從復(fù)制機(jī)制將數(shù)據(jù)更新同步到從數(shù)據(jù)庫(kù)。這樣當(dāng)應(yīng)用服務(wù)器在讀操作的時(shí)候，訪問(wèn)從數(shù)據(jù)庫(kù)獲得數(shù)據(jù)。為了便于應(yīng)用程序訪問(wèn)讀寫(xiě)分離后的數(shù)據(jù)庫(kù)，通常在應(yīng)用服務(wù)器端使用專門(mén)的數(shù)據(jù)訪問(wèn)模塊，使數(shù)據(jù)庫(kù)讀寫(xiě)分離的對(duì)應(yīng)用透明。

2.6. 反向代理和 CDN 加速

問(wèn)題：中國(guó)網(wǎng)絡(luò)環(huán)境復(fù)雜，不同地區(qū)的用戶訪問(wèn)網(wǎng)站時(shí)，速度差別也極大。

特征：采用 CDN 和反向代理加快系統(tǒng)的靜態(tài)資源訪問(wèn)速度。

描述：CDN 和反向代理的基本原理都是緩存，區(qū)別在于 CDN 部署在網(wǎng)絡(luò)提供商的機(jī)房，使用戶在請(qǐng)求網(wǎng)站服務(wù)時(shí)，可以從距離自己最近的網(wǎng)絡(luò)提供商機(jī)房獲取數(shù)據(jù)；而反向代理則部署在網(wǎng)站的中心機(jī)房，當(dāng)用戶請(qǐng)求到達(dá)中心機(jī)房后，首先訪問(wèn)的服務(wù)器時(shí)反向代理服務(wù)器，如果反向代理服務(wù)器中緩存著用戶請(qǐng)求的資源，就將其直接返回給用戶。

2.7. 分布式文件系統(tǒng)和分布式數(shù)據(jù)庫(kù)

問(wèn)題：隨著大型網(wǎng)站業(yè)務(wù)持續(xù)增長(zhǎng)，數(shù)據(jù)庫(kù)經(jīng)過(guò)讀寫(xiě)分離，從一臺(tái)服務(wù)器拆分為兩臺(tái)服務(wù)器，依然不能滿足需求。

特征：數(shù)據(jù)庫(kù)采用分布式數(shù)據(jù)庫(kù)，文件系統(tǒng)采用分布式文件系統(tǒng)。

描述：分布式數(shù)據(jù)庫(kù)是數(shù)據(jù)庫(kù)拆分的最后方法，只有在單表數(shù)據(jù)規(guī)模非常龐大的時(shí)候才使用。不到不得已時(shí)，更常用的數(shù)據(jù)庫(kù)拆分手段是業(yè)務(wù)分庫(kù)，將不同的業(yè)務(wù)數(shù)據(jù)庫(kù)部署在不同的物理服務(wù)器上。

2.8. 使用 NoSQL 和搜索引擎

問(wèn)題：隨著網(wǎng)站業(yè)務(wù)越來(lái)越復(fù)雜，對(duì)數(shù)據(jù)存儲(chǔ)和檢索的需求也越來(lái)越復(fù)雜。

特征：系統(tǒng)引入 NoSQL 數(shù)據(jù)庫(kù)及搜索引擎。

描述：NoSQL 數(shù)據(jù)庫(kù)及搜索引擎對(duì)可伸縮的分布式特性具有更好的支持。應(yīng)用服務(wù)器通過(guò)統(tǒng)一數(shù)據(jù)訪問(wèn)模塊訪問(wèn)各種數(shù)據(jù)，減輕應(yīng)用程序管理諸多數(shù)據(jù)源的麻煩。

2.9. 業(yè)務(wù)拆分

問(wèn)題：大型網(wǎng)站的業(yè)務(wù)場(chǎng)景日益復(fù)雜，分為多個(gè)產(chǎn)品線。

特征：采用分而治之的手段將整個(gè)網(wǎng)站業(yè)務(wù)分成不同的產(chǎn)品線。系統(tǒng)上按照業(yè)務(wù)進(jìn)行拆分改造，應(yīng)用服務(wù)器按照業(yè)務(wù)區(qū)分進(jìn)行分別部署。

描述：應(yīng)用之間可以通過(guò)超鏈接建立關(guān)系，也可以通過(guò)消息隊(duì)列進(jìn)行數(shù)據(jù)分發(fā)，當(dāng)然更多的還是通過(guò)訪問(wèn)同一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)來(lái)構(gòu)成一個(gè)關(guān)聯(lián)的完整系統(tǒng)。

縱向拆分：將一個(gè)大應(yīng)用拆分為多個(gè)小應(yīng)用，如果新業(yè)務(wù)較為獨(dú)立，那么就直接將其設(shè)計(jì)部署為一個(gè)獨(dú)立的 Web 應(yīng)用系統(tǒng)?？v向拆分相對(duì)較為簡(jiǎn)單，通過(guò)梳理業(yè)務(wù)，將較少相關(guān)的業(yè)務(wù)剝離即可。

橫向拆分：將復(fù)用的業(yè)務(wù)拆分出來(lái)，獨(dú)立部署為分布式服務(wù)，新增業(yè)務(wù)只需要調(diào)用這些分布式服務(wù)橫向拆分需要識(shí)別可復(fù)用的業(yè)務(wù)，設(shè)計(jì)服務(wù)接口，規(guī)范服務(wù)依賴關(guān)系。

2.10. 分布式服務(wù)

問(wèn)題：隨著業(yè)務(wù)越拆越小，存儲(chǔ)系統(tǒng)越來(lái)越龐大，應(yīng)用系統(tǒng)整體復(fù)雜程度呈指數(shù)級(jí)上升，部署維護(hù)越來(lái)越困難。由于所有應(yīng)用要和所有數(shù)據(jù)庫(kù)系統(tǒng)連接，最終導(dǎo)致數(shù)據(jù)庫(kù)連接資源不足，拒絕服務(wù)。

特征：公共業(yè)務(wù)提取出來(lái)，獨(dú)立部署。由這些可復(fù)用的業(yè)務(wù)連接數(shù)據(jù)庫(kù)，通過(guò)分布式服務(wù)提供共用業(yè)務(wù)服務(wù)。

3. 大型網(wǎng)站架構(gòu)模式

3.1. 分層

大型網(wǎng)站架構(gòu)中常采用分層結(jié)構(gòu)，將軟件系統(tǒng)分為應(yīng)用層、服務(wù)層、數(shù)據(jù)層：

分層架構(gòu)的約束：禁止跨層次的調(diào)用（應(yīng)用層直接調(diào)用數(shù)據(jù)層）及逆向調(diào)用（數(shù)據(jù)層調(diào)用服務(wù)層，或者服務(wù)層調(diào)用應(yīng)用層）。

分層結(jié)構(gòu)內(nèi)部還可以繼續(xù)分層，如應(yīng)用可以再細(xì)分為視圖層和業(yè)務(wù)邏輯層；服務(wù)層也可以細(xì)分為數(shù)據(jù)接口層和邏輯處理層。

3.2. 分割

將不同的功能和服務(wù)分割開(kāi)來(lái)，包裝成高內(nèi)聚低耦合的模塊單元。這有助于軟件的開(kāi)發(fā)和維護(hù)，便于不同模塊的分布式部署，提高網(wǎng)站的并發(fā)處理能力和功能擴(kuò)展能力。

3.3. 分布式

大于大型網(wǎng)站，分層和分割的一個(gè)主要目的是為了切分后的模塊便于分布式部署，即將不同模塊部署在不同的服務(wù)器上，通過(guò)遠(yuǎn)程調(diào)用協(xié)同工作。

分布式意味可以用更多的機(jī)器工作，那么 CPU、內(nèi)存、存儲(chǔ)資源也就更豐富，能夠處理的并發(fā)訪問(wèn)和數(shù)據(jù)量就越大，進(jìn)而能夠?yàn)楦嗟挠脩籼峁┓?wù)。

分布式也引入了一些問(wèn)題：

常用的分布式方案：

3.4. 集群

集群即多臺(tái)服務(wù)器部署相同應(yīng)用構(gòu)成一個(gè)集群，通過(guò)負(fù)載均衡設(shè)備共同對(duì)外提供服務(wù)。

集群需要具備伸縮性和故障轉(zhuǎn)移機(jī)制：伸縮性是指可以根據(jù)用戶訪問(wèn)量向集群添加或減少機(jī)器；故障轉(zhuǎn)移是指，當(dāng)某臺(tái)機(jī)器出現(xiàn)故障時(shí)，負(fù)載均衡設(shè)備或失效轉(zhuǎn)移機(jī)制將請(qǐng)求轉(zhuǎn)發(fā)到集群中的其他機(jī)器上，從而不影響用戶使用。

3.5. 緩存

緩存就是將數(shù)據(jù)存放在距離最近的位置以加快處理速度。緩存是改善軟件性能的第一手段。

網(wǎng)站應(yīng)用中，緩存除了可以加快數(shù)據(jù)訪問(wèn)速度以外，還可以減輕后端應(yīng)用和數(shù)據(jù)存儲(chǔ)的負(fù)載壓力。

常見(jiàn)緩存手段：

使用緩存有兩個(gè)前提：

3.6. 異步

軟件發(fā)展的一個(gè)重要目標(biāo)和驅(qū)動(dòng)力是降低軟件耦合性。事物之間直接關(guān)系越少，彼此影響就越小，也就更容易獨(dú)立發(fā)展。

大型網(wǎng)站架構(gòu)中，系統(tǒng)解耦的手段除了分層、分割、分布式等，還有一個(gè)重要手段——異步。

業(yè)務(wù)間的消息傳遞不是同步調(diào)用，而是將一個(gè)業(yè)務(wù)操作拆分成多階段，每個(gè)階段間通過(guò)共享數(shù)據(jù)的方式異步執(zhí)行進(jìn)行協(xié)作。

異步架構(gòu)是典型的生產(chǎn)者消費(fèi)模式，二者不存在直接調(diào)用。異步消息隊(duì)列還有如下特性：

3.7. 冗余

大型網(wǎng)站，出現(xiàn)服務(wù)器宕機(jī)是必然事件。要保證部分服務(wù)器宕機(jī)的情況下網(wǎng)站依然可以繼續(xù)服務(wù)，不丟失數(shù)據(jù)，就需要一定程度的服務(wù)器冗余運(yùn)行，數(shù)據(jù)冗余備份。這樣當(dāng)某臺(tái)服務(wù)器宕機(jī)是，可以將其上的服務(wù)和數(shù)據(jù)訪問(wèn)轉(zhuǎn)移到其他機(jī)器上。

訪問(wèn)和負(fù)載很小的服務(wù)也必須部署至少兩臺(tái)服務(wù)器構(gòu)成一個(gè)集群，目的就是通過(guò)冗余實(shí)現(xiàn)服務(wù)高可用。數(shù)據(jù)除了定期備份，存檔保存，實(shí)現(xiàn) 冷備份外；為了保證在線業(yè)務(wù)高可用，還需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行主從分離，實(shí)時(shí)同步實(shí)現(xiàn) 熱備份。

為了抵御地震、海嘯等不可抗因素導(dǎo)致的網(wǎng)站完全癱瘓，某些大型網(wǎng)站會(huì)對(duì)整個(gè)數(shù)據(jù)中心進(jìn)行備份，全球范圍內(nèi)部署災(zāi)備數(shù)據(jù)中心。網(wǎng)站程序和數(shù)據(jù)實(shí)時(shí)同步到多個(gè)災(zāi)備數(shù)據(jù)中心。

3.8. 自動(dòng)化

大型網(wǎng)站架構(gòu)的自動(dòng)化架構(gòu)設(shè)計(jì)主要集中在發(fā)布運(yùn)維方面：

3.9. 安全

4. 大型網(wǎng)站核心架構(gòu)要素

架構(gòu) 的一種通俗說(shuō)法是：最高層次的規(guī)劃，難以改變的決定。

4.1. 性能

性能問(wèn)題無(wú)處不在，所以網(wǎng)站性能優(yōu)化手段也十分繁多：

4.2. 可用性

可用性指部分服務(wù)器出現(xiàn)故障時(shí)，還能否對(duì)用戶提供服務(wù)

4.3. 伸縮性

衡量伸縮的標(biāo)準(zhǔn)就是是否可以用多臺(tái)服務(wù)器構(gòu)建集群，是否容易向集群中增刪服務(wù)器節(jié)點(diǎn)。增刪服務(wù)器節(jié)點(diǎn)后是否可以提供和之前無(wú)差別的服務(wù)。集群中可容納的總服務(wù)器數(shù)是否有限制。

4.4. 擴(kuò)展性

衡量擴(kuò)展性的標(biāo)準(zhǔn)就是增加新的業(yè)務(wù)產(chǎn)品時(shí)，是否可以實(shí)現(xiàn)對(duì)現(xiàn)有產(chǎn)品透明無(wú)影響，不需要任何改動(dòng)或很少改動(dòng)，既有功能就可以上線新產(chǎn)品。主要手段有：事件驅(qū)動(dòng)架構(gòu)和分布式服務(wù)。

4.5. 安全性

安全性保護(hù)網(wǎng)站不受惡意攻擊，保護(hù)網(wǎng)站重要數(shù)據(jù)不被竊取。

歡迎工作一到五年的Java工程師朋友們加入Java程序員開(kāi)發(fā)： 721575865

群內(nèi)提供免費(fèi)的Java架構(gòu)學(xué)習(xí)資料（里面有高可用、高并發(fā)、高性能及分布式、Jvm性能調(diào)優(yōu)、Spring源碼，MyBatis，Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多個(gè)知識(shí)點(diǎn)的架構(gòu)資料）合理利用自己每一分每一秒的時(shí)間來(lái)學(xué)習(xí)提升自己，不要再用"沒(méi)有時(shí)間“來(lái)掩飾自己思想上的懶惰！趁年輕，使勁拼，給未來(lái)的自己一個(gè)交代！

elasticsearch可以代替NoSQL嗎

ES完全勝任MongoDB能干的事情，而且還加上了檢索功能，你可以選擇分詞檢索或者把你存的整個(gè)文檔當(dāng)作一個(gè)詞，前者類似于搜索引擎，后者類似于數(shù)據(jù)庫(kù)，而且ES最擅長(zhǎng)的就是用Facet和Agg做數(shù)據(jù)統(tǒng)計(jì)，當(dāng)不分詞時(shí)，可以結(jié)合Redis等把詞條映射為整形數(shù)，查詢效率會(huì)非常高。而且數(shù)據(jù)分區(qū)更靈活，可以隨時(shí)以編碼的方式打開(kāi)或關(guān)閉某部分?jǐn)?shù)據(jù)節(jié)點(diǎn)。一般來(lái)說(shuō)，把ES以數(shù)據(jù)庫(kù)的模式存儲(chǔ)，合理使用查詢語(yǔ)法，都可以秒級(jí)返回，不管多大的數(shù)據(jù)量，當(dāng)然做統(tǒng)計(jì)肯定會(huì)慢一些。對(duì)有些特殊查詢注意一下就行了：比如用wildcard的 *keyword 模式就比 keyword*模式要慢很多，需要合理規(guī)劃自己的業(yè)務(wù)場(chǎng)景和數(shù)據(jù)的mapping映射方式。

高性能 NoSQL

關(guān)系數(shù)據(jù)庫(kù)經(jīng)過(guò)幾十年的發(fā)展，已經(jīng)非常成熟，但同時(shí)也存在不足：

表結(jié)構(gòu)是強(qiáng)約束的，業(yè)務(wù)變更時(shí)擴(kuò)充很麻煩。

如果對(duì)大數(shù)據(jù)量的表進(jìn)行統(tǒng)計(jì)運(yùn)算，I/O會(huì)很高，因?yàn)榧词怪会槍?duì)某列進(jìn)行運(yùn)算，也需要將整行數(shù)據(jù)讀入內(nèi)存。

全文搜索只能使用 Like 進(jìn)行整表掃描，性能非常低。

針對(duì)這些不足，產(chǎn)生了不同的 NoSQL 解決方案，在某些場(chǎng)景下比關(guān)系數(shù)據(jù)庫(kù)更有優(yōu)勢(shì)，但同時(shí)也犧牲了某些特性，所以不能片面的迷信某種方案，應(yīng)將其作為 SQL 的有利補(bǔ)充。

NoSQL != No SQL，而是：

NoSQL = Not Only SQL

典型的 NoSQL 方案分為4類：

Redis 是典型，其 value 是具體的數(shù)據(jù)結(jié)構(gòu)，包括 string, hash, list, set, sorted set, bitmap, hyperloglog，常被稱為數(shù)據(jù)結(jié)構(gòu)服務(wù)器。

以 list 為例：

LPOP key 是移除并返回隊(duì)列左邊的第一個(gè)元素。

如果用關(guān)系數(shù)據(jù)庫(kù)就比較麻煩了，需要操作：

Redis 的缺點(diǎn)主要體現(xiàn)在不支持完成的ACID事務(wù)，只能保證隔離性和一致性，無(wú)法保證原子性和持久性。

最大的特點(diǎn)是 no-schema，無(wú)需在使用前定義字段，讀取一個(gè)不存在的字段也不會(huì)導(dǎo)致語(yǔ)法錯(cuò)誤。

特點(diǎn)：

以電商為例，不同商品的屬性差異很大，如冰箱和電腦，這種差異性在關(guān)系數(shù)據(jù)庫(kù)中會(huì)有很大的麻煩，而使用文檔數(shù)據(jù)庫(kù)則非常方便。

文檔數(shù)據(jù)庫(kù)的主要缺點(diǎn)：

關(guān)系數(shù)據(jù)庫(kù)是按行來(lái)存儲(chǔ)的，列式數(shù)據(jù)庫(kù)是按照列來(lái)存儲(chǔ)數(shù)據(jù)。

按行存儲(chǔ)的優(yōu)勢(shì)：

在某些場(chǎng)景下，這些優(yōu)勢(shì)就成為劣勢(shì)了，例如，計(jì)算超重人員的數(shù)據(jù)，只需要讀取體重這一列進(jìn)行統(tǒng)計(jì)即可，但行式存儲(chǔ)會(huì)將整行數(shù)據(jù)讀取到內(nèi)存中，很浪費(fèi)。

而列式存儲(chǔ)中，只需要讀取體重這列的數(shù)據(jù)即可，I/O 將大大減少。

除了節(jié)省I/O，列式存儲(chǔ)還有更高的壓縮比，可以節(jié)省存儲(chǔ)空間。普通行式數(shù)據(jù)庫(kù)的壓縮比在 3:1 到 5:1 左右，列式數(shù)據(jù)庫(kù)在 8:1 到 30:1，因?yàn)閱蝹€(gè)列的數(shù)據(jù)相似度更高。

列式存儲(chǔ)的隨機(jī)寫(xiě)效率遠(yuǎn)低于行式存儲(chǔ)，因?yàn)樾惺酱鎯?chǔ)時(shí)同一行多個(gè)列都存儲(chǔ)在連續(xù)空間中，而列式存儲(chǔ)將不同列存儲(chǔ)在不連續(xù)的空間。

一般將列式存儲(chǔ)應(yīng)用在離線大數(shù)據(jù)分析統(tǒng)計(jì)場(chǎng)景，因?yàn)檫@時(shí)主要針對(duì)部分列進(jìn)行操作，而且數(shù)據(jù)寫(xiě)入后無(wú)須更新。

關(guān)系數(shù)據(jù)庫(kù)通過(guò)索引進(jìn)行快速查詢，但在全文搜索的情景下，索引就不夠了，因?yàn)椋?/p>

假設(shè)有一個(gè)交友網(wǎng)站，信息表如下：

需要匹配性別、地點(diǎn)、語(yǔ)言列。

需要匹配性別、地點(diǎn)、愛(ài)好列。

實(shí)際搜索中，各種排列組合非常多，關(guān)系數(shù)據(jù)庫(kù)很難支持。

全文搜索引擎是使用倒排索引技術(shù)，建立單詞到文檔的索引，例如上面的表信息建立倒排索引：

所以特別適合根據(jù)關(guān)鍵詞來(lái)查詢文檔內(nèi)容。

上面介紹了幾種典型的NoSQL方案，及各自的適用場(chǎng)景和特點(diǎn)，您可以根據(jù)實(shí)際需求進(jìn)行選擇。

標(biāo)題名稱：支持NoSQL的搜索引擎,nosql查詢
分享URL：http://weahome.cn/article/hcehji.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

支持NoSQL的搜索引擎,nosql查詢

AWS開(kāi)源可跨關(guān)聯(lián)式與NoSQL數(shù)據(jù)庫(kù)的查詢語(yǔ)言PartiQL

大型互聯(lián)網(wǎng)架構(gòu)概述，看完文章又漲知識(shí)了

elasticsearch可以代替NoSQL嗎

高性能 NoSQL

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

支持NoSQL的搜索引擎,nosql查詢

AWS開(kāi)源可跨關(guān)聯(lián)式與NoSQL數(shù)據(jù)庫(kù)的查詢語(yǔ)言PartiQL

大型互聯(lián)網(wǎng)架構(gòu)概述，看完文章又漲知識(shí)了

elasticsearch可以代替NoSQL嗎

高性能 NoSQL

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

大型互聯(lián)網(wǎng)架構(gòu)概述，看完文章又漲知識(shí)了