怎樣分析圖數(shù)據(jù)庫,相信很多沒有經(jīng)驗(yàn)的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個(gè)問題。
在藍(lán)田等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供成都做網(wǎng)站、成都網(wǎng)站建設(shè) 網(wǎng)站設(shè)計(jì)制作按需規(guī)劃網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),成都品牌網(wǎng)站建設(shè),成都全網(wǎng)營銷,成都外貿(mào)網(wǎng)站建設(shè),藍(lán)田網(wǎng)站建設(shè)費(fèi)用合理。
下面主要討論圖數(shù)據(jù)庫背后的設(shè)計(jì)思路、原理還有一些適用的場景,以及在生產(chǎn)環(huán)境中使用圖數(shù)據(jù)庫的具體案例。
下面這張圖是一個(gè)社交網(wǎng)絡(luò)場景,每個(gè)用戶可以發(fā)微博、分享微博或評論他人的微博。這些都是最基本的增刪改查,也是大多數(shù)研發(fā)人員對數(shù)據(jù)庫做的常見操作。而在研發(fā)人員的日常工作中除了要把用戶的基本信息錄入數(shù)據(jù)庫外,還需找到與該用戶相關(guān)聯(lián)的信息,方便去對單個(gè)的用戶進(jìn)行下一步的分析,比如說:我們發(fā)現(xiàn)張三的賬戶里有很多關(guān)于 AI 和音樂的內(nèi)容,那么我們可以據(jù)此推測出他可能是一名程序員,從而推送他可能感興趣的內(nèi)容。
這些數(shù)據(jù)分析每時(shí)每刻都會發(fā)生,但有時(shí)候,一個(gè)簡單的數(shù)據(jù)工作流在實(shí)現(xiàn)的時(shí)候可能會變得相當(dāng)復(fù)雜,此外數(shù)據(jù)庫性能也會隨著數(shù)據(jù)量的增加而銳減,比如說獲取某管理者下屬三級匯報(bào)關(guān)系的員工,這種統(tǒng)計(jì)查詢在現(xiàn)在的數(shù)據(jù)分析中是一種常見的操作,而這種操作往往會因?yàn)閿?shù)據(jù)庫選型導(dǎo)致性能產(chǎn)生巨大差異。
傳統(tǒng)解決上述問題最簡單的方法就是建立一個(gè)關(guān)系模型,我們可以把每個(gè)員工的信息錄入表中,存在諸如 MySQL 之類的關(guān)系數(shù)據(jù)庫,下圖是最基本的關(guān)系模型:
但是基于上述的關(guān)系模型,要實(shí)現(xiàn)我們的需求,就不可避免地涉及到很多關(guān)系數(shù)據(jù)庫
JOIN
操作,同時(shí)實(shí)現(xiàn)出來的查詢語句也會變得相當(dāng)長(有時(shí)達(dá)到上百行):
(SELECT T.directReportees AS directReportees, sum(T.count) AS count FROM ( SELECT manager.pid AS directReportees, 0 AS count FROM person_reportee manager WHERE manager.pid = (SELECT id FROM person WHERE name = "fName lName") UNION SELECT manager.pid AS directReportees, count(manager.directly_manages) AS count FROM person_reportee manager WHERE manager.pid = (SELECT id FROM person WHERE name = "fName lName") GROUP BY directReportees UNION SELECT manager.pid AS directReportees, count(reportee.directly_manages) AS count FROM person_reportee manager JOIN person_reportee reportee ON manager.directly_manages = reportee.pid WHERE manager.pid = (SELECT id FROM person WHERE name = "fName lName") GROUP BY directReportees UNION SELECT manager.pid AS directReportees, count(L2Reportees.directly_manages) AS count FROM person_reportee manager JOIN person_reportee L1Reportees ON manager.directly_manages = L1Reportees.pid JOIN person_reportee L2Reportees ON L1Reportees.directly_manages = L2Reportees.pid WHERE manager.pid = (SELECT id FROM person WHERE name = "fName lName") GROUP BY directReportees ) AS T GROUP BY directReportees) UNION (SELECT T.directReportees AS directReportees, sum(T.count) AS count FROM ( SELECT manager.directly_manages AS directReportees, 0 AS count FROM person_reportee manager WHERE manager.pid = (SELECT id FROM person WHERE name = "fName lName") UNION SELECT reportee.pid AS directReportees, count(reportee.directly_manages) AS count FROM person_reportee manager JOIN person_reportee reportee ON manager.directly_manages = reportee.pid WHERE manager.pid = (SELECT id FROM person WHERE name = "fName lName") GROUP BY directReportees UNION SELECT depth2Reportees.pid AS directReportees, count(depth3Reportees.directly_manages) AS count FROM person_reportee manager JOIN person_reportee L1Reportees ON manager.directly_manages = L1Reportees.pid JOIN person_reportee L2Reportees ON L1Reportees.directly_manages = L2Reportees.pid WHERE manager.pid = (SELECT id FROM person WHERE name = "fName lName") GROUP BY directReportees ) AS T GROUP BY directReportees) UNION (SELECT T.directReportees AS directReportees, sum(T.count) AS count FROM( SELECT reportee.directly_manages AS directReportees, 0 AS count FROM person_reportee manager JOIN person_reportee reportee ON manager.directly_manages = reportee.pid WHERE manager.pid = (SELECT id FROM person WHERE name = "fName lName") GROUP BY directReportees UNION SELECT L2Reportees.pid AS directReportees, count(L2Reportees.directly_manages) AS count FROM person_reportee manager JOIN person_reportee L1Reportees ON manager.directly_manages = L1Reportees.pid JOIN person_reportee L2Reportees ON L1Reportees.directly_manages = L2Reportees.pid WHERE manager.pid = (SELECT id FROM person WHERE name = "fName lName") GROUP BY directReportees ) AS T GROUP BY directReportees) UNION (SELECT L2Reportees.directly_manages AS directReportees, 0 AS count FROM person_reportee manager JOIN person_reportee L1Reportees ON manager.directly_manages = L1Reportees.pid JOIN person_reportee L2Reportees ON L1Reportees.directly_manages = L2Reportees.pid WHERE manager.pid = (SELECT id FROM person WHERE name = "fName lName") )
這種 glue 代碼對維護(hù)人員和開發(fā)者來說就是一場災(zāi)難,沒有人想寫或者去調(diào)試這種代碼,此外,這類代碼往往伴隨著嚴(yán)重的性能問題,這個(gè)在之后會詳細(xì)討論。
性能問題的本質(zhì)在于數(shù)據(jù)分析面臨的數(shù)據(jù)量,假如只查詢幾十個(gè)節(jié)點(diǎn)或者更少的內(nèi)容,這種操作是完全不需要考慮數(shù)據(jù)庫性能優(yōu)化的,但當(dāng)節(jié)點(diǎn)數(shù)據(jù)從幾百個(gè)變成幾百萬個(gè)甚至幾千萬個(gè)后,數(shù)據(jù)庫性能就成為了整個(gè)產(chǎn)品設(shè)計(jì)的過程中最需考慮的因素之一。
隨著節(jié)點(diǎn)的增多,用戶跟用戶間的關(guān)系,用戶和產(chǎn)品間的關(guān)系,或者產(chǎn)品和產(chǎn)品間的關(guān)系都會呈指數(shù)增長。
以下是一些公開的數(shù)據(jù),可以反映數(shù)據(jù)、數(shù)據(jù)和數(shù)據(jù)間關(guān)系的一些實(shí)際情況:
推特:用戶量為 5 億,用戶之間存在關(guān)注、點(diǎn)贊關(guān)系
亞馬遜:用戶量 1.2 億,用戶和產(chǎn)品間存在購買關(guān)系
AT&T(美國三大運(yùn)營商之一): 1 億個(gè)號碼,電話號碼間可建立通話關(guān)系
如下表所示,開源的圖數(shù)據(jù)集往往有著上千萬個(gè)節(jié)點(diǎn)和上億的邊的數(shù)據(jù):
在數(shù)據(jù)量這么大的場景中,使用傳統(tǒng) SQL 會產(chǎn)生很大的性能問題,原因主要有兩個(gè):
大量 JOIN 操作帶來的開銷:之前的查詢語句使用了大量的 JOIN 操作來找到需要的結(jié)果。而大量的 JOIN 操作在數(shù)據(jù)量很大時(shí)會有巨大的性能損失,因?yàn)閿?shù)據(jù)本身是被存放在指定的地方,查詢本身只需要用到部分?jǐn)?shù)據(jù),但是 JOIN 操作本身會遍歷整個(gè)數(shù)據(jù)庫,這樣就會導(dǎo)致查詢效率低到讓人無法接受。
反向查詢帶來的開銷:查詢單個(gè)經(jīng)理的下屬不需要多少開銷,但是如果我們要去反向查詢一個(gè)員工的老板,使用表結(jié)構(gòu),開銷就會變得非常大。表結(jié)構(gòu)設(shè)計(jì)得不合理,會對后續(xù)的分析、推薦系統(tǒng)產(chǎn)生性能上的影響。比如,當(dāng)關(guān)系從老板 -> 員工 變成 用戶 -> 產(chǎn)品,如果不支持反向查詢,推薦系統(tǒng)的實(shí)時(shí)性就會大打折扣,進(jìn)而帶來經(jīng)濟(jì)損失。
下表列出的是一個(gè)非官方的性能測試(社交網(wǎng)絡(luò)測試集,一百萬用戶,每個(gè)大概有 50 個(gè)好友),體現(xiàn)了在關(guān)系數(shù)據(jù)庫里,隨著好友查詢深度的增加而產(chǎn)生的性能變化:
索引:SQL 引擎通過索引來找到對應(yīng)的數(shù)據(jù)。
常見的索引包括 B- 樹索引和哈希索引,建立表的索引是比較常規(guī)的優(yōu)化 SQL 性能的操作。B- 樹索引簡單地來說就是給每個(gè)人一個(gè)可排序的獨(dú)立 ID,B- 樹本身是一個(gè)平衡多叉搜索樹,這個(gè)樹會將每個(gè)元素按照索引 ID 進(jìn)行排序,從而支持范圍查找,范圍查找的復(fù)雜度是 O(logN) ,其中 N 是索引的文件數(shù)目。
但是索引并不能解決所有的問題,如果文件更新頻繁或者有很多重復(fù)的元素,就會導(dǎo)致很大的空間損耗,此外索引的 IO 消耗也值得考慮,索引 IO 尤其是在機(jī)械硬盤上的 IO 讀寫性能上來說非常不理想,常規(guī)的 B- 樹索引消耗四次 IO 隨機(jī)讀,當(dāng) JOIN 操作變得越來越多時(shí),硬盤查找更可能發(fā)生上百次。
緩存:緩存主要是為了解決有具有空間或者時(shí)間局域性數(shù)據(jù)的頻繁讀取帶來的性能優(yōu)化問題。一個(gè)比較常見的使用緩存的架構(gòu)是 lookaside cache architecture。下圖是之前 Facebook 用 Memcached + MySQL 的實(shí)例(現(xiàn)已被 Facebook 自研的圖數(shù)據(jù)庫 TAO 替代):
在架構(gòu)中,設(shè)計(jì)者假設(shè)用戶創(chuàng)造的內(nèi)容比用戶讀取的內(nèi)容要少得多,Memcached 可以簡單地理解成一個(gè)分布式的支持增刪改查的哈希表,支持上億量級的用戶請求?;镜氖褂昧鞒淌钱?dāng)客戶端需讀數(shù)據(jù)時(shí),先查看一下緩存,然后再去查詢 SQL 數(shù)據(jù)庫。而當(dāng)用戶需要寫入數(shù)據(jù)時(shí),客戶端先刪除緩存中的 key,讓數(shù)據(jù)過期,再去更新數(shù)據(jù)庫。但是這種架構(gòu)有幾個(gè)問題:
首先,鍵值緩存對于圖結(jié)構(gòu)數(shù)據(jù)并不是一個(gè)好的操作語句,每次查詢一條邊,需要從緩存里把節(jié)點(diǎn)對應(yīng)的邊全部拿出來;此外,當(dāng)更新一條邊,原來的所有依賴邊要被刪除,繼而需要重新加載所有對應(yīng)邊的數(shù)據(jù),這些都是并發(fā)的性能瓶頸,畢竟實(shí)際場景中一個(gè)點(diǎn)往往伴隨著幾千條邊,這種操作帶來的時(shí)間、內(nèi)存消耗問題不可忽視。
其次,數(shù)據(jù)更新到數(shù)據(jù)讀取有一個(gè)過程,在上面架構(gòu)中這個(gè)過程需要主從數(shù)據(jù)庫跨域通信。原始模型使用了一個(gè)外部標(biāo)識來記錄過期的鍵值對,并且異步地把這些讀取的請求從只讀的從節(jié)點(diǎn)傳遞到主節(jié)點(diǎn),這個(gè)需要跨域通信,延遲相比直接從本地讀大了很多。(類似從之前需要走幾百米的距離而現(xiàn)在需要走從北京到深圳的距離)
上述關(guān)系型數(shù)據(jù)庫建模失敗的主要原因在于數(shù)據(jù)間缺乏內(nèi)在的關(guān)聯(lián)性,針對這類問題,更好的建模方式是使用圖結(jié)構(gòu)。
假如數(shù)據(jù)本身就是表格的結(jié)構(gòu),關(guān)系數(shù)據(jù)庫就可以解決問題,但如果你要展示的是數(shù)據(jù)與數(shù)據(jù)間的關(guān)系,關(guān)系數(shù)據(jù)庫反而不能解決問題了,這主要是在查詢的過程中不可避免的大量 JOIN 操作導(dǎo)致的,而每次 JOIN 操作卻只用到部分?jǐn)?shù)據(jù),既然反復(fù) JOIN 操作本身會導(dǎo)致大量的性能損失,如何建模才能更好的解決問題呢?答案在點(diǎn)和點(diǎn)之間的關(guān)系上。
在我們之前的討論中,傳統(tǒng)數(shù)據(jù)庫雖然運(yùn)用 JOIN 操作把不同的表鏈接了起來,從而隱式地表達(dá)了數(shù)據(jù)之間的關(guān)系,但是當(dāng)我們要通過 A 管理 B,B 管理 A 的方式查詢結(jié)果時(shí),表結(jié)構(gòu)并不能直接告訴我們結(jié)果。
如果我們想在做查詢前就知道對應(yīng)的查詢結(jié)果,我們必須先定義節(jié)點(diǎn)和關(guān)系。
節(jié)點(diǎn)和關(guān)系先定義是圖數(shù)據(jù)庫和別的數(shù)據(jù)庫的核心區(qū)別。打個(gè)比方,我們可以把經(jīng)理、員工表示成不同的節(jié)點(diǎn),并用一條邊來代表他們之前存在的管理關(guān)系,或者把用戶和商品看作節(jié)點(diǎn),用購買關(guān)系建模等等。而當(dāng)我們需要新的節(jié)點(diǎn)和關(guān)系時(shí),只需進(jìn)行幾次更新就好,而不用去改變表的結(jié)構(gòu)或者去遷移數(shù)據(jù)。
根據(jù)節(jié)點(diǎn)和關(guān)聯(lián)關(guān)系,之前的數(shù)據(jù)可以根據(jù)下圖所示建模:
通過圖數(shù)據(jù)庫 Nebula Graph 原生 nGQL 圖查詢語言進(jìn)行建模,參考如下操作:
-- Insert People INSERT VERTEX person(ID, name) VALUES 1:(2020031601, ‘Jeff’); INSERT VERTEX person(ID, name) VALUES 2:(2020031602, ‘A’); INSERT VERTEX person(ID, name) VALUES 3:(2020031603, ‘B’); INSERT VERTEX person(ID, name) VALUES 4:(2020031604, ‘C’); -- Insert edge INSERT EDGE manage (level_s, level_end) VALUES 1 -> 2: ('0', '1') INSERT EDGE manage (level_s, level_end) VALUES 1 -> 3: ('0', '1') INSERT EDGE manage (level_s, level_end) VALUES 1 -> 4: ('0', '1')
而之前超長的 query 語句也可以通過 Cypher / nGQL 縮減成短短的 3、4 行代碼。
下面為 nGQL 語句
GO FROM 1 OVER manage YIELD manage.level_s as start_level, manage._dst AS personid | GO FROM $personid OVER manage where manage.level_s < start_level + 3 YIELD SUM($$.person.id) AS TOTAL, $$.person.name AS list
下面為 Cypher 版本
MATCH (boss)-[:MANAGES*0..3]->(sub), (sub)-[:MANAGES*1..3]->(personid) WHERE boss.name = “Jeff” RETURN sub.name AS list, count(personid) AS Total
從近百行代碼變成 3、4 行代碼可以明顯地看出圖數(shù)據(jù)庫在數(shù)據(jù)表達(dá)能力上的優(yōu)勢。
圖數(shù)據(jù)庫本身對高度連接、結(jié)構(gòu)性不強(qiáng)的數(shù)據(jù)做了專門優(yōu)化。不同的圖數(shù)據(jù)庫根據(jù)不同的場景也做了針對性優(yōu)化,筆者在這里簡單介紹以下幾種圖數(shù)據(jù)庫,BTW,這些圖數(shù)據(jù)庫都支持原生圖建模。
Neo4j 是最知名的一種圖數(shù)據(jù)庫,在業(yè)界有微軟、ebay 在用 Neo4j 來解決部分業(yè)務(wù)場景,Neo4j 的性能優(yōu)化有兩點(diǎn),一個(gè)是原生圖數(shù)據(jù)處理上的優(yōu)化,一個(gè)是運(yùn)用了 LRU-K 緩存來緩存數(shù)據(jù)。
我們說一個(gè)圖數(shù)據(jù)庫支持原生圖數(shù)據(jù)處理就代表這個(gè)數(shù)據(jù)庫有能力去支持 index-free adjacency。
index-free adjancency就是每個(gè)節(jié)點(diǎn)會保留連接節(jié)點(diǎn)的引用,從而這個(gè)節(jié)點(diǎn)本身就是連接節(jié)點(diǎn)的一個(gè)索引,這種操作的性能比使用全局索引好很多,同時(shí)假如我們根據(jù)圖來進(jìn)行查詢,這種查詢是與整個(gè)圖的大小無關(guān)的,只與查詢節(jié)點(diǎn)關(guān)聯(lián)邊的數(shù)目有關(guān),如果用 B 樹索引進(jìn)行查詢的復(fù)雜度是 O(logN),使用這種結(jié)構(gòu)查詢的復(fù)雜度就是 O(1)。當(dāng)我們要查詢多層數(shù)據(jù)時(shí),查詢所需要的時(shí)間也不會隨著數(shù)據(jù)集的變大而呈現(xiàn)指數(shù)增長,反而會是一個(gè)比較穩(wěn)定的常數(shù),畢竟每次查詢只會根據(jù)對應(yīng)的節(jié)點(diǎn)找到連接的邊而不會去遍歷所有的節(jié)點(diǎn)。
在 2.2 版本的 Neo4j 中使用了 LRU-K 緩存,這種緩存簡而言之就是將使用頻率最低的頁面從緩存中彈出,青睞使用頻率更高的頁面,這種設(shè)計(jì)保證在統(tǒng)計(jì)意義上的緩存資源使用最優(yōu)化。
JanusGraph 本身并沒有關(guān)注于去實(shí)現(xiàn)存儲和分析,而是實(shí)現(xiàn)了圖數(shù)據(jù)庫引擎與多種索引和存儲引擎的接口,利用這些接口來實(shí)現(xiàn)數(shù)據(jù)和存儲和索引。JanusGraph 主要目的是在原來框架的基礎(chǔ)上支持圖數(shù)據(jù)的建模同時(shí)優(yōu)化圖數(shù)據(jù)序列化、圖數(shù)據(jù)建模、圖數(shù)據(jù)執(zhí)行相關(guān)的細(xì)節(jié)。JanusGraph 提供了模塊化的數(shù)據(jù)持久化、數(shù)據(jù)索引和客戶端的接口,從而更方便地將圖數(shù)據(jù)模型運(yùn)用到實(shí)際開發(fā)中。
此外,JanusGraph 支持用 Cassandra、HBase、BerkelyDB 作為存儲引擎,支持使用 ElasticSearch、Solr 還有 Lucene 進(jìn)行數(shù)據(jù)索引。
在應(yīng)用方面,可以用兩種方式與 JanusGraph 進(jìn)行交互:
將 JanusGraph 變成應(yīng)用的一部分進(jìn)行查詢、緩存,并且這些數(shù)據(jù)交互都是在同一臺 JVM 上執(zhí)行,但數(shù)據(jù)的來源可能在本地或者在別的地方。
將 JanusGraph 作為一個(gè)服務(wù),讓客戶端與服務(wù)端分離,同時(shí)客戶端提交 Gremlin 查詢語句到服務(wù)器上執(zhí)行對應(yīng)的數(shù)據(jù)處理操作。
下面簡單地介紹了一下 Nebula Graph 的系統(tǒng)設(shè)計(jì)。
Nebula Graph 使用了
vertexID + TagID
作為鍵在不同的 partition 間存儲 in-key 和 out-key 相關(guān)的數(shù)據(jù),這種操作可以確保在大規(guī)模集群上的高可用,使用分布式的 partition 和 sharding 也增加了 Nebula Graph 的吞吐量和容錯(cuò)的能力。
Storage Service 采用 shared-nothing 的分布式架構(gòu)設(shè)計(jì),每個(gè)存儲節(jié)點(diǎn)都有多個(gè)本地 KV 存儲實(shí)例作為物理存儲。Nebula 采用多數(shù)派協(xié)議 Raft 來保證這些 KV 存儲之間的一致性(由于 Raft 比 Paxo 更簡潔,我們選用了 Raft)。在 KVStore 之上是圖語義層,用于將圖操作轉(zhuǎn)換為下層 KV 操作。
圖數(shù)據(jù)(點(diǎn)和邊)通過 Hash 的方式存儲在不同 partition 中。這里用的 Hash 函數(shù)實(shí)現(xiàn)很直接,即 vertex_id 取余 partition 數(shù)。在 Nebula Graph 中,partition 表示一個(gè)虛擬的數(shù)據(jù)集,這些 partition 分布在所有的存儲節(jié)點(diǎn),分布信息存儲在 Meta Service 中(因此所有的存儲節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)都能獲取到這個(gè)分布信息)。
每個(gè)計(jì)算節(jié)點(diǎn)都運(yùn)行著一個(gè)無狀態(tài)的查詢計(jì)算引擎,而節(jié)點(diǎn)彼此間無任何通信關(guān)系。計(jì)算節(jié)點(diǎn)僅從 Meta Service 讀取 meta 信息,以及和 Storage Service 進(jìn)行交互。這樣設(shè)計(jì)使得計(jì)算層集群更容易使用 K8s 管理或部署在云上。
計(jì)算層的負(fù)載均衡有兩種形式,最常見的方式是在計(jì)算層上加一個(gè)負(fù)載均衡(balance),第二種方法是將計(jì)算層所有節(jié)點(diǎn)的 IP 地址配置在客戶端中,這樣客戶端可以隨機(jī)選取計(jì)算節(jié)點(diǎn)進(jìn)行連接。
每個(gè)查詢計(jì)算引擎都能接收客戶端的請求,解析查詢語句,生成抽象語法樹(AST)并將 AST 傳遞給執(zhí)行計(jì)劃器和優(yōu)化器,最后再交由執(zhí)行器執(zhí)行。
在當(dāng)今,圖數(shù)據(jù)庫收到了更多分析師和咨詢公司的關(guān)注
Graph analysis is possibly the single most effective competitive differentiator for organizations pursuing data-driven operations and decisions after the design of data capture. ———————Gartner
“Graph analysis is the true killer app for Big Data.” ——————————Forrester
同時(shí)圖數(shù)據(jù)庫在 DB-Ranking 上的排名也呈現(xiàn)出上升最快的趨勢,可見需求之迫切:
Netflix 采用了JanusGraph + Cassandra + ElasticSearch 作為自身的圖數(shù)據(jù)庫架構(gòu),他們運(yùn)用這種架構(gòu)來做數(shù)字資產(chǎn)管理。
節(jié)點(diǎn)表示數(shù)字產(chǎn)品比如電影、紀(jì)錄片等,同時(shí)這些產(chǎn)品之間的關(guān)系就是節(jié)點(diǎn)間的邊。
當(dāng)前的 Netflix 有大概 2 億的節(jié)點(diǎn),70 多種數(shù)字產(chǎn)品,每分鐘都有上百條的 query 和數(shù)據(jù)更新。
此外,Netflix 也把圖數(shù)據(jù)庫運(yùn)用在了授權(quán)、分布式追蹤、可視化工作流上。比如可視化 Git 的 commit,jenkins 部署這些工作。
一般而言,新技術(shù)往往在開始的時(shí)候大都不被大公司所青睞,圖數(shù)據(jù)庫并沒有例外,大公司本身有很多的遺留項(xiàng)目,而這些項(xiàng)目本身的用戶體量和使用需求又讓這些公司不敢冒著風(fēng)險(xiǎn)來使用新技術(shù)去改變這些處于穩(wěn)定的產(chǎn)品。Adobe 在這里做了一個(gè)迭代新技術(shù)的例子,用 Neo4j 圖數(shù)據(jù)庫替換了舊的 NOSQL Cassandra 數(shù)據(jù)庫。
這個(gè)被大改的系統(tǒng)名字叫 Behance,是 Adobe 在 15 年發(fā)布的一個(gè)內(nèi)容社交平臺,有大概 1 千萬的用戶,在這里人們可以分享自己的創(chuàng)作給百萬人看。
這樣一個(gè)巨大的遺留系統(tǒng)本來是通過 Cassandra 和 MongoDB 搭建的,基于歷史遺留問題,系統(tǒng)有不少的性能瓶頸不得不解決。
MongoDB 和 Cassandra 的讀取性能慢主要因?yàn)樵鹊南到y(tǒng)設(shè)計(jì)采用了 fan-out 的設(shè)計(jì)模式——受關(guān)注多的用戶發(fā)表的內(nèi)容會單獨(dú)分發(fā)給每個(gè)讀者,這種設(shè)計(jì)模式也導(dǎo)致了網(wǎng)絡(luò)架構(gòu)的大延遲,此外 Cassandra 本身的運(yùn)維也需要不小的技術(shù)團(tuán)隊(duì),這也是一個(gè)很大的問題。
在這里為了搭建一個(gè)靈活、高效、穩(wěn)定的系統(tǒng)來提供消息 feeding 并最小化數(shù)據(jù)存儲的規(guī)模,Adobe 決定遷移原本的 Cassandra 數(shù)據(jù)庫到 Neo4j 圖數(shù)據(jù)庫。
在 Neo4j 圖數(shù)據(jù)庫中采用一種所謂的 Tiered relationships來表示用戶之間的關(guān)系,這個(gè)邊的關(guān)系可以去定義不同的訪問狀態(tài),比如:僅部分用戶可見,僅關(guān)注者可見這些基本操作。
數(shù)據(jù)模型如圖所示
使用這種數(shù)據(jù)模型并使用 Leader-follower 架構(gòu)來優(yōu)化讀寫,這個(gè)平臺獲得了巨大的性能提升:
運(yùn)維需求的時(shí)長在使用了 Neo4j 以后下降了 300%。
存儲需求降低了 1000 倍, Neo4j 僅需 50G 存儲數(shù)據(jù), 而 Cassandra 需要 50TB。
僅僅需要 3 個(gè)服務(wù)實(shí)例就可以支持整個(gè)服務(wù)器的流暢運(yùn)行,之前則需要 48 個(gè)。
圖數(shù)據(jù)庫本身就提供了更高的可擴(kuò)展性。
在當(dāng)今的大數(shù)據(jù)時(shí)代,采用圖數(shù)據(jù)庫可以用小成本在原有架構(gòu)上獲得巨大的性能提升。圖數(shù)據(jù)庫不僅僅可以在 5G、AI、物聯(lián)網(wǎng)領(lǐng)域發(fā)揮巨大的推動作用,同時(shí)也可以用來重構(gòu)原本的遺留系統(tǒng)。
雖然不同的圖數(shù)據(jù)庫可能有著截然不同的底層實(shí)現(xiàn),但這些都完全支持用圖的方式來構(gòu)建數(shù)據(jù)模型從而讓不同的組件之間相互聯(lián)系,從我們之前的討論來看,這一種數(shù)據(jù)模型層次的改變會極大地簡化很多日常數(shù)據(jù)系統(tǒng)中所面臨的問題,增大系統(tǒng)的吞吐量并且降低運(yùn)維的需求。
看完上述內(nèi)容,你們掌握怎樣分析圖數(shù)據(jù)庫的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!