知識圖譜的概念是:知識圖譜是自頂向下(top-down)的構(gòu)建方式。自頂向下指的是先為知識圖譜定義好本體與數(shù)據(jù)模式,再將實體加入到知識庫。
我們提供的服務(wù)有:網(wǎng)站設(shè)計、網(wǎng)站建設(shè)、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認證、石門ssl等。為近1000家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學管理、有技術(shù)的石門網(wǎng)站制作公司
該構(gòu)建方式需要利用一些現(xiàn)有的結(jié)構(gòu)化知識庫作為其基礎(chǔ)知識庫,例如 Freebase 項目就是采用這種方式,它的絕大部分數(shù)據(jù)是從維基百科中得到的。
然而目前,大多數(shù)知識圖譜都采用自底向上(bottom-up)的構(gòu)建方式。自底向上指的是從一些開放連接數(shù)據(jù)(也就是 “信息”)中提取出實體,選擇其中置信度較高的加入到知識庫,再構(gòu)建實體與實體之間的聯(lián)系。
知識圖譜的體系架構(gòu)是:
知識圖譜的架構(gòu)主要包括自身的邏輯結(jié)構(gòu)以及體系架構(gòu)。
知識圖譜在邏輯結(jié)構(gòu)上可分為模式層與數(shù)據(jù)層兩個層次,數(shù)據(jù)層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。
如果用(實體1,關(guān)系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖數(shù)據(jù)庫作為存儲介質(zhì),例如開源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。
模式層構(gòu)建在數(shù)據(jù)層之上,主要是通過本體庫來規(guī)范數(shù)據(jù)層的一系列事實表達。本體是結(jié)構(gòu)化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結(jié)構(gòu)較強,并且冗余程度較小。
大規(guī)模知識庫的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持。通過知識抽取技術(shù),可以從一些公開的半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)中提取出實體、關(guān)系、屬性等知識要素。通過知識融合,可消除實體、關(guān)系、屬性等指稱項與事實對象之間的歧義,形成高質(zhì)量的知識庫。
知識推理則是在已有的知識庫基礎(chǔ)上進一步挖掘隱含的知識,從而豐富、擴展知識庫。分布式的知識表示形成的綜合向量對知識庫的構(gòu)建、推理、融合以及應(yīng)用均具有重要的意義。
知識圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(Point)和邊(Edge)組成。
知識圖譜又稱為科學知識圖譜,其本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(Point)和邊(Edge)組成。知識圖譜通過將應(yīng)用數(shù)學、圖形學、信息可視化技術(shù)、信息科學等學科的理論與方法與計量學引文分析、共現(xiàn)分析等方法結(jié)合。
構(gòu)建方式
知識圖譜有自頂向下和自底向上兩種構(gòu)建方式。所謂自頂向下構(gòu)建是借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù)據(jù)中提取本體和模式信息,加入到知識庫中;所謂自底向上構(gòu)建,則是借助一定的技術(shù)手段,從公開采集的數(shù)據(jù)中提取出資源模式,選擇其中置信度較高的新模式,經(jīng)人工審核之后,加入到知識庫中。
以上內(nèi)容參考:百度百科-知識圖譜
知識圖譜 (Knowledge Graph) 是當前的研究熱點。自從2012年Google推出自己第一版知識圖譜以來,它在學術(shù)界和工業(yè)界掀起了一股熱潮。各大互聯(lián)網(wǎng)企業(yè)在之后的短短一年內(nèi)紛紛推出了自己的知識圖譜產(chǎn)品以作為回應(yīng)。比如在國內(nèi),互聯(lián)網(wǎng)巨頭百度和搜狗分別推出”知心“和”知立方”來改進其搜索質(zhì)量。那么與這些傳統(tǒng)的互聯(lián)網(wǎng)公司相比,對處于當今風口浪尖上的行業(yè) - 互聯(lián)網(wǎng)金融, 知識圖譜可以有哪方面的應(yīng)用呢?
目錄
1. 什么是知識圖譜?
2. 知識圖譜的表示
3. 知識圖譜的存儲
4. 應(yīng)用
5. 挑戰(zhàn)
6. 結(jié)語
1. 什么是知識圖譜?
知識圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(Point)和邊(Edge)組成。在知識圖譜里,每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關(guān)系”。知識圖譜是關(guān)系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關(guān)系網(wǎng)絡(luò)。知識圖譜提供了從“關(guān)系”的角度去分析問題的能力。
知識圖譜這個概念最早由Google提出,主要是用來優(yōu)化現(xiàn)有的搜索引擎。不同于基于關(guān)鍵詞搜索的傳統(tǒng)搜索引擎,知識圖譜可用來更好地查詢復雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖,改進搜索質(zhì)量。比如在Google的搜索框里輸入Bill Gates的時候,搜索結(jié)果頁面的右側(cè)還會出現(xiàn)Bill Gates相關(guān)的信息比如出生年月,家庭情況等等。
另外,對于稍微復雜的搜索語句比如 ”Who is the wife of Bill Gates“,Google能準確返回他的妻子Melinda Gates。這就說明搜索引擎通過知識圖譜真正理解了用戶的意圖。
上面提到的知識圖譜都是屬于比較寬泛的范疇,在通用領(lǐng)域里解決搜索引擎優(yōu)化和問答系統(tǒng)(Question-Answering)等方面的問題。接下來我們看一下特定領(lǐng)域里的 (Domain-Specific) 知識圖譜表示方式和應(yīng)用,這也是工業(yè)界比較關(guān)心的話題。
2. 知識圖譜的表示
假設(shè)我們用知識圖譜來描述一個事實(Fact) - “張三是李四的父親”。這里的實體是張三和李四,關(guān)系是“父親”(is_father_of)。當然,張三和李四也可能會跟其他人存在著某種類型的關(guān)系(暫時不考慮)。當我們把電話號碼也作為節(jié)點加入到知識圖譜以后(電話號碼也是實體),人和電話之間也可以定義一種關(guān)系叫 has_phone,就是說某個電話號碼是屬于某個人。下面的圖就展示了這兩種不同的關(guān)系。
另外,我們可以把時間作為屬性(Property)添加到 has_phone 關(guān)系里來表示開通電話號碼的時間。這種屬性不僅可以加到關(guān)系里,還可以加到實體當中,當我們把所有這些信息作為關(guān)系或者實體的屬性添加后,所得到的圖譜稱之為屬性圖 (Property Graph)。屬性圖和傳統(tǒng)的RDF格式都可以作為知識圖譜的表示和存儲方式,但二者還是有區(qū)別的,這將在后面章節(jié)做簡單說明。
3. 知識圖譜的存儲
知識圖譜是基于圖的數(shù)據(jù)結(jié)構(gòu),它的存儲方式主要有兩種形式:RDF存儲格式和圖數(shù)據(jù)庫(Graph Database)。至于它們有哪些區(qū)別,請參考【1】。下面的曲線表示各種數(shù)據(jù)存儲類型在最近幾年的發(fā)展情況。從這里我們可以明顯地看到基于圖的存儲方式在整個數(shù)據(jù)庫存儲領(lǐng)域的飛速發(fā)展。這幅曲線圖來源于 Graph DBMS increased their popularity by 500% within the last 2 years
下面的列表表示的是目前比較流行的基于圖存儲的數(shù)據(jù)庫排名。從這個排名中可以看出neo4j在整個圖存儲領(lǐng)域里占據(jù)著NO.1的地位,而且在RDF領(lǐng)域里Jena還是目前為止最為流行的存儲框架。這部分數(shù)據(jù)來源于 DB-Engines Ranking
當然,如果需要設(shè)計的知識圖譜非常簡單,而且查詢也不會涉及到1度以上的關(guān)聯(lián)查詢,我們也可以選擇用關(guān)系型數(shù)據(jù)存儲格式來保存知識圖譜。但對那些稍微復雜的關(guān)系網(wǎng)絡(luò)(現(xiàn)實生活中的實體和關(guān)系普遍都比較復雜),知識圖譜的優(yōu)點還是非常明顯的。首先,在關(guān)聯(lián)查詢的效率上會比傳統(tǒng)的存儲方式有顯著的提高。當我們涉及到2,3度的關(guān)聯(lián)查詢,基于知識圖譜的查詢效率會高出幾千倍甚至幾百萬倍。其次,基于圖的存儲在設(shè)計上會非常靈活,一般只需要局部的改動即可。比如我們有一個新的數(shù)據(jù)源,我們只需要在已有的圖譜上插入就可以。于此相反,關(guān)系型存儲方式靈活性方面比較差,它所有的Schema都是提前定義好的,如果后續(xù)要改變,它的代價是非常高的。最后,把實體和關(guān)系存儲在圖數(shù)據(jù)結(jié)構(gòu)是一種符合整個故事邏輯的最好的方式。
4. 應(yīng)用
在本文中,我們主要討論知識圖譜在互聯(lián)網(wǎng)金融行業(yè)中的應(yīng)用。當然,很多應(yīng)用場景和想法都可以延伸到其他的各行各業(yè)。這里提到的應(yīng)用場景只是冰山一角, 在很多其他的應(yīng)用上,知識圖譜仍然可以發(fā)揮它潛在的價值, 我們在后續(xù)的文章中會繼續(xù)討論。
反欺詐
反欺詐是風控中非常重要的一道環(huán)節(jié)?;诖髷?shù)據(jù)的反欺詐的難點在于如何把不同來源的數(shù)據(jù)(結(jié)構(gòu)化,非結(jié)構(gòu))整合在一起,并構(gòu)建反欺詐引擎,從而有效地識別出欺詐案件(比如身份造假,團體欺詐,代辦包裝等)。而且不少欺詐案件會涉及到復雜的關(guān)系網(wǎng)絡(luò),這也給欺詐審核帶來了新的挑戰(zhàn)。 知識圖譜,作為關(guān)系的直接表示方式,可以很好地解決這兩個問題。 首先,知識圖譜提供非常便捷的方式來添加新的數(shù)據(jù)源,這一點在前面提到過。其次,知識圖譜本身就是用來表示關(guān)系的,這種直觀的表示方法可以幫助我們更有效地分析復雜關(guān)系中存在的特定的潛在風險。
反欺詐的核心是人,首先需要把與借款人相關(guān)的所有的數(shù)據(jù)源打通,并構(gòu)建包含多數(shù)據(jù)源的知識圖譜,從而整合成為一臺機器可以理解的結(jié)構(gòu)化的知識。在這里,我們不僅可以整合借款人的基本信息(比如申請時填寫的信息),還可以把借款人的消費記錄、行為記錄、網(wǎng)上的瀏覽記錄等整合到整個知識圖譜里,從而進行分析和預測。這里的一個難點是很多的數(shù)據(jù)都是從網(wǎng)絡(luò)上獲取的非結(jié)構(gòu)化數(shù)據(jù),需要利用機器學習、自然語言處理技術(shù)把這些數(shù)據(jù)變成結(jié)構(gòu)化的數(shù)據(jù)。
不一致性驗證
不一致性驗證可以用來判斷一個借款人的欺詐風險,這個跟交叉驗證類似。比如借款人張三和借款人李四填寫的是同一個公司電話,但張三填寫的公司和李四填寫的公司完全不一樣,這就成了一個風險點,需要審核人員格外的注意。
再比如,借款人說跟張三是朋友關(guān)系,跟李四是父子關(guān)系。當我們試圖把借款人的信息添加到知識圖譜里的時候,“一致性驗證”引擎會觸發(fā)。引擎首先會去讀取張三和李四的關(guān)系,從而去驗證這個“三角關(guān)系”是否正確。很顯然,朋友的朋友不是父子關(guān)系,所以存在著明顯的不一致性。
不一致性驗證涉及到知識的推理。通俗地講,知識的推理可以理解成“鏈接預測”,也就是從已有的關(guān)系圖譜里推導出新的關(guān)系或鏈接。 比如在上面的例子,假設(shè)張三和李四是朋友關(guān)系,而且張三和借款人也是朋友關(guān)系,那我們可以推理出借款人和李四也是朋友關(guān)系。
組團欺詐
相比虛假身份的識別,組團欺詐的挖掘難度更大。這種組織在非常復雜的關(guān)系網(wǎng)絡(luò)里隱藏著,不容易被發(fā)現(xiàn)。當我們只有把其中隱含的關(guān)系網(wǎng)絡(luò)梳理清楚,才有可能去分析并發(fā)現(xiàn)其中潛在的風險。知識圖譜,作為天然的關(guān)系網(wǎng)絡(luò)的分析工具,可以幫助我們更容易地去識別這種潛在的風險。舉一個簡單的例子,有些組團欺詐的成員會用虛假的身份去申請貸款,但部分信息是共享的。下面的圖大概說明了這種情形。從圖中可以看出張三、李四和王五之間沒有直接的關(guān)系,但通過關(guān)系網(wǎng)絡(luò)我們很容易看出這三者之間都共享著某一部分信息,這就讓我們馬上聯(lián)想到欺詐風險。雖然組團欺詐的形式眾多,但有一點值得肯定的是知識圖譜一定會比其他任何的工具提供更佳便捷的分析手段。
異常分析(Anomaly Detection)
異常分析是數(shù)據(jù)挖掘研究領(lǐng)域里比較重要的課題。我們可以把它簡單理解成從給定的數(shù)據(jù)中找出“異常”點。在我們的應(yīng)用中,這些”異?!包c可能會關(guān)聯(lián)到欺詐。既然知識圖譜可以看做是一個圖 (Graph),知識圖譜的異常分析也大都是基于圖的結(jié)構(gòu)。由于知識圖譜里的實體類型、關(guān)系類型不同,異常分析也需要把這些額外的信息考慮進去。大多數(shù)基于圖的異常分析的計算量比較大,可以選擇做離線計算。在我們的應(yīng)用框架中,可以把異常分析分為兩大類: 靜態(tài)分析和動態(tài)分析,后面會逐一講到。
- 靜態(tài)分析
所謂的靜態(tài)分析指的是,給定一個圖形結(jié)構(gòu)和某個時間點,從中去發(fā)現(xiàn)一些異常點(比如有異常的子圖)。下圖中我們可以很清楚地看到其中五個點的相互緊密度非常強,可能是一個欺詐組織。所以針對這些異常的結(jié)構(gòu),我們可以做出進一步的分析。
- 動態(tài)分析
所謂的動態(tài)分析指的是分析其結(jié)構(gòu)隨時間變化的趨勢。我們的假設(shè)是,在短時間內(nèi)知識圖譜結(jié)構(gòu)的變化不會太大,如果它的變化很大,就說明可能存在異常,需要進一步的關(guān)注。分析結(jié)構(gòu)隨時間的變化會涉及到時序分析技術(shù)和圖相似性計算技術(shù)。有興趣的讀者可以去參考這方面的資料【2】。
失聯(lián)客戶管理
除了貸前的風險控制,知識圖譜也可以在貸后發(fā)揮其強大的作用。比如在貸后失聯(lián)客戶管理的問題上,知識圖譜可以幫助我們挖掘出更多潛在的新的聯(lián)系人,從而提高催收的成功率。
現(xiàn)實中,不少借款人在借款成功后出現(xiàn)不還款現(xiàn)象,而且玩“捉迷藏”,聯(lián)系不上本人。即便試圖去聯(lián)系借款人曾經(jīng)提供過的其他聯(lián)系人,但還是沒有辦法聯(lián)系到本人。這就進入了所謂的“失聯(lián)”狀態(tài),使得催收人員也無從下手。那接下來的問題是,在失聯(lián)的情況下,我們有沒有辦法去挖掘跟借款人有關(guān)系的新的聯(lián)系人? 而且這部分人群并沒有以關(guān)聯(lián)聯(lián)系人的身份出現(xiàn)在我們的知識圖譜里。如果我們能夠挖掘出更多潛在的新的聯(lián)系人,就會大大地提高催收成功率。舉個例子,在下面的關(guān)系圖中,借款人跟李四有直接的關(guān)系,但我們卻聯(lián)系不上李四。那有沒有可能通過2度關(guān)系的分析,預測并判斷哪些李四的聯(lián)系人可能會認識借款人。這就涉及到圖譜結(jié)構(gòu)的分析。
智能搜索及可視化展示
基于知識圖譜,我們也可以提供智能搜索和數(shù)據(jù)可視化的服務(wù)。智能搜索的功能類似于知識圖譜在Google, Baidu上的應(yīng)用。也就是說,對于每一個搜索的關(guān)鍵詞,我們可以通過知識圖譜來返回更豐富,更全面的信息。比如搜索一個人的身份證號,我們的智能搜索引擎可以返回與這個人相關(guān)的所有歷史借款記錄、聯(lián)系人信息、行為特征和每一個實體的標簽(比如黑名單,同業(yè)等)。另外,可視化的好處不言而喻,通過可視化把復雜的信息以非常直觀的方式呈現(xiàn)出來, 使得我們對隱藏信息的來龍去脈一目了然。
精準營銷
“A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research
一個聰明的企業(yè)可以比它的競爭對手以更為有效的方式去挖掘其潛在的客戶。在互聯(lián)網(wǎng)時代,營銷手段多種多樣,但不管有多少種方式,都離不開一個核心 - 分析用戶和理解用戶。知識圖譜可以結(jié)合多種數(shù)據(jù)源去分析實體之間的關(guān)系,從而對用戶的行為有更好的理解。比如一個公司的市場經(jīng)理用知識圖譜來分析用戶之間的關(guān)系,去發(fā)現(xiàn)一個組織的共同喜好,從而可以有針對性的對某一類人群制定營銷策略。只有我們能更好的、更深入的(Deep understanding)理解用戶的需求,我們才能更好地去做營銷。
5. 挑戰(zhàn)
知識圖譜在工業(yè)界還沒有形成大規(guī)模的應(yīng)用。即便有部分企業(yè)試圖往這個方向發(fā)展,但很多仍處于調(diào)研階段。主要的原因是很多企業(yè)對知識圖譜并不了解,或者理解不深。但有一點可以肯定的是,知識圖譜在未來幾年內(nèi)必將成為工業(yè)界的熱門工具,這也是從目前的趨勢中很容易預測到的。當然,知識圖譜畢竟是一個比較新的工具,所以在實際應(yīng)用中一定會涉及到或多或少的挑戰(zhàn)。
數(shù)據(jù)的噪聲
首先,數(shù)據(jù)中存在著很多的噪聲。即便是已經(jīng)存在庫里的數(shù)據(jù),我們也不能保證它有100%的準確性。在這里主要從兩個方面說起。第一,目前積累的數(shù)據(jù)本身有錯誤,所以這部分錯誤數(shù)據(jù)需要糾正。 最簡單的糾正辦法就是做離線的不一致性驗證,這點在前面提過。第二, 數(shù)據(jù)的冗余。比如借款人張三填寫公司名字為”普惠“,借款人李四填寫的名字為”普惠金融“,借款人王五則填寫成”普惠金融信息服務(wù)有限公司“。雖然這三個人都隸屬于一家公司,但由于他們填寫的名字不同,計算機則會認為他們?nèi)齻€是來自不同的公司。那接下來的問題是,怎么從海量的數(shù)據(jù)中找出這些存在歧義的名字并將它們合并成一個名字? 這就涉及到自然語言處理中的”消歧分析”技術(shù)。
非結(jié)構(gòu)化數(shù)據(jù)處理能力
在大數(shù)據(jù)時代,很多數(shù)據(jù)都是未經(jīng)處理過的非結(jié)構(gòu)化數(shù)據(jù),比如文本、圖片、音頻、視頻等。特別在互聯(lián)網(wǎng)金融行業(yè)里,我們往往會面對大量的文本數(shù)據(jù)。怎么從這些非結(jié)構(gòu)化數(shù)據(jù)里提取出有價值的信息是一件非常有挑戰(zhàn)性的任務(wù),這對掌握的機器學習,數(shù)據(jù)挖掘,自然語言處理能力提出了更高的門檻。
知識推理
推理能力是人類智能的重要特征,使得我們可以從已有的知識中發(fā)現(xiàn)隱含的知識, 一般的推理往往需要一些規(guī)則的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”關(guān)系,“父親”的“父親”可以推理出“祖父”的關(guān)系。再比如張三的朋友很多也是李四的朋友,那我們可以推測張三和李四也很有可能是朋友關(guān)系。當然,這里會涉及到概率的問題。當信息量特別多的時候,怎么把這些信息(side information)有效地與推理算法結(jié)合在一起才是最關(guān)鍵的。常用的推理算法包括基于邏輯(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。隨著深度學習在人工智能領(lǐng)域的地位變得越來越重要,基于分布式表示方法的推理也成為目前研究的熱點。如果有興趣可以參考一下這方面目前的工作進展【4,5,6,7】。
大數(shù)據(jù)、小樣本、構(gòu)建有效的生態(tài)閉環(huán)是關(guān)鍵
雖然現(xiàn)在能獲取的數(shù)據(jù)量非常龐大,我們?nèi)匀幻媾R著小樣本問題,也就是樣本數(shù)量少。假設(shè)我們需要搭建一個基于機器學習的反欺詐評分系統(tǒng),我們首先需要一些欺詐樣本。但實際上,我們能拿到的欺詐樣本數(shù)量不多,即便有幾百萬個貸款申請,最后被我們標記為欺詐的樣本很可能也就幾萬個而已。這對機器學習的建模提出了更高的挑戰(zhàn)。每一個欺詐樣本我們都是以很高昂的“代價”得到的。隨著時間的推移,我們必然會收集到更多的樣本,但樣本的增長空間還是有局限的。這有區(qū)別于傳統(tǒng)的機器學習系統(tǒng),比如圖像識別,不難拿到好幾十萬甚至幾百萬的樣本。
在這種小樣本條件下,構(gòu)建有效的生態(tài)閉環(huán)尤其的重要。所謂的生態(tài)閉環(huán),指的是構(gòu)建有效的自反饋系統(tǒng)使其能夠?qū)崟r地反饋給我們的模型,并使得模型不斷地自優(yōu)化從而提升準確率。為了搭建這種自學習系統(tǒng),我們不僅要完善已有的數(shù)據(jù)流系統(tǒng),而且要深入到各個業(yè)務(wù)線,并對相應(yīng)的流程進行優(yōu)化。這也是整個反欺詐環(huán)節(jié)必要的過程,我們要知道整個過程都充滿著博弈。所以我們需要不斷地通過反饋信號來調(diào)整我們的策略。
6. 結(jié)語
知識圖譜在學術(shù)界和工業(yè)界受到越來越多的關(guān)注。除了本文中所提到的應(yīng)用,知識圖譜還可以應(yīng)用在權(quán)限管理,人力資源管理等不同的領(lǐng)域。在后續(xù)的文章中會詳細地講到這方面的應(yīng)用。
參考文獻
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】劉知遠 知識圖譜——機器大腦中的知識庫 第二章 知識圖譜——機器大腦中的知識庫
【4】Nickel, M., Murphy, K., Tresp, V., Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
什么是NoSQL數(shù)據(jù)庫?從名稱“非SQL”或“非關(guān)系型”衍生而來,這些數(shù)據(jù)庫不使用類似SQL的查詢語言,通常稱為結(jié)構(gòu)化存儲。這些數(shù)據(jù)庫自1960年就已經(jīng)存在,但是直到現(xiàn)在一些大公司(例如Google和Facebook)開始使用它們時,這些數(shù)據(jù)庫才流行起來。該數(shù)據(jù)庫最明顯的優(yōu)勢是擺脫了一組固定的列、連接和類似SQL的查詢語言的限制。有時,NoSQL這個名稱也可能表示“不僅僅SQL”,來確保它們可能支持SQL。 NoSQL數(shù)據(jù)庫使用諸如鍵值、寬列、圖形或文檔之類的數(shù)據(jù)結(jié)構(gòu),并且可以如JSON之類的不同格式存儲。
nosql是not only sql的意思。是近今年新發(fā)展起來的存儲系統(tǒng)。當前使用最多的是key-value模型,用于處理超大規(guī)模的數(shù)據(jù)。
以下是摘自百度百科中的一部分
NoSQL 是非關(guān)系型數(shù)據(jù)存儲的廣義定義。它打破了長久以來關(guān)系型數(shù)據(jù)庫與ACID理論大一統(tǒng)的局面。NoSQL 數(shù)據(jù)存儲不需要固定的表結(jié)構(gòu),通常也不存在連接操作。在大數(shù)據(jù)存取上具備關(guān)系型數(shù)據(jù)庫無法比擬的性能優(yōu)勢。該術(shù)語在 2009 年初得到了廣泛認同。
當今的應(yīng)用體系結(jié)構(gòu)需要數(shù)據(jù)存儲在橫向伸縮性上能夠滿足需求。而 NoSQL 存儲就是為了實現(xiàn)這個需求。Google 的BigTable與Amazon的Dynamo是非常成功的商業(yè) NoSQL 實現(xiàn)。一些開源的 NoSQL 體系,如Facebook 的Cassandra, Apache 的HBase,也得到了廣泛認同。從這些NoSQL項目的名字上看不出什么相同之處:Hadoop、Voldemort、Dynomite,還有其它很多。
NoSQL與關(guān)系型數(shù)據(jù)庫設(shè)計理念比較
關(guān)系型數(shù)據(jù)庫中的表都是存儲一些格式化的數(shù)據(jù)結(jié)構(gòu),每個元組字段的組成都一樣,即使不是每個元組都需要所有的字段,但數(shù)據(jù)庫會為每個元組分配所有的字段,這樣的結(jié)構(gòu)可以便于表與表之間進行連接等操作,但從另一個角度來說它也是關(guān)系型數(shù)據(jù)庫性能瓶頸的一個因素。而非關(guān)系型數(shù)據(jù)庫以鍵值對存儲,它的結(jié)構(gòu)不固定,每一個元組可以有不一樣的字段,每個元組可以根據(jù)需要增加一些自己的鍵值對,這樣就不會局限于固定的結(jié)構(gòu),可以減少一些時間和空間的開銷。
知識圖譜,是通過將應(yīng)用數(shù)學、圖形學、信息可視化技術(shù)、信息科學等學科的理論與方法與計量學引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu)達到多學科融合目的的現(xiàn)代理論。