怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息，相信很多沒有經(jīng)驗的人對此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個問題。

站在用戶的角度思考問題，與客戶深入溝通，找到曾都網(wǎng)站設(shè)計與曾都網(wǎng)站推廣的解決方案，憑借多年的經(jīng)驗，讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合，創(chuàng)造個性化、用戶體驗好的作品，建站類型包括：成都做網(wǎng)站、成都網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、國際域名空間、網(wǎng)站空間、企業(yè)郵箱。業(yè)務(wù)覆蓋曾都地區(qū)。

從數(shù)據(jù)庫中得到蛋白質(zhì)的相互作用信息之后，我們可以構(gòu)建蛋白質(zhì)間的相互作用網(wǎng)絡(luò)，但是這個網(wǎng)絡(luò)是非常復(fù)雜的，節(jié)點和連線的個數(shù)很多，如果從整體上看，很難挖掘出任何有生物學(xué)價值的信息，所以我們需要借助一些算法來深入挖掘。

隨著各個數(shù)據(jù)庫中信息通量的不斷提高，基于網(wǎng)絡(luò)的分析方法越來越受歡迎，比如我們常見的蛋白質(zhì)相互網(wǎng)絡(luò)，基因共表達網(wǎng)絡(luò)，轉(zhuǎn)錄因子調(diào)控網(wǎng)絡(luò)，pathway網(wǎng)絡(luò)等等，為了更好的理解后續(xù)的數(shù)據(jù)挖掘算法，首選要對網(wǎng)路的屬性有一些基本了解。

從數(shù)據(jù)結(jié)構(gòu)上看，我們所說的網(wǎng)絡(luò)network是屬于圖Graph這一數(shù)據(jù)結(jié)構(gòu)的，網(wǎng)絡(luò)是一種比較直觀的描述，就是點和點之間的連線，在算法上，為了準確描述一個網(wǎng)絡(luò)，通常借助于鄰接矩陣，示意如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

在網(wǎng)絡(luò)中，根據(jù)節(jié)點的連線是否具有方向，可以劃分為有向圖和無向圖兩類，無向圖中被一條線連接的兩個節(jié)點其作用是相互的，比如基因共表達網(wǎng)絡(luò)，兩個基因間互為共表達基因，而有向圖中，連線是有方向性的，比如轉(zhuǎn)錄因子調(diào)控網(wǎng)絡(luò)，轉(zhuǎn)錄因子調(diào)控基因，所以連線由轉(zhuǎn)錄因子指向某個基因。

無向圖的描述為undirected graph, 有向圖的描述為directed graph。PPI網(wǎng)絡(luò)由于蛋白的作用是相互的，所以通常歸類為無向圖。

除了連線的方向性，根據(jù)連線對應(yīng)的值，可以將網(wǎng)絡(luò)圖分為加權(quán)和非加權(quán)兩種，以基因共表達網(wǎng)絡(luò)為例，非加權(quán)圖中連線是一個定性描述，兩個基因具有共表達的趨勢，就可以用連線連接，而加權(quán)圖是一個定量描述，兩個基因間共表達系數(shù)的大小對應(yīng)邊的值，在可視化時，值不同，對應(yīng)邊的粗細也不同。

鄰接矩陣可以方便的描述任意一種類別的網(wǎng)絡(luò)，如上圖所示，鄰接矩陣是一個二維矩陣，而且是一個方陣，行和列代表的都是圖中的節(jié)點，在非加權(quán)圖中，0代表兩個節(jié)點沒有連線，1代表兩個節(jié)點間存在連線；在加權(quán)圖中，每個單元格數(shù)值對應(yīng)每條邊的數(shù)值。

對于網(wǎng)絡(luò)而言，需要了解以下幾個基本概念

1. degree

網(wǎng)絡(luò)由節(jié)點和邊構(gòu)成，對于一個節(jié)點而言，該節(jié)點連線的多少，即為該節(jié)點的degree, 稱之度，對于有向圖，根據(jù)連線的防線，度又劃分為入度和出度，示意如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

圖中每個節(jié)點上標記的數(shù)字就是該節(jié)點的度數(shù)。

2. shorest path

最短路徑表示兩個節(jié)點間的最短距離，在網(wǎng)絡(luò)中，從一個節(jié)點到另外一個節(jié)點，可以有很多個路徑，其中經(jīng)過的節(jié)點數(shù)最少的稱之為最短路徑，示意如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

上述到A到B的最短路徑為5。

3. closeness centrality

該統(tǒng)計量用來衡量節(jié)點的重要程度，基于最短路徑進行定義，公式如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

4. Betweenness centrality

和closeness centrality類似，也是用來表征節(jié)點的重要程度，公式如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

在上圖中。刪除B和C中的任意一個，A都可以連接到E，但是刪除了D就不行了，所以D就比較重要。

5. density

密度代表的是網(wǎng)絡(luò)中實際的連線數(shù)與理論最大連線數(shù)的比值，對于包含n個節(jié)點的網(wǎng)絡(luò)，其最大的變數(shù)為任意兩個節(jié)點之間都相連，共 n(n-1)/2, 示意如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

密度用來衡量一個網(wǎng)絡(luò)的密集程度。

6. Clustering Coefficient

聚集系數(shù)，和密度類似，也叫做transitity，有兩種定義，第一種稱之為local clustering coefficient, 針對單個節(jié)點進行定義，對于某個節(jié)點而言，該統(tǒng)計量的值為與該節(jié)點直接相鄰的鄰近節(jié)點構(gòu)成的網(wǎng)絡(luò)的密度，示意如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

上圖中的第一個網(wǎng)絡(luò)，所有節(jié)點構(gòu)成了一個clique, 即完全連通圖，任意兩個節(jié)點之間都存在了連線，local clustering coefficient 可以看做是衡量鄰近節(jié)點組成的網(wǎng)絡(luò)與完全聯(lián)通圖接近的程度，取值范圍0到1，越接近于1，越接近一個完全連通圖。

在此基礎(chǔ)上，針對一個網(wǎng)絡(luò)，還出現(xiàn)了average clustering coefficient的概念，就是計算每個節(jié)點的local clustering coefficient，然后取平均值，公式如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

第二種是對于整個網(wǎng)絡(luò)而言，稱之為global clustering coefficient, 這個值的定義是在triangle graph的基礎(chǔ)上，triangle graph直譯過來就是三角形圖，即3個節(jié)點構(gòu)成的網(wǎng)絡(luò)，示意如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

如上圖所示，如果三個節(jié)點構(gòu)成的網(wǎng)絡(luò)是一個閉合的三角形，稱之為closed triangle graph, 如果缺失了其中一條邊，稱之為open triangle graph。

global clustering coefficient 有以下兩種定義方式

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

有文獻研究發(fā)現(xiàn)真實世界的網(wǎng)絡(luò)是一個scale-free network, 中文是無標度網(wǎng)絡(luò)，意思是說在這個網(wǎng)絡(luò)中，大部分的節(jié)點其度數(shù)都很低，只有部分節(jié)點有用很高的度數(shù)，示意如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

上圖中的網(wǎng)絡(luò)就是一個scale-free network, 只有黃色節(jié)點的度數(shù)較高，藍色節(jié)點度數(shù)很低，在整個網(wǎng)絡(luò)中，大部分都是藍色節(jié)點，如果繪制該網(wǎng)絡(luò)的節(jié)點度數(shù)分布圖，應(yīng)該是如下的一個趨勢

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

橫坐標為度數(shù)，縱坐標為為節(jié)點數(shù)，度數(shù)很低的節(jié)點占大多數(shù)，度數(shù)高的節(jié)點只是少數(shù)，當然這種描述是一種定性描述，為了準確描述，提出了冪律分布的概念，即上述分布圖對應(yīng)的表達式為

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

X代表度數(shù)，Y代表對應(yīng)的節(jié)點數(shù)，有趣的是，將X和Y同時取對數(shù)，可以轉(zhuǎn)換為一個線性方程，推導(dǎo)如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

取對數(shù)之后的分布如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

對數(shù)轉(zhuǎn)換之后，可以通過線性擬合確定各個系數(shù)的值，在之前的WGCNA中，選擇最佳的power其實就是這個原理，通過比較不同power值條件下，線性擬合的R2值的大小，選擇一個擬合效果最好的值。

在復(fù)雜的網(wǎng)絡(luò)中，會存在部分密度較高的區(qū)域，這樣的區(qū)域稱之為community, 也有module等叫法，示意如下

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

在community內(nèi)部，連線的密度較高，而區(qū)域部分的連線就少。community被認為是具有生物學(xué)意義的集合。對于PPI網(wǎng)絡(luò)而言，其modules通常有以下兩種生物學(xué)含義

protein complex
蛋白質(zhì)復(fù)合體，由多個蛋白質(zhì)共同組成復(fù)合體，然后發(fā)揮生物學(xué)作用。
functional module
功能模塊，比如位于同一個pathway中的蛋白，其相互作用肯定更加密切。

所以得到網(wǎng)絡(luò)之后，我們需要去識別communities，目前的有多種算法可用選擇，在PPI網(wǎng)絡(luò)中，常用的有以下算法

MCODE
MCL
Nwewan-Girvan fast greedy algorithm

看完上述內(nèi)容，你們掌握怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝各位的閱讀！

網(wǎng)頁名稱：怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息
標題網(wǎng)址：http://weahome.cn/article/jiiggc.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

怎樣從PPI網(wǎng)絡(luò)進一步挖掘信息

1. degree

2. shorest path

3. closeness centrality

4. Betweenness centrality

5. density

6. Clustering Coefficient

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管