對(duì)基因的描述一般從三個(gè)層面進(jìn)行:
湖北ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書未來市場(chǎng)廣闊!成為成都創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18982081108(備注:SSL證書合作)期待與您的合作!
這三個(gè)層面具體是指:
得到GO注釋
做GO分析的思路:
比如,在疾病研究的時(shí)候,進(jìn)行藥物治療之后某些基因的表達(dá)量明顯的發(fā)生了變化,拿這些基因去做GO分析發(fā)現(xiàn)在Biological process過程當(dāng)中集中在RNA修飾上,然后在此基礎(chǔ)上繼續(xù)進(jìn)行挖掘。這個(gè)例子就是想啟示大家拿到差異表達(dá)基因DEG只是一個(gè)開始,接下來就應(yīng)該去做GO注釋,之后需要進(jìn)行一個(gè)分析看這些注釋主要集中在哪個(gè)地方。假如我們有100個(gè)差異表達(dá)基因其中有99個(gè)都集中在細(xì)胞核里,那我們通過GO分析就得到了一個(gè)顯著的分布。
GO富集分析原理:
有一個(gè)term注釋了100個(gè)差異表達(dá)基因參與了哪個(gè)過程,注釋完之后(模式生物都有現(xiàn)成的注釋包,不用我們自己注釋),計(jì)算相對(duì)于背景它是否顯著集中在某條通路、某一個(gè)細(xì)胞學(xué)定位、某一種生物學(xué)功能。
clusterProfiler是一個(gè)功能強(qiáng)大的R包,同時(shí)支持GO和KEGG的富集分析,而且可視化功能非常的優(yōu)秀,本章主要介紹利用這個(gè)R包來進(jìn)行Gene Ontology的富集分析。
進(jìn)行GO分析時(shí),需要考慮的一個(gè)基礎(chǔ)因素就是基因的GO注釋信息從何處獲取。Bioconductor上提供了以下19個(gè)物種的Org類型的包,包含了這些物種的GO注釋信息
對(duì)于以上19個(gè)物種,只需要安裝對(duì)應(yīng)的org包,clusterProfile就會(huì)自動(dòng)從中獲取GO注釋信息,我們只需要差異基因的列表就可以了,使用起來非常方便。
1.1 準(zhǔn)備輸入數(shù)據(jù)
待分析的數(shù)據(jù)就是一串基因名稱了,可以是ensembl id、entrze id或者symbol id等類型都可以。把基因名稱以一列的形式排開,放在一個(gè)文本文件中(例如命名“gene.txt”)。Excel中查看,就是如下示例這種樣式。
1.3 GO富集分析
加載了注釋庫(kù)之后,讀取基因列表文件,并使用clusterProfiler的內(nèi)部函數(shù)enrichGO()即可完成GO富集分析。
讀取基因列表文件,并使用clusterProfiler的內(nèi)部函數(shù)enrichKEGG()即可完成KEGG富集分析。
此外,clusterProfiler中也額外提供了一系列的可視化方案用于展示本次富集分析結(jié)果,具有極大的便利。
參考:
;utm_medium=timeline
前面我給大家詳細(xì)介紹過
?GO簡(jiǎn)介及GO富集結(jié)果解讀
?四種GO富集柱形圖、氣泡圖解讀
?GO富集分析四種風(fēng)格展示結(jié)果—柱形圖,氣泡圖
?KEGG富集分析—柱形圖,氣泡圖,通路圖
? DAVID GO和KEGG富集分析及結(jié)果可視化
也用視頻給大家介紹過
? GO和KEGG富集分析視頻講解
最近有粉絲反映說,利用clusterProfiler這個(gè)包繪制GO富集分析氣泡圖和柱形圖的時(shí)候,發(fā)現(xiàn)GO條目的名字都重疊在一起了。
氣泡圖
柱形圖
這個(gè)圖別說美觀了,簡(jiǎn)直不忍直視。經(jīng)過我的認(rèn)真研究,發(fā)現(xiàn)跟R版本有關(guān)。前面我給大家展示的基本都是R 3.6.3做出來的圖。很多粉絲可能用的都是最新版本的R 4.1.2。
我們知道R的版本在不停的更新,相應(yīng)的R包也在不停的更新。我把繪制氣泡圖和柱形圖相關(guān)的函數(shù)拿出來認(rèn)真的研究了一下,終于發(fā)現(xiàn)的癥結(jié)所在。
dotplot這個(gè)函數(shù),多了個(gè) label_format 參數(shù)
我們來看看這個(gè)參數(shù)究竟是干什么用的,看看參數(shù)說明
label_format :
a numeric value sets wrap length, alternatively a custom function to format axis labels. by default wraps names longer that 30 characters
原來這個(gè)參數(shù)默認(rèn)值是30,當(dāng)標(biāo)簽的長(zhǎng)度大于30個(gè)字符就會(huì)被折疊,用多行來展示。既然問題找到了,我們就來調(diào)節(jié)一下這個(gè)參數(shù),把他設(shè)置成100,讓我們的標(biāo)簽可以一行展示。
是不是還是原來的配方,還是熟悉的味道
同樣的柱形圖,我們也能讓他恢復(fù)原來的容貌。
關(guān)于如何使用R做GO和KEGG富集分析,可參考下文
GO和KEGG富集分析視頻講解
ID轉(zhuǎn)換用到的是 bitr() 函數(shù),bitr()的使用方法:
org.Hs.eg.db包含有多種gene_name的類型
keytypes() :keytypes(x),查看注釋包中可以使用的類型
columns() :類似于keytypes(),針對(duì)org.Hs.eg.db兩個(gè)函數(shù)返回值一致
select() :select(x, keys, columns, keytype, ...) eg.
函數(shù)enrichGO()進(jìn)行GO富集分析,enrichGO()的使用方法:
舉例:
上圖是一個(gè)簡(jiǎn)單的例子,b為一矩陣,現(xiàn)在想統(tǒng)計(jì)第二列中數(shù)值等于1的元素個(gè)數(shù),首先做一個(gè)邏輯判斷,即b[,2]==1,得到一個(gè)由布爾變量true和false組成的向量。
此時(shí)只需要知道true的數(shù)量,由于對(duì)布爾變量求和,true轉(zhuǎn)化為1,false轉(zhuǎn)化為0,故對(duì)該向量求和即可得到true的數(shù)量,即b[,2]中等于1的數(shù)量。