柱狀圖又叫條形圖,是數(shù)據(jù)展示最重要的一類統(tǒng)計圖,數(shù)據(jù)分析結(jié)果展示中使用頻率非常高,各類統(tǒng)計軟件均能繪制。在R語言中,有很多包可繪制柱狀圖,比如graphics包barplot()函數(shù)和ggplot2包geom_bar()函數(shù)。 本文介紹ggplot2包的geom_bar()函數(shù)繪制柱狀圖。
創(chuàng)新互聯(lián)專注于富縣企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè),商城網(wǎng)站開發(fā)。富縣網(wǎng)站建設(shè)公司,為富縣等地區(qū)提供建站服務(wù)。全流程按需搭建網(wǎng)站,專業(yè)設(shè)計,全程項目跟蹤,創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務(wù)
geom_bar()函數(shù)的基本用法:
[1]
[2] Robert I. Kabacoff (著). R語言實(shí)戰(zhàn)(高濤/肖楠/陳鋼 譯). 北京: 人民郵電出版社.
[3]
[4]
[5]
前面我給大家詳細(xì)介紹過
?GO簡介及GO富集結(jié)果解讀
?四種GO富集柱形圖、氣泡圖解讀
?GO富集分析四種風(fēng)格展示結(jié)果—柱形圖,氣泡圖
?KEGG富集分析—柱形圖,氣泡圖,通路圖
? DAVID GO和KEGG富集分析及結(jié)果可視化
也用視頻給大家介紹過
? GO和KEGG富集分析視頻講解
最近有粉絲反映說,利用clusterProfiler這個包繪制GO富集分析氣泡圖和柱形圖的時候,發(fā)現(xiàn)GO條目的名字都重疊在一起了。
氣泡圖
柱形圖
這個圖別說美觀了,簡直不忍直視。經(jīng)過我的認(rèn)真研究,發(fā)現(xiàn)跟R版本有關(guān)。前面我給大家展示的基本都是R 3.6.3做出來的圖。很多粉絲可能用的都是最新版本的R 4.1.2。
我們知道R的版本在不停的更新,相應(yīng)的R包也在不停的更新。我把繪制氣泡圖和柱形圖相關(guān)的函數(shù)拿出來認(rèn)真的研究了一下,終于發(fā)現(xiàn)的癥結(jié)所在。
dotplot這個函數(shù),多了個 label_format 參數(shù)
我們來看看這個參數(shù)究竟是干什么用的,看看參數(shù)說明
label_format :
a numeric value sets wrap length, alternatively a custom function to format axis labels. by default wraps names longer that 30 characters
原來這個參數(shù)默認(rèn)值是30,當(dāng)標(biāo)簽的長度大于30個字符就會被折疊,用多行來展示。既然問題找到了,我們就來調(diào)節(jié)一下這個參數(shù),把他設(shè)置成100,讓我們的標(biāo)簽可以一行展示。
是不是還是原來的配方,還是熟悉的味道
同樣的柱形圖,我們也能讓他恢復(fù)原來的容貌。
關(guān)于如何使用R做GO和KEGG富集分析,可參考下文
GO和KEGG富集分析視頻講解
直方圖又稱柱狀圖/條形圖,用來展示連續(xù)數(shù)據(jù)分布的常用工具,用來估計數(shù)據(jù)的概率分布。
使用格式:hist(x,breaks=n,main="name",labels=FASLE,col="blue",border="red",freq=TRUE)
x 向量,直方圖的數(shù)據(jù);
breaks 描直方圖的斷點(diǎn),例如breaks=20表示畫出20個柱子;
labels 邏輯變量,TRUE標(biāo)出頻數(shù)
main 標(biāo)題
col 顏色
border外框顏色
freq 邏輯變量,TRUE為數(shù)據(jù)頻數(shù),默認(rèn)為TRUE;FALSE則為密度
我們可以用lines畫出數(shù)據(jù)的密度曲線
還可以畫正態(tài)分布的密度曲線
使用格式 ggplot(data,aes(x=class))+geom_bar()
x 繪制的數(shù)據(jù)
或者 ggplot(data,aes(y=class))+geom_bar(),則類型分布在y軸
當(dāng)想看在該因素中其他因素的情況,可以利用fill進(jìn)行繪制,得出疊堆條形圖
橫向的柱狀
大多數(shù)時候我們想比較多個組直接某些因素的情況,例如有時候我們要畫幾個樣本中各個細(xì)胞比例的情況
這是我們可以畫堆疊條形圖
此時不好比較,我們可以把同類型細(xì)胞放在一塊比較,即橫坐標(biāo)變?yōu)榧?xì)胞類型
在實(shí)驗(yàn)過程中可以采用容易分析的形式進(jìn)行比較
以上是基本繪制的參數(shù),此外還有美化的一些參數(shù)
labs 橫縱坐標(biāo)軸的名稱
ggttitle 標(biāo)題名稱
geom_bar(width= )設(shè)置條形大小,默認(rèn)情況下,設(shè)置為數(shù)據(jù)分辨率的90%。
theme_bw() 改變背景顏色
scale_fill_manual 自定義顏色
更多參數(shù)見 R語言繪圖——數(shù)據(jù)可視化ggplot2 介紹和主要的參數(shù)
富集分析,來自于Enrichment這個詞語
F or example, given a set of genes that are up-regulated under certain conditions, an enrichment analysis will find which Ontology terms are over-represented (or under-represented) using annotations for that gene set.
通俗來說:富集分析是基于一個先驗(yàn)的知識圖譜將輸入內(nèi)容進(jìn)行聚類分析,得到聚類后結(jié)果。
上句話中逐個概念解析:
figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"GO 富集結(jié)果(柱狀圖)/figcaption
結(jié)果解析:我們可以基于柱狀圖,清楚的看出,每一個聚類后結(jié)果(橫軸下方的字段),以及每一個分類所對應(yīng)的基因/基因產(chǎn)物數(shù)量(此圖中為蛋白質(zhì)數(shù)量)
上圖是氣泡圖形式,由于GO有三個互不交集的ontology本體,所以要單獨(dú)分區(qū)展示。氣泡圖比柱狀圖可以多展現(xiàn)1個維度,在上圖中,體現(xiàn)了4個維度信息:
(1)氣泡表示分類條目
(2)氣泡大小表示基因/基因產(chǎn)物數(shù)量。
(3)增加了p-value的展示。p值的負(fù)對數(shù)分配給y軸(越高就越重要),統(tǒng)計學(xué)基礎(chǔ)是超幾何分布。( 從總的N個基因中挑出n個基因,作為分母(這是背景基因),分子則是M個基因(我們的差異基因,這是前景基因),有k個落在了某通路里,有n-k個不落在了某通路里,然后使用超幾何分布來對它們進(jìn)行計算,即前景基因落在某通路的比例是否高于背景基因在這一通路的比例 )
(4)表達(dá)量的上下調(diào)。橫軸zscore表示是表達(dá)量是高了還是低了(一般應(yīng)用于RNA和蛋白中,基因一般不涉及)。 [圖片上傳失敗...(image-efb449-1611106941603)]
figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"點(diǎn)擊一個分類,可以查看其所對應(yīng)的局部知識圖譜/figcaption
得到目標(biāo)對象(基因或者基因產(chǎn)物)的富集結(jié)果(詞條)后,通過查看網(wǎng)站對詞條的注釋聲明,來驗(yàn)證或判斷目標(biāo)對象作為生物標(biāo)志物的合理性。
figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"方法論示例/figcaption
示例1:《 與胰腺癌相關(guān)的重要基因本體論術(shù)語和生物學(xué)途徑分析 》IF: 2.197
示例 2: 《 使用基因本體論術(shù)語和KEGG途徑進(jìn)行化學(xué)毒性作用分析 》 IF: 3.681
GO 功能富集分析、KEGG pathway富集分析、 GSEA 功能富集分析、 reactome 通路富集分析
(1) David ——The D atabase for A nnotation, V isualization and I ntegrated D iscovery ,支持在線進(jìn)行GO功能富集分析。 工作組 很多華人(從名字上看)
(2) GOrilla ——GeneOntology enRIchment anaLysis and visuaLizAtion tool,支持在線進(jìn)行GO功能富集分析。
(3) KOBAS ——KEGG Orthology Based Annotation System,支持在線進(jìn)行pathways通路分析 (KEGG PATHWAY, Reactome, Biocyc, Panther), 關(guān)聯(lián)疾病分析diseases (KEGG DISEASE, OMIM, NHGRI GWAS Catalog), 和GO 功能富集。北大團(tuán)隊做的。
(4) clusterProfiler : universal enrichment tool for functional and comparative study。推薦一個R分析工作包,是生信分析領(lǐng)域大牛 Y叔 寫的,幾乎能支持市面上常見的各類功能、通路、關(guān)聯(lián)疾病分析,受science大力推薦(反正Y叔公眾號上他自己是這么說的,有沒有忽悠成分咱就不管了哈,但是吃過的都說香)。
以 KOBAS 為例,演示兩個流程:
(1) GO分析
step i :選擇“基于基因列表進(jìn)行富集分析”
step ii:在計算頁面等一會,查看分析結(jié)果
step iii:查看GO的DAG圖
figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"GO:3A004408/figcaption
也有這樣的:
figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"GO:0045893/figcaption
(2)KEGG pathway分析
step i: 參數(shù)選擇KEGG
step ii: 查看計算結(jié)果
step iii: 查看通路圖
有些情況下KEGG會報錯:
解決方法:注意將url的末尾添加一個/符號,即可正常展示。