今天就跟大家聊聊有關(guān)多個(gè)數(shù)據(jù)集整合神器RobustRankAggreg包的示例分析,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
成都創(chuàng)新互聯(lián)專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)、江城網(wǎng)絡(luò)推廣、微信小程序定制開發(fā)、江城網(wǎng)絡(luò)營(yíng)銷、江城企業(yè)策劃、江城品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);成都創(chuàng)新互聯(lián)為所有大學(xué)生創(chuàng)業(yè)者提供江城建站搭建服務(wù),24小時(shí)服務(wù)熱線:13518219792,官方網(wǎng)址:www.cdcxhl.com
RobustRankAggreg包在各種數(shù)據(jù)挖掘文章里面亮相的頻次之高,無需我多言,大家可以去查看一下引用它的文獻(xiàn),基本上都是GEO數(shù)據(jù)庫挖掘文章:
比如發(fā)表在peerJ的BIOINFORMATICS AND GENOMICS的文章Identification of key candidate genes and biological pathways in bladder cancer 里面的:
作者把這4個(gè)數(shù)據(jù)集,分別獨(dú)立走差異分析,火山圖,熱圖等等標(biāo)準(zhǔn)流程,基本上讀一下我在生信技能樹的表達(dá)芯片的公共數(shù)據(jù)庫挖掘系列推文 就明白了;
你也可以很輕松的分析這幾個(gè)數(shù)據(jù)集:GSE7476, GSE13507, GSE37815 and GSE65635 ,然后作者就使用了RobustRankAggreg包對(duì)這4個(gè)數(shù)據(jù)集的差異分析結(jié)果進(jìn)行整合,如下:
并且把top20的上調(diào)基因和下調(diào)基因的差異倍數(shù)進(jìn)行熱圖可視化,如下:
當(dāng)然了,不僅僅是mRNA的表達(dá)芯片,其它,比如circRNA芯片也是如此,同樣是發(fā)表于2018的文章:A circRNA–miRNA–mRNA network identification for exploring underlying pathogenesis and therapy strategy of hepatocellular carcinoma
就是下載了3個(gè)GEO數(shù)據(jù)集,走差異分析,并且使用RobustRankAggreg包進(jìn)行整合,最后僅僅是確定了6個(gè)circRNA。
幾百篇文章我們就不用一一解讀啦,反正都是獨(dú)立的數(shù)據(jù)集自己做自己的差異分析,然后把多個(gè)數(shù)據(jù)集的差異基因拿去使用RobustRankAggreg包進(jìn)行整合。
這個(gè)RobustRankAggreg包超級(jí)簡(jiǎn)單,有意思的是居然并不在bioconductor列表哦,可能是因?yàn)樗铋_始并不是為生物信息學(xué)領(lǐng)域的數(shù)據(jù)分析而創(chuàng)造的吧!因?yàn)椴辉赽ioconductor,所以它的示例教程一塌糊涂,需要一點(diǎn)背景才能理解。其重點(diǎn)就是aggregateRanks函數(shù)而已:
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
# https://bioconductor.org/packages/release/bioc/html/GEOquery.html
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("RobustRankAggreg",ask = F,update = F)
library(RobustRankAggreg)
?aggregateRanks
一般來說,正常R包的函數(shù),都是可以通過問號(hào)來調(diào)取其幫助文檔的,aggregateRanks函數(shù)也不例外。我們直接看一下示例代碼:
set.seed(1234567)
glist <- list(sample(letters, 4), sample(letters, 10), sample(letters, 12))
freq=as.data.frame(table(unlist(glist)))
# Aggregate the inputs
ag=aggregateRanks(glist = glist, N = length(letters))
ag$Freq=freq[match(ag$Name,freq$Var1),2]
的確是超級(jí)簡(jiǎn)單,可以看到,我們有26個(gè)字母,假設(shè)是26個(gè)基因,然后做了3次隨機(jī)抽樣,假設(shè)是3個(gè)數(shù)據(jù)集的差異分析,拿到的上調(diào)基因,列表如下:
值得注意的是,每次抽樣,得到的字母列表的順序也是有意義的哦。我們的多次數(shù)據(jù)集差異分析結(jié)果,也制作成為這樣的表格即可哈!
然后直接使用aggregateRanks函數(shù)即可,得到的數(shù)據(jù)結(jié)果如下:
可以看到,a這個(gè)字母在3次隨機(jī)抽樣都抽到了,所以它的 exact p-value 非常小,就是統(tǒng)計(jì)學(xué)非常顯著啦!
然后,其余的出現(xiàn)了兩次的字母就比較多了,它們的得分之所以有區(qū)別,就在于它們的排序。
aggregateRanks函數(shù)其實(shí)就是對(duì)多個(gè)排好序的基因集,進(jìn)行求交集的同時(shí)還考慮一下它們的排序情況??傮w上來說,就是挑選那些在多個(gè)數(shù)據(jù)集都表現(xiàn)差異的基因,并且每次差異都排名靠前的那些。
看完上述內(nèi)容,你們對(duì)多個(gè)數(shù)據(jù)集整合神器RobustRankAggreg包的示例分析有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。