這篇文章主要講解了“DESeq2有什么用”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“DESeq2有什么用”吧!
創(chuàng)新互聯(lián)建站是一家專注于成都網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)與策劃設(shè)計(jì),秦淮網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)建站做網(wǎng)站,專注于網(wǎng)站建設(shè)10余年,網(wǎng)設(shè)計(jì)領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:秦淮等地區(qū)。秦淮做網(wǎng)站價(jià)格咨詢:18982081108
對(duì)于RNA_Seq而言,得到基因/轉(zhuǎn)錄本的定量結(jié)果僅僅是第一步, 只是對(duì)測(cè)序數(shù)據(jù)的匯總, 相同的工作也可以通過芯片直接得到。
無論是芯片也好,測(cè)序也罷,定量只不過是量化生物體內(nèi)轉(zhuǎn)錄本的表達(dá)豐度,僅僅一個(gè)定量的結(jié)果并不能得到有效的生物學(xué)結(jié)論。為了回答生物學(xué)問題,還需要進(jìn)行后續(xù)的差異分析。
由于定量的方式有很多種,比如raw count, TPM, RPKM/FPKM 等,不同的定量方式其表達(dá)量的分布是不同的,所以差異分析時(shí)采用的軟件與算法也會(huì)不同。本文介紹DESeq2這個(gè)R包,主要是針對(duì)raw count的定量結(jié)果,進(jìn)行差異分析。
DESeq2要求輸入的定量結(jié)果為raw count形式,raw count其實(shí)是根據(jù)reads數(shù)計(jì)算得到,所以要求必須全部是整數(shù)。
由于不同樣本的測(cè)序量不完全相同,所以raw count無法在樣本間直接比較,就是說同一個(gè)基因在樣本A中的raw count大于樣本B中的raw count , 并不意味這在A中的表達(dá)量就高,數(shù)值大可能是由于樣本A測(cè)序的reads 總數(shù)大造成的。
為了在樣本間進(jìn)行差異分析,首先就需要對(duì)原始的raw count 表達(dá)量數(shù)據(jù)進(jìn)行歸一化。在DESeq2中,通過estimateSizeFactors
函數(shù)為每個(gè)樣本計(jì)算一個(gè)系數(shù),稱之為sizefactor, 示意如下
> dds <- makeExampleDESeqDataSet(n=1000, m=4) > dds <- estimateSizeFactors(dds) > sizeFactors(dds) sample1 sample2 sample3 sample4 1.010543 1.033960 1.023026 1.001038
具體的計(jì)算過程如下:
原始的表達(dá)量矩陣每一行代表一個(gè)基因,每一列代表一個(gè)樣本,用counts
表示,先進(jìn)行l(wèi)og轉(zhuǎn)換,轉(zhuǎn)換之后,計(jì)算每個(gè)基因在所有樣本中的均值,代碼如下
loggeomeans <- rowMeans(log(counts))
計(jì)算單個(gè)樣本的sizafactor時(shí),將該樣本中每個(gè)基因的表達(dá)量減去對(duì)應(yīng)的所有樣本中的均值,然后取中位數(shù)。由于開始進(jìn)行了log轉(zhuǎn)換,最后在轉(zhuǎn)換回來。 假定一個(gè)樣本中所有基因的表達(dá)量為cnts
, 代碼如下
exp(median((log(cnts) - loggeomeans)[is.finite(loggeomeans) & cnts > 0]))
需要注意的時(shí),在計(jì)算中位數(shù)時(shí),對(duì)基因進(jìn)行了過濾,需要滿足以下兩個(gè)條件
1.在該樣本中該基因的表達(dá)量大于0
2.在所有樣本中該基因的表達(dá)量都大于0,而且取log之后的和不為0
實(shí)際上第二個(gè)條件已經(jīng)包含第一個(gè)條件了,在原始的表達(dá)量矩陣中,肯定會(huì)有基因在部分樣本表達(dá)量為0的情況,所以最終計(jì)算中位數(shù)時(shí),只會(huì)用到部分基因。
計(jì)算出每個(gè)樣本的sizefactor之后,將該樣本原始的表達(dá)量除以該樣本的sizefactor, 就得到了歸一化之后的表達(dá)量。
對(duì)于raw count 的歸一化,本質(zhì)是消除不同樣本測(cè)序總量不同的影響,反應(yīng)到表達(dá)量矩陣上,就是每列的總和不同。DESeq2計(jì)算得到的sizefactor和每列的總和之間是一個(gè)線性關(guān)系,示意如下
所以sizefactors 能夠用來進(jìn)行歸一化。
感謝各位的閱讀,以上就是“DESeq2有什么用”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對(duì)DESeq2有什么用這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!