這篇文章主要講解了“CPM定量方式是怎樣的”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“CPM定量方式是怎樣的”吧!
創(chuàng)新互聯(lián)公司專注于企業(yè)成都全網(wǎng)營(yíng)銷、網(wǎng)站重做改版、泗陽(yáng)網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、H5響應(yīng)式網(wǎng)站、商城開發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁(yè)設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性價(jià)比高,為泗陽(yáng)等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。
在edgeR中,提供了一種名為CPM
的定量方式,全稱為count-per-millon。
假定原始的表達(dá)量矩陣為count
, 計(jì)算CPM
的代碼如下
cpm <- apply(count ,2, function(x) { x/sum(x)*1000000 })
原始的表達(dá)量除以該樣本表達(dá)量的總和,在乘以一百萬(wàn)就得到了CPM
值 。從公式可以看出, CPM
其實(shí)就是相對(duì)豐度,只不過(guò)考慮到測(cè)序的reads總量很多,所以總的reads數(shù)目以百萬(wàn)為單位。
在前面的文章中我們介紹了edgeR提供的TMM歸一化算法,CPM
這種求相對(duì)豐度的思想,雖然也是一種比較簡(jiǎn)單的歸一化方式,但它并不用于差異分析之前的歸一化。
在edgeR中,CPM
主要有以下兩種用途
DESeq2和edgeR都是針對(duì)raw count表達(dá)量進(jìn)行分析,在DESeq2中,在過(guò)濾低表達(dá)量的基因時(shí),直接是根據(jù)reads數(shù)的總和進(jìn)行判斷,代碼如下
countData <- count[apply(count, 1, sum) > 10 , ]
由于不同樣本測(cè)序的reads總數(shù)不同,所以直接將所有樣本的reads相加,然后進(jìn)行過(guò)濾,這種方式略顯粗糙。edgeR中,利用CPM
的定量結(jié)果,對(duì)低表達(dá)量的基因進(jìn)行過(guò)濾,代碼如下
countData <- count[apply(cpm(count), 1, sum) > 2 , ]
利用相對(duì)豐度的加和進(jìn)行過(guò)濾,消除了樣本間reads總數(shù)不同的影響。需要注意的是,我們只是用CPM
來(lái)過(guò)濾基因,而后續(xù)分析還是基于raw count的結(jié)果,因?yàn)橹挥衦aw count是基于負(fù)二項(xiàng)分布的。
MA圖是差異分析常用的可視化手段之一,橫坐標(biāo)為基因在兩組樣本中的均值 , 縱坐標(biāo)為Fold change, 就是兩組表達(dá)量的倍數(shù)。edgeR中的plotMD
函數(shù)可以繪制如下所示的MA圖
從x軸的標(biāo)簽可以看出來(lái),采用的是CPM
值。由于不同基因CPM
值差異很大,所以采用log轉(zhuǎn)換,縮小了不同基因之間的差異。
感謝各位的閱讀,以上就是“CPM定量方式是怎樣的”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)CPM定量方式是怎樣的這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!