小編給大家分享一下如何實(shí)現(xiàn)bigwig歸一化,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
創(chuàng)新互聯(lián)建站是一家專注于網(wǎng)站制作、做網(wǎng)站與策劃設(shè)計(jì),成縣網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)建站做網(wǎng)站,專注于網(wǎng)站建設(shè)十年,網(wǎng)設(shè)計(jì)領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:成縣等地區(qū)。成縣做網(wǎng)站價(jià)格咨詢:028-86922220
在chip_seq數(shù)據(jù)展示時(shí),經(jīng)常會(huì)用到bigwig文件,導(dǎo)入igvtools等基因組瀏覽器中,產(chǎn)生如下所示的圖片
我們將IP樣本相對(duì)Input樣本中reads富集的區(qū)域定義為peak, 反映到上圖中,則對(duì)應(yīng)的為IP樣本中reads出現(xiàn)了峰值,比如下圖紅色標(biāo)記的區(qū)域
通過這種可視化的方式,可以直觀的反映出peak區(qū)域的情況,但是在實(shí)際使用中需要注意歸一化的問題。
bigwig文件本質(zhì)上展示的是測(cè)序深度的分布信息,而原始的測(cè)序深度是和測(cè)序的reads量呈正相關(guān)關(guān)系的,比如Input樣本測(cè)序5G, IP樣本測(cè)序10G, 在原始的測(cè)序深度看,會(huì)看到Input樣本相比IP樣本,其測(cè)序深度是偏高的。當(dāng)然這個(gè)是一個(gè)極端的例子,但是很好的說明了測(cè)序量的差異對(duì)原始的測(cè)序深度會(huì)有直接的影響。
為了消除樣本間測(cè)序數(shù)據(jù)量差異的影響,很當(dāng)然的我們想到了歸一化,類似轉(zhuǎn)錄組中的定量策略,原始的測(cè)序深度就是raw count, 那么當(dāng)然類似RPKM
, CPM
等歸一化方式,對(duì)于bigwig文件而言,同樣適用。
在deeptools中,提供了多種歸一化方式
RPKM的公式如下
RPKM (per bin) = number of reads per bin / (number of mapped reads (in millions) * bin length (kb))
用法如下
deeptools bamCoverage \
-p 10 \
--bam input.bam \
--normalizeUsing RPKM \
--outFileName rpkm.bigwig
CPM的公式如下
CPM (per bin) = number of reads per bin / number of mapped reads (in millions)
用法如下
deeptools bamCoverage \
-p 10 \
--bam input.bam \
--normalizeUsing CPM \
--outFileName cpm.bigwig
BPM的公式如下
BPM (per bin) = number of reads per bin / sum of all reads per bin (in millions)
用法如下
deeptools bamCoverage \
-p 10 \
--bam input.bam \
--normalizeUsing BPM \
--outFileName bpm.bigwig
RPGC的公式如下
RPGC (per bin) = number of reads per bin / scaling factor for 1x average coverage
scaling factor = (total number of mapped reads * fragment length) / effective genome size
用法如下
deeptools bamCoverage \
-p 10 \
--bam input.bam \
--normalizeUsing RPGC \
--effectiveGenomeSize 2864785220 \
--outFileName rpgc.bigwig
對(duì)于同一個(gè)樣本而言,導(dǎo)入igvtools中,幾種歸一化方式產(chǎn)生的bigwig文件和原始的bigwig文件的峰形是完全一樣的 ,示意如下
注意紅色方框標(biāo)記的縱軸的范圍,可以看到不同方式,其縱軸范圍不一樣。
歸一化主要用于樣本間的比較, 比如在比較Input和Ip兩個(gè)樣本時(shí),就應(yīng)該使用歸一化之后的數(shù)據(jù),以RPKM
為例,導(dǎo)入之后可以看到如下所示的結(jié)果
可以看到縱軸的范圍是不一致的,為了更好的比較樣本間的差異,我們需要把二者的縱軸范圍調(diào)整成一致的,因?yàn)閿?shù)據(jù)已經(jīng)做了歸一化處理,所以可以直接在同一范圍內(nèi)進(jìn)行比較,設(shè)置成同一范圍后,效果如下
對(duì)于上述多種歸一化方式,其實(shí)都是可以拿來在樣本間比較的。在實(shí)際操作中,由于RPKM
的概念最為經(jīng)典,應(yīng)用的也最為廣泛。
以上是“如何實(shí)現(xiàn)bigwig歸一化”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!