本篇文章給大家分享的是有關(guān)怎么使用ROSE鑒定超級增強(qiáng)子,小編覺得挺實用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
公司主營業(yè)務(wù):成都網(wǎng)站建設(shè)、做網(wǎng)站、移動網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競爭能力。創(chuàng)新互聯(lián)建站是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn),讓我們激情的團(tuán)隊有機(jī)會用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯(lián)建站推出建湖免費做網(wǎng)站回饋大家。
ROSE是最經(jīng)典的超級增強(qiáng)子預(yù)測軟件,由Richard A. Young大牛團(tuán)隊開發(fā),源代碼的網(wǎng)址如下
http://younglab.wi.mit.edu/super_enhancer_code.html
首先通過Oct4, Sox2, Nanog這3種轉(zhuǎn)錄因子的chip數(shù)據(jù)去識別小鼠胚胎干細(xì)胞中的增強(qiáng)子區(qū)域,鑒定到了8794個增強(qiáng)子區(qū)域。對于這些增強(qiáng)子,根據(jù)區(qū)域內(nèi)對應(yīng)的Med1這種轉(zhuǎn)錄激活通用輔助因子的chip_seq reads的密度進(jìn)行排序,發(fā)現(xiàn)呈現(xiàn)兩極分化趨勢,示意如下
其中絕大部分的增強(qiáng)子對應(yīng)的Med1的水平都很低,少部分增強(qiáng)子對應(yīng)的Med1的水平非常高。除了Med1之外,還比較了其他幾種轉(zhuǎn)錄因子或者組蛋白修飾的數(shù)據(jù)
發(fā)現(xiàn)Med1的區(qū)分效果最佳,根據(jù)Med1水平的高低,可以將增強(qiáng)子分為以下兩類
typical enhancers
super enhancers
簡稱TE和SE, 進(jìn)一步分析發(fā)現(xiàn)TE和SE在長度上具有非常明顯的區(qū)別,SE的長度是TE長度的10倍以上,一個普通的增強(qiáng)子只有幾百bp的長度,而超級增強(qiáng)子的長度在幾千bp左右。
除了Med1之外,還比較了Qct4等多種轉(zhuǎn)錄因子在TE和SE中的分布,結(jié)果如下圖所示
發(fā)現(xiàn)在SE中Klf4和Esrrb的分布比TE中更加豐富。對SE區(qū)域富集的motif進(jìn)行分析,結(jié)果如下所示
發(fā)現(xiàn)富集到了Oct4, Sox2, Klf4等motif。從上述發(fā)現(xiàn)和定義超級增強(qiáng)子的過程可以看到,超級增強(qiáng)子的預(yù)測過程有以下兩個關(guān)鍵點
建立在增強(qiáng)子的基礎(chǔ)上,可以看做增強(qiáng)子富集的區(qū)域
相比增強(qiáng)子,超級增強(qiáng)子區(qū)域具有更高的轉(zhuǎn)錄因子的密度
ROSE這款程序也是根據(jù)這兩個關(guān)鍵點來識別超級增強(qiáng)子,基本過程示意如下
首先識別增強(qiáng)子區(qū)域,然后對增強(qiáng)子進(jìn)行合并,定義一個閾值,將距離小于該閾值的增強(qiáng)子進(jìn)行合并,最后比較合并后的增強(qiáng)子區(qū)域內(nèi)的reads分布情況來識別超級增強(qiáng)子。
在實際操作過程中,在第一步和第三步可以使用不同的mark, 如下所示
軟件基于python編程語言開發(fā),直接從官網(wǎng)下載源代碼,解壓縮就可以了。源代碼中內(nèi)置了幾個物種的注釋數(shù)據(jù)庫,存放在annotation
文件夾下
annotation/
├── hg18_refseq.ucsc
├── hg19_refseq.ucsc
├── hg38_refseq.ucsc
├── mm10_refseq.ucsc
├── mm8_refseq.ucsc
└── mm9_refseq.ucsc
其實就是從UCSC下載的對應(yīng)的refGene.txt
文件,該軟件的基本用法如下
python ROSE_main.py \
-g HG18 \
-i HG18_MM1S_MED1.gff \
-r MM1S_MED1.hg18.bwt.sorted.bam \
-c MM1S_WCE.hg18.bwt.sorted.bam \
-o out_dir \
-s 12500 \
-t 2500
需要注意一定要到軟件的安裝目錄去運行,因為會在運行目錄查找annotaton
這個文件夾下的物種注釋文件。
-g
指定參考基因組版本,用于檢索對應(yīng)的物種注釋文件;-i
指定增強(qiáng)子區(qū)域?qū)?yīng)的基因組位置,內(nèi)容如下
\t
分隔的6列,第一列,第三列和第四列指定增強(qiáng)子區(qū)域?qū)?yīng)的染色體位置,第五列指定正負(fù)鏈信息,.
代表不確定,第二列和第六列是一個自定義的唯一的ID, 用來表示增強(qiáng)子的編號。
確定了增強(qiáng)子區(qū)間信息之后,接下來就是比較增強(qiáng)子區(qū)域內(nèi)某種mark因子的chip_seq reads的分布情況,-r
參數(shù)指定chip_seq中IP樣本的bam文件,-c
指定Input樣本的bam文件。
-s
指定合并增強(qiáng)子的距離,默認(rèn)為12.5kb, 小于該距離的兩個增強(qiáng)子會合并為一個區(qū)間,-t
指定距離TSS的距離,如果一個peak與某個轉(zhuǎn)錄起始位點的距離小于指定的距離,則有可能是一個啟動子,這種潛在的啟動子會被過濾掉。
在輸出結(jié)果的目錄會生成很多文件,png文件內(nèi)容示意如下
AllEnhancers.table.txt
和SuperEnhancers.table.txt
分別表示所有增強(qiáng)子和超級增強(qiáng)子的信息,文件內(nèi)容類似,示意如下
dbSUPER和SEdb這兩個超級增強(qiáng)子數(shù)據(jù)庫都是使用h4K27ac組蛋白修飾作為mark來識別超級增強(qiáng)子,可以借鑒這個思路來識別超級增強(qiáng)子。
以上就是怎么使用ROSE鑒定超級增強(qiáng)子,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。