這篇文章主要為大家展示了“Control-Freec工具有什么用”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“Control-Freec工具有什么用”這篇文章吧。
創(chuàng)新互聯(lián)公司主營饒河網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營網(wǎng)站建設(shè)方案,重慶APP開發(fā)公司,饒河h5小程序定制開發(fā)搭建,饒河網(wǎng)站營銷推廣歡迎饒河等地區(qū)企業(yè)咨詢
Control-Freec 既可以檢測拷貝數(shù)變異CNV
,還可以分析雜合性缺失LOH
。官網(wǎng)如下
http://boevalab.com/FREEC/
在檢測拷貝數(shù)變異時,支持全基因組測序,全外顯子測序,目標區(qū)域捕獲測序等多種測序方案,對于全基因組數(shù)據(jù),分析是不需要提供對照樣本;對于全外顯子測序和目標區(qū)域捕獲測序,必須提供對照樣本。
該軟件最新版僅支持Linux和Mac OS兩種操作系統(tǒng),github 上提供了編譯好的二進制文件,直接下載解壓縮即可。
安裝過程如下
wget -O FREEC-11.4.tar.gz https://github.com/BoevaLab/FREEC/archive/v11.4.tar.gz tar xzvf FREEC-11.4.tar.gz cd FREEC-11.4
在FREEC-11.4
下有3個目錄:data
目錄保存的是配置文件的模板,包含WGS和WES兩套模板;scripts
目錄下是一些常用的腳本;src
目錄下就是軟件的源代碼,freec
可執(zhí)行文件就位于這個目錄。
使用軟件的第一步,就是編輯配置文件,配置文件中的內(nèi)容主要包括以下5個部分
常用配置如下
[general] chrLenFile = test/hg19.fa.fai ploidy = 2 breakPointThreshold = .8 #coefficientOfVariation = 0.01 window = 50000 #step=10000 chrFiles = path/hg19/ GCcontentProfile = GC_profile_50kb.cnp
chrLenFile
指定參考物種染色體長度的文件,示例如下
1 chr1 247249719 2 chr2 242951149 3 chr3 199501827
共三列,第一列為編號,第二列為染色體名字,第四列為染色體長度。需要注意的是,軟件只會分析在該文件中出現(xiàn)的染色體區(qū)域。
ploidy
指定參考物種染色體組的個數(shù),通常我們都是分析人的CNV,人是二倍體生物,這個參數(shù)的值就是2。
breakPointThreshold
官方推薦的取值范圍是0.01到0.08,數(shù)值越小,預(yù)測到的CNV越多。
freec
通過分析某一區(qū)域的測序深度來預(yù)測CNV, 對于全基因組數(shù)據(jù),根據(jù)滑動窗口模型進行分析,window
參數(shù)指定窗口的大小,step
指定步長;對于全外顯子數(shù)據(jù),計算測序深度時按照exon區(qū)域進行計算,所以window
設(shè)置為0。
當不提供對照樣本時,必須設(shè)置chrFiles
和GCcontentProfile
兩個參數(shù)。
chrFiles
參數(shù)的值為一個目錄,該目錄下時每條染色體的fasta格式的序列。
GCcontentProfile
參數(shù)的值為一個文件,記錄了染色體上固定窗口區(qū)域內(nèi)的GC含量,可以用gccount
軟件生成。示例如下
1 0 0.45896 1 1 50000 0.38424 1 1 100000 0.43834 1
共四列,第一類為染色體名字,第二類為窗口的起始位置,坐標從0開始計算;第三類為窗口內(nèi)的GC含量,第四列為窗口內(nèi)的分模糊堿基的比例。
常用配置如下
[sample] mateFile = /path/sample.bam inputFormat = BAM mateOrientation = RF
mateFile
參數(shù)指定待分析樣本的輸入文件,通常都是bam格式的,也支持SAM
, pileup
等其他格式;inputFormat
指定輸入文件的格式;mateOrientation
指定測序方向,對于單端測序的數(shù)據(jù),對應(yīng)的值為0;對于illumina 雙端測序的reads, 對應(yīng)的值為FR。如果輸入的bam文件是排序之后的bam文件,需要將該參數(shù)的值設(shè)為0。
常用配置如下
[control] mateFile = /path/sample.bam inputFormat = BAM mateOrientation = RF
設(shè)置對照樣本的輸入文件,和sample的設(shè)置是一樣的。
常用配置如下
[BAF] SNPfile = hg19_snp138.vcf
SNPfile
指定已知SNP位點的文件,格式為VCF。
常用配置如下
[target] captureRegions = testChr19/capture.bed
captureRegions
參數(shù)的值是bed格式的文件,指定捕獲的目的區(qū)域,共3列,第一列染色體名字,第二列和第三列分別為區(qū)域的起始和終止位置。
對于沒有control 樣本的實驗設(shè)計,實際分析時只需要配置general
和sample
這兩項就可以了,BAF
只有當輸入文件格式為pileup
,而且需要計算B allele frequency和genotype時才需要配置,更多配置選項可以參考官方文檔。
編輯好配置文件之后,就可以運行了,命令如下
freec -conf config.txt
以上是“Control-Freec工具有什么用”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!