如何理解轉(zhuǎn)錄組數(shù)據(jù)比對(duì)工具STAR

如何理解轉(zhuǎn)錄組數(shù)據(jù)比對(duì)工具STAR，很多新手對(duì)此不是很清楚，為了幫助大家解決這個(gè)難題，下面小編將為大家詳細(xì)講解，有這方面需求的人可以來學(xué)習(xí)下，希望你能有所收獲。

“專業(yè)、務(wù)實(shí)、高效、創(chuàng)新、把客戶的事當(dāng)成自己的事”是我們每一個(gè)人一直以來堅(jiān)持追求的企業(yè)文化。成都創(chuàng)新互聯(lián)是您可以信賴的網(wǎng)站建設(shè)服務(wù)商、專業(yè)的互聯(lián)網(wǎng)服務(wù)提供商! 專注于成都做網(wǎng)站、成都網(wǎng)站制作、軟件開發(fā)、設(shè)計(jì)服務(wù)業(yè)務(wù)。我們始終堅(jiān)持以客戶需求為導(dǎo)向，結(jié)合用戶體驗(yàn)與視覺傳達(dá)，提供有針對(duì)性的項(xiàng)目解決方案，提供專業(yè)性的建議，創(chuàng)新互聯(lián)建站將不斷地超越自我，追逐市場(chǎng)，引領(lǐng)市場(chǎng)！

STAR是一款RNA_seq數(shù)據(jù)專用的比對(duì)軟件，比對(duì)速度非?？?，最大的優(yōu)勢(shì)是靈敏度高，GATK推薦采用STAR比對(duì)，然后進(jìn)行下游的SNP分析。軟件的源代碼保存在github上，地址如下

https://github.com/alexdobin/STAR

安裝過程如下

wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz

解壓縮之后，在bin/Linux_x86_64_static目錄下，提供了編譯好的可執(zhí)行文件STAR。和hisat等軟件不同，STAR將所有的功能整合在了同一個(gè)程序中，通過切換runMode來執(zhí)行不同的任務(wù)。

1. 構(gòu)建基因組索引

運(yùn)行比對(duì)前，首先需要對(duì)基因組建立索引，建立索引對(duì)應(yīng)的runMode為genomeGenerate, 基本用法如下

STAR --runMode genomeGenerate \
--runThreadN  20 \
--genomeFastaFiles hg19.fasta \
--genomeDir hg19_STAR_db \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149

建立索引需要基因組的fasta和gtf文件，通過genomeFastaFiles和sjdbGTFfile這兩個(gè)參數(shù)分別指定；STAR構(gòu)建索引需要指定一個(gè)輸出目錄，這個(gè)目錄必須事先創(chuàng)建好，在該目錄下，會(huì)生成許多文件，所以必須有寫權(quán)限；runThreadN指定線程數(shù)；sjdbOverhang的值默認(rèn)為100，在實(shí)際設(shè)置時(shí)，最佳取值為max(read_length) - 1。

在構(gòu)建索引時(shí)，還支持加入intron的區(qū)間信息，通過sjdbFileChrStartEnd指定對(duì)應(yīng)的文件，多個(gè)文件用逗號(hào)分隔，這種格式的文件是由STAR比對(duì)產(chǎn)生的，通常用于2-pass比對(duì)模式。

官方推薦基因組的fasta采用primary_assembly版本, 不應(yīng)該包含alt_scaffold和patches。對(duì)于human而言，NCBI的鏈接如下

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.38_GRCh48.p12/GCF_000001405.38_GRCh48.p12_assembly_structure/Primary_Assembly/

Ensembl鏈接如下

ftp://ftp.ensembl.org/pub/release-93/fasta/homo_sapiens/dna/Homo_sapiens.GRCh48.dna.primary_assembly.fa.gz

2. 運(yùn)行比對(duì)

STAR支持fasta/fastq格式的輸入文件，如果序列文件是壓縮之后的，需要用readFilesCommand參數(shù)指定文件解壓縮的方法，對(duì)于gzip壓縮的文件而言，有以下兩種下寫法

--readFilesCommand  zcat
--readFilesCommand  gzip -c

比對(duì)完成后，會(huì)輸出許多文件，包含4個(gè)類別

log文件
sam文件
bam文件
剪切位點(diǎn)文件

每個(gè)文件都有事先定義好的名字，當(dāng)多個(gè)樣本同時(shí)運(yùn)行時(shí)，為了加以區(qū)分，可以通過outFileNamePrefix指定輸出文件的前綴。前3種類型的文件都比較容易理解，剪切位點(diǎn)文件實(shí)際上是根據(jù)mapping情況，估算出來的intron區(qū)間的信息，默認(rèn)的文件名稱為SJ.out.tab。

默認(rèn)輸出的比對(duì)文件為SAM格式，為了節(jié)省磁盤空間，方便下游分析，可以通過outSAMtype參數(shù)指定輸出bam文件，該參數(shù)有兩個(gè)字段值，第一個(gè)值指定文件類型，取值有SAM和BAM兩種，第二個(gè)值指定是否排序，取值范圍包括Unsorted, SortedByCoordinate, 寫法如下

--outSAMtype BAM SortedByCoordinate

上述寫法輸出排序之后的bam文件。

單端數(shù)據(jù)比對(duì)的基本用法如下

STAR \
--runThreadN  20 \
--genomeDir hg19_STAR_db \
--readFilesIn reads.fq \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149 \
--outFileNamePrefix sampleA \
--outSAMtype BAM SortedByCoordinate

雙端數(shù)據(jù)比對(duì)的基本用法如下

STAR  \
--runThreadN  20 \
--genomeDir hg19_STAR_db \
--readFilesIn r1.fq.gz r2.fq.gz \
--readFilesCommand  zcat \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149 \
--outFileNamePrefix sampleA \
--outSAMtype BAM SortedByCoordinate

以上只是基本的比對(duì)，STAR官方更推薦使用2-pass比對(duì)模式，即比對(duì)兩次，有以下兩種方式

multi-sample 2-pass
第一次比對(duì)和上述的用法一致，比對(duì)完之后，每個(gè)樣本會(huì)產(chǎn)生一個(gè)intron的區(qū)間文件SJ.out.tab; 在第二次比對(duì)之前，重新構(gòu)建一次基因組的索引，添加所有樣本的SJ.out.tab文件，然后利用新的基因組索引重新比對(duì)。這種做法綜合了多個(gè)樣本的intron信息，比對(duì)的靈敏度會(huì)更高，缺點(diǎn)是操作比較繁瑣。
per-sample 2-pass
對(duì)于單個(gè)樣本，在比對(duì)時(shí)直接添加--twopassMode Basic參數(shù)，軟件會(huì)自動(dòng)進(jìn)行兩次比對(duì)，將第一次比對(duì)的SJ.out.tab加入到索引，然后重新比對(duì)。這種方法操作簡(jiǎn)單，適用于單個(gè)樣本的2-pass 比對(duì)。

看完上述內(nèi)容是否對(duì)您有幫助呢？如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章，請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝您對(duì)創(chuàng)新互聯(lián)的支持。

分享題目：如何理解轉(zhuǎn)錄組數(shù)據(jù)比對(duì)工具STAR
分享URL：http://weahome.cn/article/isghhc.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

如何理解轉(zhuǎn)錄組數(shù)據(jù)比對(duì)工具STAR

1. 構(gòu)建基因組索引

2. 運(yùn)行比對(duì)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管