本篇內(nèi)容介紹了“kallisto怎么使用”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
站在用戶的角度思考問(wèn)題,與客戶深入溝通,找到宜良網(wǎng)站設(shè)計(jì)與宜良網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類型包括:網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、國(guó)際域名空間、虛擬主機(jī)、企業(yè)郵箱。業(yè)務(wù)覆蓋宜良地區(qū)。
kallisto 是2016年發(fā)布的一款無(wú)須比對(duì)的轉(zhuǎn)錄本定量工具,采用了名為pseudo-alignment的算法。傳統(tǒng)的定量算法是根據(jù)reads的比對(duì)位置來(lái)確認(rèn)其屬于哪個(gè)轉(zhuǎn)錄本或者基因,而pseudo-alignment 算法不關(guān)系reads具體的比對(duì)位置,而是通過(guò)reads的kmer特征來(lái)判斷其屬于哪一條轉(zhuǎn)錄本,示意圖如下
首先將每個(gè)轉(zhuǎn)錄本序列劃分為kmer, 利用所有轉(zhuǎn)錄本的kmer序列構(gòu)建de Bgujin Graph, 簡(jiǎn)稱T-DBG,在這個(gè)圖中,每個(gè)節(jié)點(diǎn)是一個(gè)kmer, 每條路徑代表一個(gè)轉(zhuǎn)錄本, 由于轉(zhuǎn)錄本序列的冗余,實(shí)際上每個(gè)kmer對(duì)應(yīng)多條路徑,也就是對(duì)應(yīng)多個(gè)轉(zhuǎn)錄本; 然后將測(cè)序的reads也劃分為kmer, 并將其映射到T-DBG中。
最終定量時(shí),將該reads的所有kmer對(duì)應(yīng)的轉(zhuǎn)錄本取交集,就能夠分析出reads可能屬于哪些轉(zhuǎn)錄本序列。
官網(wǎng)有編譯好的可執(zhí)行文件,下載解壓即可。代碼如下
wget https://github.com/pachterlab/kallisto/releases/download/v0.44.0/kallisto_linux-v0.44.0.tar.gz tar xzvf kallisto_linux-v0.44.0.tar.gz
解壓之后,在文件夾下可以看到名為kallisto
的可執(zhí)行文件。從算法也可以看到,軟件的運(yùn)行需要兩步,第一步對(duì)轉(zhuǎn)錄本的序列劃分kmer, 構(gòu)建T-DBG, 也稱之為建索引;第二步對(duì)reads 定量。
kallisto支持讀取gzip壓縮的轉(zhuǎn)錄本序列,用法如下
kallisto index -k 31 -i hg19.idx hg19.refMrna.fa
只需要提供轉(zhuǎn)錄本的fasta格式的序列即可。-k
參數(shù)指定kmer的長(zhǎng)度,-i
參數(shù)指定輸出的索引的名字,注意kallisto建立的索引為一個(gè)文件。
kallisto 支持單端和雙端數(shù)據(jù)的定量,雙端數(shù)據(jù)用法如下
kallisto quant \ -i hg19.idx \ -o out_dir \ -t 20 \ R1.fastq.gz R2.fastq.gz
-i
參數(shù)指定轉(zhuǎn)錄本的索引文件,-o
參數(shù)指定輸出結(jié)果的目錄,-t
參數(shù)指定線程數(shù),kallisto支持gzip壓縮的序列文件。
單端數(shù)據(jù)用法如下
kallisto quant \ -i hg19.idx \ -o output \ --single \ -l 180 \ -s 20 \ -t 20 \ reads.fastq.gz
對(duì)于單端數(shù)據(jù)而言,必須指定fragment長(zhǎng)度的均值和方差,分別對(duì)應(yīng)-l
和-s
參數(shù)。
在輸出目錄,會(huì)生成以下3個(gè)文件
├── abundance.h6 ├── abundance.tsv └── run_info.json
run_info.json 文件為JSON格式,保存了運(yùn)行的命令和參數(shù)。
前綴為abundance
的文件,保存了轉(zhuǎn)錄本的定量信息。其中h6
為HDF5格式的文件,當(dāng)轉(zhuǎn)錄本數(shù)量較多時(shí),相比純文本,這種格式的文件大小會(huì)小很多;tsv
為純文本的文件,內(nèi)容如下
target_id | length | eff_length | est_counts | tpm |
---|---|---|---|---|
NR_103451 | 865 | 664.449 | 9 | 0.493026 |
NM_001243523 | 577 | 376.636 | 31 | 2.99591 |
NR_038931 | 2432 | 2231.4 | 36.9964 | 0.603491 |
對(duì)于HDF5的文件,可以采用如下命令轉(zhuǎn)換為tsv格式的文件
kallisto h6dump -o out_dir abundance.h6
-o
參數(shù)指定輸出結(jié)果的目錄,最終生成的文件名稱為abundance.tsv
。
“kallisto怎么使用”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!