這篇文章將為大家詳細講解有關(guān)gencode數(shù)據(jù)庫有什么用,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
成都創(chuàng)新互聯(lián)公司專注于應(yīng)縣網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗。 熱誠為您提供應(yīng)縣營銷型網(wǎng)站建設(shè),應(yīng)縣網(wǎng)站制作、應(yīng)縣網(wǎng)頁設(shè)計、應(yīng)縣網(wǎng)站官網(wǎng)定制、小程序開發(fā)服務(wù),打造應(yīng)縣網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供應(yīng)縣網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。
對于人和小鼠而言,NCBI, Ensembl等數(shù)據(jù)庫都保存了對應(yīng)的基因注釋信息,不同數(shù)據(jù)庫中的信息來源和可信度都不一樣,gencode綜合HAVANA和Ensembl 數(shù)據(jù)庫中的信息,通過實驗手段加以驗證,從而構(gòu)建一個高質(zhì)量的注釋信息數(shù)據(jù)庫。網(wǎng)址如下
https://www.gencodegenes.org/
官網(wǎng)提供了GTF和GFF3兩種格式的文件以供下載,示意如下
每種類型的文件提供了3種區(qū)域
CHR
ALL
PRI
對于基因組而言,包括了chromsome
,unplaced_scaffold
, alt_scaffold
, patch
等序列,這些序列上都存在對應(yīng)的基因。CHR
指的是染色體級別的信息,包括細胞核內(nèi)的染色體和線粒體;ALL
包括所有的序列,PRI
只包含染色體和unplaced_scaffold序列上的信息。官方推薦,使用CHR
級別的信息。
文件中采用level
來表示注釋信息的可信度,目前共包括3個level。
level1
代表可靠的注釋信息,有直接的實驗證據(jù)支持的注釋信息;level2
代表的是經(jīng)過人工校對的注釋信息,取HAVANA和Ensembl注釋信息中一致的注釋信息;level3
指的是軟件注釋的信息,通常是Ensemble中和HAVANA不一致的注釋信息。
如果想要得到更高可信度的注釋信息,可以根據(jù)level進行過濾,只選擇1和2這兩個層級的注釋信息。
文件中共包含的基因和轉(zhuǎn)錄本的個數(shù)統(tǒng)計如下
在文件中,會給出基因或者轉(zhuǎn)錄本的類型信息,解釋如下
protein_coding
蛋白編碼基因
lincRNA
位于基因間區(qū)的長鏈非編碼RNA
non_coding
文獻中證實的非編碼RNA
關(guān)于“gencode數(shù)據(jù)庫有什么用”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,使各位可以學(xué)到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。