這篇文章給大家分享的是有關(guān)COG數(shù)據(jù)庫有什么用的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供天峨網(wǎng)站建設(shè)、天峨做網(wǎng)站、天峨網(wǎng)站設(shè)計、天峨網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計與制作、天峨企業(yè)網(wǎng)站模板建站服務(wù),10多年天峨做網(wǎng)站經(jīng)驗,不只是建網(wǎng)站,更提供有價值的思路和整體網(wǎng)絡(luò)服務(wù)。
為了研究不同物種間保守的蛋白功能,進(jìn)一步揭示其進(jìn)化關(guān)系,1997年的時候科學(xué)家選取了七個完整基因組的蛋白序列,根據(jù)序列和功能相似性,將這些蛋白進(jìn)行了分類。這個分類叫做cluster of orthologous group,簡稱COG。每個COG是一組同源蛋白的集合,具有相同的生物學(xué)功能。 官網(wǎng)如下
https://www.ncbi.nlm.nih.gov/COG/
構(gòu)建原始的COG使用的蛋白序列來自以下7個物種
E.coli
H.influenzae
M. genitalium
M. pneumoniae
Synechocystis sp.
M. jannaschii
S. cerevisiae
可以發(fā)現(xiàn),這些物種都是細(xì)菌。所以COG這個概念指的是細(xì)菌中的同源蛋白。
隨著測序技術(shù)的發(fā)展,越來越多的物種擁有了完整的基因組序列。2003年的時候,又根據(jù)66個細(xì)菌物種的蛋白序列,對之前的COG結(jié)果進(jìn)行了補(bǔ)充和拓展。
同時將orthologous group 的概念推廣到了真核生物中,根據(jù)7個真核生物的蛋白序列構(gòu)建了真核生物中的同源蛋白簇, 全稱為eukaryotic orthologous groups, 簡稱KOG。
之后又陸續(xù)在不同類型的物種中建立起相關(guān)的同源蛋白簇。古菌中的同源蛋白簇簡稱為arCOG, 噬菌體中的同源蛋白簇簡稱為POG,感染真核生物的病毒中的同源蛋白簇簡稱為NCVOG,巨型病毒的同源蛋白簇簡稱為mimiCOG。
在官網(wǎng)上,提供了下載功能。這里以COG
為例進(jìn)行說明。FTP地址如下
ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data
fun2003-2014.tab 保存了COG的分類信息,將所有的COG的功能分為了以下26個類別,每個類別用一個字母表示
# Code Name J Translation, ribosomal structure and biogenesis A RNA processing and modification K Transcription L Replication, recombination and repair B Chromatin structure and dynamics D Cell cycle control, cell division, chromosome partitioning Y Nuclear structure V Defense mechanisms T Signal transduction mechanisms M Cell wall/membrane/envelope biogenesis N Cell motility Z Cytoskeleton W Extracellular structures U Intracellular trafficking, secretion, and vesicular transport O Posttranslational modification, protein turnover, chaperones X Mobilome: prophages, transposons C Energy production and conversion G Carbohydrate transport and metabolism E Amino acid transport and metabolism F Nucleotide transport and metabolism H Coenzyme transport and metabolism I Lipid transport and metabolism P Inorganic ion transport and metabolism Q Secondary metabolites biosynthesis, transport and catabolism R General function prediction only S Function unknown
cognames2003-2014.tab 文件保存了COG的詳細(xì)信息,包括編號,對應(yīng)的分類,功能描述等信息。示例如下
# COG func name COG0001 H Glutamate-1-semialdehyde aminotransferase COG0002 E N-acetyl-gamma-glutamylphosphate reductase COG0003 P Anion-transporting ATPase, ArsA/GET3 family COG0004 P Ammonia channel protein AmtB
cog2003-2014.csv 文件保存了蛋白和COG的對應(yīng)關(guān)系,示例如下
333894695,Alteromonas_SN2_uid67349,333894695,427,1,427,COG0001,0,
第一列編號為蛋白質(zhì)的GI號。
prot2003-2014.fa.gz 保存了fasta格式的蛋白序列,示例如下
>gi|118430838|ref|NP_146899.2| putative mercury ion binding protein[Aeropyrum pernix K1] MIIFKRHSQAILFSHNKQEKALLGIEGMHCEGCAIAIETALKNVKGIIDTKVNYSRGSAI VTFDDTLVSINDILEHYIFKvpsNYRAKLVSFIS
通過比對COG數(shù)據(jù)庫,可以確定蛋白質(zhì)的功能。
感謝各位的閱讀!關(guān)于“COG數(shù)據(jù)庫有什么用”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!