這篇文章給大家介紹如何理解Mutation Annotation Format格式,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。
景洪網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)公司!從網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、APP開(kāi)發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)公司等網(wǎng)站項(xiàng)目制作,到程序開(kāi)發(fā),運(yùn)營(yíng)維護(hù)。創(chuàng)新互聯(lián)公司從2013年創(chuàng)立到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來(lái)保證我們的工作的順利進(jìn)行。專(zhuān)注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)公司。
Mutation Annotation Format, 簡(jiǎn)稱(chēng)MAF, 是由TCGA制定的一種文件格式,用來(lái)存儲(chǔ)突變注釋信息。在TCGA中,對(duì)于突變數(shù)據(jù)有以下四種類(lèi)型
Annotated Somatic Mutation, 體細(xì)胞突變的注釋文件,格式為VCF, 采用VEP軟件進(jìn)行注釋?zhuān)募缶Y為vep.vcf.gz
Raw Simple Somatic Mutation, 體細(xì)胞突變的原始文件,格式為VCF, 文件后綴為vcf.gz
Aggregated Somatic Mutation, protected的突變注釋文件,需要賬號(hào)和權(quán)限才可以下載,格式為MAF, 文件后綴為maf.gz
Masked Somatic Mutation, open access的突變注釋文件,免費(fèi)下載的,格式為MAF, 文件后綴為maf.gz
在TCGA中,VCF通常用于記錄單個(gè)樣本的體細(xì)胞突變相關(guān)結(jié)果,MAF用于整合所有樣本的體細(xì)胞突變注釋結(jié)果,所以稱(chēng)MAF格式為project-level, 根據(jù)數(shù)據(jù)的開(kāi)放性,又分為protected和open access, 其中open access就是我們可以直接下載得到的MAF文件, 以乳腺癌為例,在TCGA中提供了4個(gè)MAF文件
對(duì)應(yīng)4個(gè)不同的體細(xì)胞突變calling軟件,每個(gè)文件中包含了1044個(gè)樣本的體細(xì)胞SNV注釋結(jié)果。
MAF和VCF類(lèi)似,也是一個(gè)純文本的格式,由\t
分隔的許多列構(gòu)成,從GDC下載的MAF文件的截圖如下
#
開(kāi)頭的為注釋行,其他部分為正文,每一列有一個(gè)固定的表頭, 完整的MAF共有100多列,在實(shí)際處理中,我們可能沒(méi)有這么多列的信息,常用的幾列解釋如下
column1, Hugo_Symbol, 由HUGO提供的gene symbol, 表示SNV所在的基因名稱(chēng)
column 2,Entrez_Gene_id, SNV所在基因的entrez id, 如果沒(méi)有對(duì)應(yīng)的基因,則用0表示
column 4,NCBI_Build, snv calling時(shí)使用的參考基因組版本
column5,Chromsome, SNV所在的染色體
column6,Start_Position, SNV在染色體上的起始位置
column7,End_Position,SNV在染色體上的終止位置
column9,Variant_Classification, SNV位點(diǎn)的分類(lèi),Missense_Mutation,Nonsense_Mutation等類(lèi)別,分類(lèi)的依據(jù)為SNV對(duì)翻譯的影響
column10,Variant_Type, SNV位點(diǎn)的類(lèi)型,比如SNP, INS,DEl等類(lèi)型
column11,Reference_Allel, 參考基因組上的allel
column12,Tumor_Seq_Allel1, 腫瘤樣本中該位點(diǎn)對(duì)應(yīng)的主等位基因
column13,Tumor_Seq_Allel2,腫瘤樣本中該位點(diǎn)對(duì)應(yīng)的次等位基因
column16,Tumor_Sample_Barcode, 腫瘤樣本的barcode
column17,Tumor_Normal_Barcode,配對(duì)的正常樣本的barcode
每一列的詳細(xì)含義見(jiàn)如下鏈接
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/
MAF是專(zhuān)門(mén)針對(duì)human定義的一種文件格式,通過(guò)一個(gè)文件就可以包含所有樣本的SNV和對(duì)應(yīng)的注釋信息,對(duì)于下游分析而言,非常的方便。在實(shí)際使用中, 對(duì)于VCF文件,可以通過(guò)vcf2maf將其轉(zhuǎn)換為MAF格式,在后續(xù)文章中會(huì)具體介紹該軟件的用法。
關(guān)于如何理解Mutation Annotation Format格式就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。