如何使用SnpSift把vcf文件的變異位點(diǎn)注釋到clinvar數(shù)據(jù)庫

如何使用SnpSift把vcf文件的變異位點(diǎn)注釋到clinvar數(shù)據(jù)庫，相信很多沒有經(jīng)驗(yàn)的人對(duì)此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個(gè)問題。

創(chuàng)新互聯(lián)專注于企業(yè)成都全網(wǎng)營銷推廣、網(wǎng)站重做改版、疊彩網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、成都h5網(wǎng)站建設(shè)、商城網(wǎng)站開發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計(jì)等建站業(yè)務(wù)，價(jià)格優(yōu)惠性價(jià)比高，為疊彩等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。

首先熟悉 clinvar 數(shù)據(jù)庫

ClinVar是NCBI主辦的與疾病相關(guān)的人類基因組變異數(shù)據(jù)庫。它的強(qiáng)大在于整合了dbSNP、dbVar、Pubmed、OMIM等多個(gè)數(shù)據(jù)庫在遺傳變異和臨床表型方面的數(shù)據(jù)信息，形成一個(gè)標(biāo)準(zhǔn)的、可信的遺傳變異-臨床相關(guān)的數(shù)據(jù)庫。

clinvar的注釋，可以尋找出對(duì)應(yīng)的基因變異信息，發(fā)生頻率，表型，臨床意義，評(píng)審狀態(tài)以及染色體位置等。

首先，我們?nèi)linvar數(shù)據(jù)庫的ftp里面找到數(shù)據(jù)庫文件，然后下載最新版文件，我這里用的是shell命令：

## ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/
mkdir -p ~/annotation/variation/human/clinvar
cd ~/annotation/variation/human/clinvar
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/disease_names
# mkdir vcf_GRCh47 && cd vcf_GRCh47
mkdir vcf_GRCh48 && cd vcf_GRCh48
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh48/clinvar_20200706.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh48/clinvar_20200706.vcf.gz.tbi

這個(gè) ClinVar數(shù)據(jù)庫里面的變異位點(diǎn)記錄更新還是蠻快的。

然后熟悉SnpSift 軟件

SnpSift 軟件非常強(qiáng)大，推薦大家仔細(xì)閱讀它的說明書，http://snpeff.sourceforge.net/protocol.html

Example 1: Coding variants
Example 2:Software Integration
Example 3: Non-Coding variants
Example 4: Sequencing data analysis
Example 5: Filter variants (dbSnp)
Example 6: Custom annotations

如果要使用SnpSift把vcf文件的變異位點(diǎn)注釋到clinvar數(shù)據(jù)庫，我們需要使用的命令示例是：

java -Xmx1g -jar ~/biosoft/snpEff/snpEff/SnpSift.jar  \
    annotate \
    -v  ~/annotation/variation/human/clinvar/clinvar_20200706.vcf.gz  \
    new.filter.sort.vcf  \
    > new.clinvar.vcf

一般來說，注釋比例并不會(huì)太高，因?yàn)?strong>clinvar數(shù)據(jù)庫記錄的位點(diǎn)很有限，如下：

Total annotated entries : 6231
 Total entries           : 54972
 Percent                 : 11.33%

如果選擇其它數(shù)據(jù)庫，比如dbSNP、exac、gnomad注釋比例會(huì)高很多。

解讀clinvar數(shù)據(jù)庫注釋結(jié)果

實(shí)際上，沒辦法解讀，一般來說， WES數(shù)據(jù)分析結(jié)果有10萬個(gè)變異位點(diǎn)，其中2萬左右在外顯子區(qū)域，那么就會(huì)有2千個(gè)左右的位點(diǎn)被clinvar注釋到，這個(gè)數(shù)量級(jí)仍然是很可觀的。

我們必須要有先驗(yàn)知識(shí)，比如知道這個(gè)WES數(shù)據(jù)來源的個(gè)體是患有某種疾病的，比如，視網(wǎng)膜變性相關(guān)疾病就可以搜索：

"Pigmentary retinal degeneration"
"Rod-cone dystrophy"
"Retinitis pigmentosa"

如果你發(fā)現(xiàn)搜索到的突變，都是Benign，沒有Pathogenic，就比較麻煩，就需要根據(jù)ACMG指南分類分析，重點(diǎn)看：

1、PM1: 位于熱點(diǎn)突變區(qū)域, 和/或位于已知無良性變異的關(guān)鍵功能域(如酶的活性位點(diǎn)).
2、PM2: ESP 數(shù)據(jù)庫、千人數(shù)據(jù)庫、 EXAC 數(shù)據(jù)庫中正常對(duì)照人群中未發(fā)現(xiàn)的變異(或隱性遺傳病中極低頻位點(diǎn))
3、PP1: 突變與疾病在家系中共分離(在家系多個(gè)患者中檢測到此變異). 注: 如有更多的證據(jù), 可作為更強(qiáng)的證據(jù).
4、PP3: 多種統(tǒng)計(jì)方法預(yù)測出該變異會(huì)對(duì)基因或基因產(chǎn)物造成有害的影響, 包括保守性預(yù)測、進(jìn)化預(yù)測、剪接位點(diǎn) 影響等. 注: 由于做預(yù)測時(shí)許多生物信息學(xué)算法使用相同或非常相似的輸入, 每個(gè)算法不應(yīng)該算作一個(gè)獨(dú)立的標(biāo)準(zhǔn).

如果這樣縮小范圍仍然是位點(diǎn)很多，可以直接縮小到基因，比如查詢 "Retinitis pigmentosa" 這個(gè)疾病相關(guān)基因就37個(gè)，這樣位于這些基因的突變就很少了，從這里面挑選那些有害突變，而且人群頻率低的。但是其實(shí)有一個(gè)問題，既然已經(jīng)局限于具體的疾病相關(guān)基因了，那么為什么還有做WES呢，直接上一個(gè)panel不就好了嗎？見：家系外顯子研究最后反正要定位到已知疾病相關(guān)基因

關(guān)于ACMG指南分類分析，建議看Germline pathogenic variants of 11 breast cancer genes in 7,051 Japanese patients and 11,241 controls文章的材料與方法部分，主要是很多細(xì)致的探索，很有意思。

另外推薦clineff軟件

主頁是：http://www.dnaminer.com/clineff.html

如何使用SnpSift把vcf文件的變異位點(diǎn)注釋到clinvar數(shù)據(jù)庫

看完上述內(nèi)容，你們掌握如何使用SnpSift把vcf文件的變異位點(diǎn)注釋到clinvar數(shù)據(jù)庫的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝各位的閱讀！

名稱欄目：如何使用SnpSift把vcf文件的變異位點(diǎn)注釋到clinvar數(shù)據(jù)庫
網(wǎng)頁URL：http://weahome.cn/article/ieegdc.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

如何使用SnpSift把vcf文件的變異位點(diǎn)注釋到clinvar數(shù)據(jù)庫

首先熟悉 clinvar 數(shù)據(jù)庫

然后熟悉SnpSift 軟件

解讀clinvar數(shù)據(jù)庫注釋結(jié)果

另外推薦clineff軟件

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管