本篇文章為大家展示了如何理解CADD數(shù)據(jù)庫,內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
創(chuàng)新互聯(lián)長期為數(shù)千家客戶提供的網(wǎng)站建設(shè)服務(wù),團隊從業(yè)經(jīng)驗10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為向陽企業(yè)提供專業(yè)的成都網(wǎng)站建設(shè)、網(wǎng)站制作,向陽網(wǎng)站改版等技術(shù)服務(wù)。擁有十余年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。
衡量一個變異位點的影響時,通常都是給定一個變異類型,比如synonymous SNV 等,來表明其影響。CADD獨創(chuàng)了一種打分算法,來衡量變異位點的有害程度。
對于一組變異位點,CADD 結(jié)合等位基因的多態(tài)性,變異的致病性等多個因素,構(gòu)建了一套模型,對每個變異位點進行評估,并給出一個具體的得分,簡稱C-Scores
。 統(tǒng)計模型直接給出的打分叫做RawScore
, 這個值越高,代表該變異位點是一個有害突變的概率越高。
對于不同組的變異位點,比如對于1000G和ESP兩批變異位點而言,由于各因素的差異,其模型是不同的,RawScore
在不同模型間是無法直接比較的。所以提出了scaled C-scores
的概念。對RawScores
進行從大到小排序,采用-10*log10(rank/total)
的公式計算出scaled C-scores
。由于這個公式和phread的定義方式類似,所以scaled C-scores
也叫做PHREAD
。
在分析潛在的致病變異位點時,通常會對PHREAD
進行過濾。官方推薦閾值為10,15,20都可以,但是更加推薦結(jié)合C-Scores
和其他實驗證據(jù)來對變異位點的致病性進行評估,而不是單純的進行一個數(shù)值過濾。
CADD官網(wǎng)提供了以下3種服務(wù)
鏈接如下:
http://cadd.gs.washington.edu/download
對應(yīng)不同的數(shù)據(jù)集,比如1000G
, ESP
, Exac
等都給出了對應(yīng)的 CADD score
下載的文件內(nèi)容如下:
#Chrom Pos Ref Alt RawScore PHRED 1 861349 C T 6.591020 31 1 865545 G A 5.989520 27.8 1 865584 G A 3.632951 23.2 1 865625 G A 5.624605 26.6 1 865628 G A 2.938829 22.0 1 865662 G A 1.597527 13.84
通過在線服務(wù),可以對變異位點進行CADD打分。鏈接如下:
http://cadd.gs.washington.edu/score
上傳VCF
格式的文件,一次最多允許10000個變異位點,然后點擊Upload variants
就可以開始分析。結(jié)果如下
## CADD v1.3 (c) University of Washington and Hudson-Alpha Institute for Biotechnology 2013-2015. All rights reserved. #CHROM POS REF ALT RawScore PHRED 16 50745926 C T 4.355927 24.1 20 1110696 A G 0.142763 4.068 20 1110696 A T 0.005222 2.636 20 1234567 TTCT T -0.369022 0.459 20 1234569 C AC -0.290183 0.699
鏈接如下:
http://cadd.gs.washington.edu/snv
在如下所示的頁面中輸入SNV位點的位置,然后點擊Lookup variant
按鈕進行提交
返回結(jié)果如下
上述內(nèi)容就是如何理解CADD數(shù)據(jù)庫,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。