如何進(jìn)行WES的CNV分析,相信很多沒有經(jīng)驗(yàn)的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個(gè)問題。
我們提供的服務(wù)有:網(wǎng)站設(shè)計(jì)制作、網(wǎng)站建設(shè)、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、高坪ssl等。為上1000家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的高坪網(wǎng)站制作公司
基于全基因組數(shù)據(jù)來檢測CNV是非常有效的一個(gè)手段,然而全基因組的成本還是挺高的。全外顯子組在檢測SNP方面已經(jīng)比較成熟,考慮到外顯子上的變異可能更具有致病性,科研人員也希望通過檢測外顯子上的CNV來實(shí)現(xiàn)一個(gè)高效,經(jīng)濟(jì)的CNV檢測,很多的軟件被開發(fā)用于WES的CNV分析。
CNV區(qū)域的長度可能橫跨了多個(gè)外顯子或者基因,斷裂點(diǎn)位于外顯子以外的位置,所以全基因組分析中Read-pair, split-read的策略無法應(yīng)用到WES的CNV分析中,只能通過read-depth的策略來進(jìn)行分析。
然而和全基因組不同,全外顯子靶向捕獲了基因組的外顯子區(qū)域,考慮到GC含量,序列捕獲等系統(tǒng)誤差,其測序深度的分布和CNV之間的相關(guān)性更加復(fù)雜,建模衡量的難度更大,所以之前適用于WGS分析的CNV檢測軟件很多都不可以用于WES的分析。
為了有效減少系統(tǒng)誤差的影響,提高CNV檢測的準(zhǔn)確率,很多WES的分析軟件都會(huì)需要一個(gè)對照樣本,將對照樣本和測試樣本進(jìn)行比較來識(shí)別二者間差異的地方,從而回避系統(tǒng)誤差帶來的影響。同樣的protocol意味著同樣的系統(tǒng)誤差,而二者直接還存在的差異就是由于樣本本身的差異引起的了,這就是對照樣本的作用。所以WES的CNV檢測經(jīng)典的用處就是檢測體細(xì)胞CNV,即SCNA變異,提供配對的癌和癌旁樣本來進(jìn)行分析。
在以下文獻(xiàn)中,詳細(xì)列舉了幾種外顯子CNV檢測的軟件
https://academic.oup.com/bib/article/16/3/380/245577
根據(jù)是否需要對照樣本分成以下3大類
paired data, 需要配對的對照樣本
pooled data, 不需要對照樣本
paired and pooled data, 兩種策略都可以
軟件列表如下
ExomeCNV
Varscan2
Control-Freec
exome2cnv
PropSeg
2. pooled data
軟件列表如下
condex
exomeCOPY
cn.mops
conifer
ExomeDepth
XHMM
ExoCNVTest
Excavator
軟件列表如下
contar
ADTEx
FishingCNV
該文章發(fā)表于2014年,在之后又陸續(xù)發(fā)表了很多新工具,比如excavator, 2016年發(fā)表在Nucleic Acids Research上的文章介紹了excavator2進(jìn)行CNV分析的強(qiáng)大之處,鏈接如下
https://academic.oup.com/nar/article/44/20/e154/2607979
不同工具算法模型都各不相同,各有優(yōu)劣,在2014年發(fā)表的一篇文章對多個(gè)軟件進(jìn)行了評估,標(biāo)題如下
在文章中,列舉了很多CNV分析的軟件,示意如下
最終選取了以下4款軟件來進(jìn)行評估
XHMM
CoNIFER
ExomeDepth
CONTRA
從以下多個(gè)方面進(jìn)行了評估
不同軟件檢測到的CNV長度分布不同,結(jié)果統(tǒng)計(jì)如下
CNV的長度可以從幾十bp跨越到幾Mb的范圍,通常認(rèn)為小于300bp和長度在6kb左右的CNV應(yīng)該是數(shù)量最多的。WES的CNV檢測工具都是基于read-depth算法,采用滑動(dòng)窗口的方法,窗口越大,最終鑒定出來的CNV可信度越高,所以在檢測小片段的CNV方面,能力較差。
從統(tǒng)計(jì)結(jié)果可以看出,Conifer沒有鑒定出1kb以下的CNV, 因?yàn)檫@款軟件要求CNV至少需要覆蓋3個(gè)exon區(qū)域,XHMM和ExomeDepth則可以同時(shí)檢測小片段和大片段的CNV, CONTRA檢測出來的數(shù)量過多,是由于其校正read-depthh的算法過于敏感,所以鑒定出來的CNV過多,在檢測小于1kb的小片段CNV時(shí),比較適合。
不同軟件鑒定到的CNV的數(shù)量和類型展示如下
采用了cnvnator和ERDS兩款軟件對WGS數(shù)據(jù)進(jìn)行CNV檢測,然后和WES的結(jié)果進(jìn)行一致性分析,以exon為單位進(jìn)行評估,當(dāng)一個(gè)exon 50%以上的區(qū)域落在CNV區(qū)域時(shí)進(jìn)行計(jì)算,比較不同軟件檢測到的exon和WGS數(shù)據(jù)exon的overlap情況,結(jié)果如下
盡管都很低,但是很明顯ExomeDepth overlap率最高,接下來是XHMM。
利用1000G項(xiàng)目中在人群中頻率大于5%的cnvs作為common cnv, 采用上述的方法評估不同軟件和common cnv的一致性,結(jié)果和WGS一致,也是ExomeDepth最高,XHMM次之。
通常情況下denovo CNV的概率是非常低的,將denovo CNV作為Mendelian Error Rate的指標(biāo),對個(gè)體及其雙親同時(shí)進(jìn)行CNV分析,評估denovo cnv的頻率,結(jié)果如下
每個(gè)軟件不符合孟德爾遺傳的CNV比例都很高,conifer最高,而CONTRA最低。
對于deletion CNV而言,其染色體區(qū)域只剩下一份拷貝,在該區(qū)域內(nèi)的SNV必然為純合性的,所以將包含了雜合SNV的CNV區(qū)域作為假陽性的結(jié)果,考慮到SNP分型的準(zhǔn)確率,將同時(shí)滿足以下兩個(gè)條件的缺失區(qū)域定義為假陽性的結(jié)果
包含了2個(gè)以上的雜合SNP
20%以上的SNP位點(diǎn)為雜合
拷貝數(shù)缺失的假陽性統(tǒng)計(jì)結(jié)果如下
基于exon水平來統(tǒng)計(jì)不同軟件之間的一致性,結(jié)果如下所示
綜合以上6個(gè)指標(biāo)來看,沒有哪個(gè)軟件是全面優(yōu)于其他軟件的,在不同指標(biāo)上,不同軟件各有優(yōu)劣。
在進(jìn)行WES的CNV檢測時(shí),基于一款軟件的結(jié)果很難兼顧靈敏度和特異性,最好的方法還是結(jié)合多款軟件的結(jié)果進(jìn)行判斷。
看完上述內(nèi)容,你們掌握如何進(jìn)行WES的CNV分析的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!