chip_seq質(zhì)量評(píng)估中的PCA分析是怎樣的,相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。
細(xì)河網(wǎng)站建設(shè)公司成都創(chuàng)新互聯(lián)公司,細(xì)河網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為細(xì)河上千余家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站建設(shè)公司要多少錢(qián),請(qǐng)找那個(gè)售后服務(wù)好的細(xì)河做網(wǎng)站的公司定做!
PCA我們稱(chēng)之為主成分分析,是一種經(jīng)典的數(shù)據(jù)降維算法,通過(guò)將高維數(shù)據(jù)用幾個(gè)主成分表示,從而將其映射到低維空間。在實(shí)際處理中,由于我們只能對(duì)二維和三維數(shù)據(jù)有直觀的感受,所以通常繪制二維和三維的散點(diǎn)圖。
PCA本質(zhì)上屬于排序分析的一種,降維之后的數(shù)據(jù)在二維或者三維平面通過(guò)散點(diǎn)圖進(jìn)行展示,兩個(gè)樣本點(diǎn)間的距離越接近,說(shuō)明這兩個(gè)樣本越一致, PCA圖在生物信息學(xué)中應(yīng)用的非常廣泛,該算法適用范圍廣泛,在基因組,轉(zhuǎn)錄組等多種數(shù)據(jù)分析中都有應(yīng)用,本文主要介紹在chip_seq數(shù)據(jù)分析中的PCA分析。
在轉(zhuǎn)錄組中,我們可以通過(guò)基因表達(dá)譜來(lái)對(duì)樣本進(jìn)行PCA分析,在chip_seq數(shù)據(jù)分析中,為了得到類(lèi)似基因表達(dá)譜的數(shù)據(jù),研究人員提出了一種思想,將基因組劃分為等長(zhǎng)的區(qū)間,稱(chēng)之為bin
,然后計(jì)算每個(gè)區(qū)間內(nèi)的coverage。得到樣本中所有bin
的coverage之后,就可以利用該數(shù)據(jù)進(jìn)行PCA分析。具體的操作步驟如下,通過(guò)deeptools來(lái)實(shí)現(xiàn)
輸入文件為比對(duì)基因組產(chǎn)生的bam文件,用法示意如下
multiBamSummary bins \
--bamfiles file1.bam file2.bam \
--binSize 10000 \
--numberOfProcessors 10 \
--outRawCounts results.txt \
-o results.npz \
通過(guò)plotPCA
命令實(shí)現(xiàn),用法示意如下
plotPCA \
-in results.npz \
-o PCA.png
輸出結(jié)果示意如下
軟件默認(rèn)選擇第一和第二主成分來(lái)繪制二維的散點(diǎn)圖,在該圖中通過(guò)觀測(cè)樣本點(diǎn)之間的距離,可以對(duì)數(shù)據(jù)質(zhì)量做出一些基本判斷,理論上講,input和抗體處理的樣本之間應(yīng)該有較大距離,而生物學(xué)重復(fù)樣本之間應(yīng)該比較接近。
需要注意的是,前兩個(gè)主成分的貢獻(xiàn)率是一個(gè)比較重要的指標(biāo),假設(shè)兩個(gè)主成分的貢獻(xiàn)率之和為90%, 意味著二維散點(diǎn)圖只能表征原始樣本90%的信息,當(dāng)貢獻(xiàn)率太低時(shí),散點(diǎn)圖上表示的信息和原始樣本的信息相去甚遠(yuǎn),就不具有太大的參考意義了。
下半部分的Scree plot
, 類(lèi)似碎石圖,只不過(guò)采用了雙坐標(biāo)軸的形式,藍(lán)色柱狀圖表征了前5個(gè)主成分的特征值,紅色曲線代表累計(jì)的特征值,每個(gè)點(diǎn)代表累計(jì)特征值的比例。當(dāng)紅色曲線趨于平緩時(shí),說(shuō)明即使再添加后面其他的主成分,所展示的信息也不會(huì)有顯著變化了,即前幾個(gè)主成分已經(jīng)可以有效代表總體的信息了,在上圖中,前4個(gè)主成分能夠有效代表總體的信息。
雖然通過(guò)碎石圖我們可以篩選出主成分,但是由于我們最多只能直觀觀察三維空間,所以PCA分析中最多只能繪制3維散點(diǎn)圖,如果前3個(gè)主成分不能有效代表總體的信息,我們只能考慮使用其他降維算法了,這個(gè)問(wèn)題也是所有降維算法的一個(gè)通病。
看完上述內(nèi)容,你們掌握chip_seq質(zhì)量評(píng)估中的PCA分析是怎樣的的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!