統(tǒng)計(jì)決策
專注于為中小企業(yè)提供成都做網(wǎng)站、網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)北安免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了成百上千家企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。先驗(yàn)概率 p(x)
條件概率p(x|w)
貝葉斯公式 p(w|x)=$frac{p(x|w)*p(w)}{p(x)}$
決策規(guī)則(最小錯(cuò)誤率貝葉斯決策):p(w1|x)>p(w2|x), 為w1;反之,為w2。
求最小錯(cuò)誤率分界點(diǎn):p(x|w1)*p(w1)=p(x|w2)*p(w2), 解得x=t,t為分界點(diǎn)。
最小風(fēng)險(xiǎn)貝葉斯決策:
條件風(fēng)險(xiǎn):R(a1|x)=$lambda11*p(w1|x)+lambda12*p(w2|x)$
$lambda12$表示類別為2,判別為1的損失;R(a1|x)為判決為1的條件風(fēng)險(xiǎn)。
接收機(jī)特性曲線(ROC曲線):
擊中率+虛警率>=1;
x*為判決邊界。x
當(dāng)存在外部脈沖但是x
當(dāng)不存在外部脈沖但是x>x*,則虛警(false alarm),若x 擊中率(靈敏度):tp/(tp+fn) 虛警率(假陽性):fp/(tn+fp) ROC曲線為擊中率和虛警率隨x*在坐標(biāo)上移動(dòng)的變化。 當(dāng)x*為最小可能值時(shí),所有樣本都呈陽性,此時(shí)坐標(biāo)為(1,1);當(dāng)x*為大可能值時(shí),所有樣本陰性,坐標(biāo)(0,0); 當(dāng)接收機(jī)為理想的,即無脈沖和有脈沖同為沖激且沒有重疊,擊中率始終為1,虛警率始終為0. 極小極大準(zhǔn)則: $R_{minimax}=lambda22+(lambda12-lambda22)int_{R1}{p(x|w2)}dx=lambda12int_{R1}{p(x|w2)}dx$ 第二類判為第一類,對(duì)第一類區(qū)間積分,再乘以條件風(fēng)險(xiǎn) $=lambda11+(lambda21-lambda11)int_{R2}{p(x|w1)}dx=lambda21int_{R2}{p(x|w1)}dx$ PCA: 計(jì)算x所有樣本的協(xié)方差矩陣,求其特征向量作為方差最小投影方向。 $Sigma u_{i}=lambda u_{i}$ $u_{i}^{T}x為x在u_{i}方向的投影。$ 依次選取特征值大的主方向,U=[u1 u2 … (后面可以取零,起到降維的作用)],$U^{T}x為$投影后數(shù)據(jù)。 白化:對(duì)PCA所得的特征值進(jìn)行歸一。特征值向量為h=[$lambda1space lambda2…$],U*=$Uh^{-1/2}$,新的協(xié)方差矩陣為$U*^{T}Sigma U*=I$. 貝葉斯置信網(wǎng):看作業(yè) 概率密度函數(shù)的估計(jì) 大似然估計(jì):已知分布,根據(jù)樣本求分布函數(shù)的參數(shù),使樣本概率大。通常取對(duì)數(shù)求導(dǎo),使導(dǎo)數(shù)為0。高斯方差大似然估計(jì)有偏。 貝葉斯估計(jì):根據(jù)貝葉斯定理,根據(jù)訓(xùn)練樣本求測(cè)試樣本概率,模型參數(shù)是隱含的,已經(jīng)包含在條件分布的積分里了。難點(diǎn)是積分。通過選擇合適的先驗(yàn)分布,如指數(shù)分布族,使積分容易求得。 PCA: 計(jì)算x所有樣本的協(xié)方差矩陣,求其特征向量作為方差最小投影方向。 $Sigma u_{i}=lambda u_{i}$ $u_{i}^{T}x為x在u_{i}方向的投影。$ 依次選取特征值大的主方向,U=[u1 u2 … (后面可以取零,起到降維的作用)],$U^{T}x為$投影后數(shù)據(jù)。參考PCA程序,后續(xù)》》》 白化:對(duì)PCA所得的特征值進(jìn)行歸一。特征值向量為h=[$lambda1space lambda2…$],U*=$Uh^{-1/2}$,新的協(xié)方差矩陣為$U*^{T}Sigma U*=I$. LDA(Fisher Linear Discriminant Analysis):將數(shù)據(jù)降到一維,同時(shí)具有大的區(qū)分度。 類內(nèi)散度矩陣:$Si=Sigma(x-mi)(x-mi)^T, Sw=S1+S2(總類內(nèi)散布矩陣)$ 類間散度矩陣:$S_{B}=(m1-m2)(m1-m2)^T (總類間散布矩陣,秩小于等于1)$ 準(zhǔn)則函數(shù):$J(w)=frac{w^tS_{B}w}{w^tS_{w}w}$ 瑞利熵:$R(w)=frac{w^tAw}{w^tw}$ 大化準(zhǔn)則函數(shù)時(shí),$S_{B}w=lambda S_{w}w$ ,而$S_{B}w總在m1-m2方向上$,$w=S_{w}^{-1}(m1-m2)$,此w即為使類間散布和類內(nèi)散布的比值達(dá)到大的線性函數(shù)。 KFD-Kernel Fisher’s Discriminant x=$phi (x)$ 曼哈頓距離:馬氏距離(Mahalanobis distance)表示數(shù)據(jù)的協(xié)方差距離。它是一種有效的計(jì)算兩個(gè)未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯(lián)系(例如:一條關(guān)于身高的信息會(huì)帶來一條關(guān)于體重的信息,因?yàn)閮烧呤怯嘘P(guān)聯(lián)的)并且是尺度無關(guān)的(scale-invariant),即獨(dú)立于測(cè)量尺度。對(duì)于一個(gè)均值為μ,協(xié)方差矩陣為Σ的多變量向量,其馬氏距離為(x-μ)'Σ^(-1)(x-μ)。馬氏距離也可以定義為兩個(gè)服從同一分布并且其協(xié)方差矩陣為Σ的隨機(jī)變量與的差異程度。 For identity matrix S: For diagonal matrix S: 3. 非參數(shù)估計(jì)和隱馬爾可夫模型 線性分類器 1. 線性分類器基本概念 判別函數(shù):由x的各分量的線性組合而成的函數(shù)。$g( x)=w^tx+w0$,g( x)>0,判定w1;g(x)<0,判定w2;g( x)=0為判定面。 若g( x)為線性,判定面為超平面,比特征空間少一個(gè)維度。(a point is a hyper plane in 1-dimensional space, a line is a hyperplane in 2-dimensional space, and a plane is a hyperplane in 3-dimensional space. A line in 3-dimensional space is not a hyperplane, and does not separate the space into two parts (the complement of such a line is connected).) $x=x_{p}+rfrac{w}{||w||}$,r為代數(shù)距離(algebraic distance) $g(x)=w^Tx+w0,x_{p}在超平面上,w^Tx_{p}+w0=0, 所以g(x )=rfrac{w^Tw}{||w||}=r||w||$,r有符號(hào)。 多類情況:P179。。。。 廣義線性判別函數(shù):對(duì)x的各分量進(jìn)行非線形組合,映射到高維空間。 增廣特征向量a=[w0;w],使新的判定面經(jīng)過原點(diǎn),而且簡(jiǎn)化問題為求解一個(gè)權(quán)向量a。 梯度下降:更新規(guī)則$a(k+1)=a( k)-eta(k )
abla J(a(k ))$ 牛頓下降:更新規(guī)則$a(k+1)=a( k)-H^{-1}
abla J(a(k ))$ 感知機(jī):$J( a)=Sigma _{yin M} {-a^ty}$,其中M(a)為被a錯(cuò)分的樣本集。 $
abla J(a )=Sigma_{y in M}{-y}$,迭代公式$a(k+1)=a( k)+eta ( k) Sigma_{y in M}{y}$ 2. 最優(yōu)超平面與支持向量機(jī) 超平面:wx+b=0 到超平面距離: g(x)=wx+b, x’為樣本到超平面上投影 間隔M=||x-x’||=||$lambda w$||=|g(x )|/||w||. 因?yàn)閣和b可以按任意比例放縮,所以可以令g(x)=1。正樣本與負(fù)樣本間隔為M=2/||w||. 大間隔就是使M大,即讓||w||最小,等價(jià)于$minfrac{1}{2}w^Tw$. 所有樣本正確分類條件為: 所以為 minimizes.t.的二次最優(yōu)化問題 $L(w,a)=frac{1}{2}||w||^2-sumlimits_{k=1}^n{a_k[y_k(wx_k +b)-1]}$ 對(duì)偶形式,仍為二次最優(yōu)化問題。 KKT conditions: $L(x,lambda)=f(x ) +lambda g(x ) $ $g(x )geq 0$ $lambda geq 0$ $lambda g(x ) = 0$ example: Soft Margin 對(duì)比沒有soft margin的形式, vc dimension: 維度數(shù)加1? kernel: $g(x)=sumlimits_{i=1}^{l}{a_iy_iK(x_i,x)+b}$ SMO算法(序列最小優(yōu)化算法): SVR: 3. 多類線性分類器 1.第一種情況:每一模式類與其它模式類間可用單個(gè)判別平面把一個(gè)類分開。這種情況,M類可有M個(gè)判別函數(shù),且具有以下性質(zhì): 如果某個(gè)X使二個(gè)以上的判別函數(shù) gi(x) >0 。則此模式X就無法作出確切的判決。 判別函數(shù)都為負(fù)值,為不確 定區(qū)域。 第二種情況: 每個(gè)模式類和其它模式類間可分別用判別平面分開,一個(gè)判別界面只能分開兩個(gè)類別,不一定能把其余所有的類別分開。 這樣有 M(M _ 1)/2個(gè)判別平面。 判別函數(shù)都為負(fù)值,為不確 定區(qū)域。 結(jié)論:判別區(qū)間增大,不確定區(qū)間減小,比第一種情況小的多。 第三種情況: 每類都有一個(gè)判別函數(shù),存在M個(gè)判別函數(shù)。 就是說,要判別模式X屬于那一類,先把X代入M個(gè)判別函數(shù)中,判別函數(shù)大的那個(gè)類別就是X所屬類別。類與 類之間的邊界可由gi(x) =gj(x) 或gi(x) -gj(x) =0來確定。 結(jié)論:不確定區(qū)間沒有了,所以這種是最好情況。 非線性分類器 1. 近鄰法 k近鄰 knn(k取奇數(shù)): vThe algorithm procedure: §Given a set of n training data in the form of §Given an unknown sample x′. §Calculate the distance d(x′, xi) for i=1 … n. §Select the K samples with the shortest distances. §Assign x′ the label that dominates the K samples. v vIt is the simplest classifier you will ever meet (I mean it!). v vNo Training (literally) §A memory of the training data is maintained. §All computation is deferred until classification. § vProduces satisfactory results in many cases. §Should give it a go whenever possible. Properties of KNN Instance-Based Learning No explicit description of the target function Can handle complicated situations. Challenges of KNN vThe Value of K §Non-monotonous impact on accuracy §Too Big vs. Too Small §Rule of thumbs v vWeights §Different features may have different impact … v vDistance §There are many different ways to measure the distance. §Euclidean, Manhattan … v vComplexity §Need to calculate the distance between X′ and all training data. §In proportion to the size of the training data. 2. 隨機(jī)方法 3. 非度量方法 特征選擇和特征提取 KL變換 也是正交基,與pca不同在于pca是協(xié)方差矩陣的特征向量,kl變換是x*x'的特征向量。有監(jiān)督時(shí),k-l坐標(biāo)系的產(chǎn)生矩陣相應(yīng)改變。 mds多維尺度法 使用低維來表示高維樣本間的相關(guān)關(guān)系。 核分析方法 1. 基于模型的方法 決定聚類算法好壞的因素 C-均值(C/K- means)聚類(Clustering) vDetermine the value of K. vChoose K cluster centres randomly. vEach data point is assigned to its closest centroid. vUse the mean of each cluster to update each centroid. vRepeat until no more new assignment. vReturn the K centroids. vPros §Simple and works well for regular disjoint clusters. §Converges relatively fast. §Relatively efficient and scalable O(t·k·n) ?t: iteration; k: number of centroids; n: number of data points v vCons §Need to specify the value of K in advance. ?Difficult and domain knowledge may help. §May converge to local optima. ?In practice, try different initial centroids. §May be sensitive to noisy data and outliers. ?Mean of data points … §Not suitable for clusters of ?Non-convex shapes 核(Kernel)動(dòng)態(tài)聚類 歐式距離只適用于樣本分布為超球或接近超球狀,即在各維特征上 的樣本方差接近。 模糊(Fuzzy) C 均值聚類 Fuzzy c-means (FCM) is a method of clustering which allows one piece of data to belong to two or more clusters 譜(Spectral)聚類 譜聚類算法的物理解釋和數(shù)學(xué)解釋:由于特征矢量不相關(guān),所以由特征矢量構(gòu)成的訓(xùn)練空間中的點(diǎn)可分性 會(huì)改善。 獨(dú)立于算法的機(jī)器學(xué)習(xí)(boosting) Boosting方法是一種用來提高弱分類算法準(zhǔn)確度的方法,這種方法通過構(gòu)造一個(gè)預(yù)測(cè)函數(shù)系列,然后以一定的方式將他們組合成一個(gè)預(yù)測(cè)函數(shù)。他是一種框架算法,主要是通過對(duì)樣本集的操作獲得樣本子集,然后用弱分類算法在樣本子集上訓(xùn)練生成一系列的基分類器。他可以用來提高其他弱分類算法的識(shí)別率,也就是將其他的弱分類算法作為基分類算法放于Boosting 框架中,通過Boosting框架對(duì)訓(xùn)練樣本集的操作,得到不同的訓(xùn)練樣本子集,用該樣本子集去訓(xùn)練生成基分類器;每得到一個(gè)樣本集就用該基分類算法在該樣本集上產(chǎn)生一個(gè)基分類器,這樣在給定訓(xùn)練輪數(shù) n 后,就可產(chǎn)生 n 個(gè)基分類器,然后Boosting框架算法將這 n個(gè)基分類器進(jìn)行加權(quán)融合,產(chǎn)生一個(gè)最后的結(jié)果分類器,在這 n個(gè)基分類器中,每個(gè)單個(gè)的分類器的識(shí)別率不一定很高,但他們聯(lián)合后的結(jié)果有很高的識(shí)別率,這樣便提高了該弱分類算法的識(shí)別率。在產(chǎn)生單個(gè)的基分類器時(shí)可用相同的分類算法,也可用不同的分類算法,這些算法一般是不穩(wěn)定的弱分類算法,如神經(jīng)網(wǎng)絡(luò)(BP) ,決策樹(C4.5)等。 最后的強(qiáng)分類器是通過多個(gè)基分類器聯(lián)合得到的,因此在最后聯(lián)合時(shí)各個(gè)基分類器所起的作用對(duì)聯(lián)合結(jié)果有很大的影響,因?yàn)椴煌诸惼鞯淖R(shí)別率不同,他的作用就應(yīng)該不同,這里通過權(quán)值體現(xiàn)他的作用,因此識(shí)別率越高的基分類器權(quán)重越高,識(shí)別率越低的基分類器權(quán)重越低。
1. 神經(jīng)網(wǎng)絡(luò)
2. 支持向量機(jī)
其它分類方法
1. 特征選擇
2. 特征提取
非監(jiān)督模式識(shí)別
2. 聚類
模式識(shí)別系統(tǒng)的評(píng)價(jià)
文章標(biāo)題:模式識(shí)別復(fù)習(xí)目錄-創(chuàng)新互聯(lián)
文章源于:http://weahome.cn/article/dihisc.html