機(jī)器學(xué)習(xí)中監(jiān)督式學(xué)習(xí)是非常重要的一類(lèi),因?yàn)镸L的主要出發(fā)點(diǎn)是利用獲得的數(shù)據(jù)來(lái)補(bǔ)償未知的知識(shí),所以從訓(xùn)練集出發(fā)學(xué)習(xí)數(shù)據(jù)中的模式規(guī)律就是最為自然的一類(lèi) 情況。今天開(kāi)始自己決定利用兩周左右的時(shí)間,來(lái)記錄整理自己學(xué)習(xí)機(jī)器學(xué)習(xí)的筆記,主要的參考資料是Ethen Alpaydin的《機(jī)器學(xué)習(xí)導(dǎo)論》,如有錯(cuò)誤或疏漏,還請(qǐng)各位童鞋批評(píng)指正。今天主要來(lái)宏觀地談?wù)劚O(jiān)督學(xué)習(xí),大致的要點(diǎn)如下:
讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來(lái)自于我們對(duì)這個(gè)行業(yè)的熱愛(ài)。我們立志把好的技術(shù)通過(guò)有效、簡(jiǎn)單的方式提供給客戶,將通過(guò)不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴,公司提供的服務(wù)項(xiàng)目有:主機(jī)域名、雅安服務(wù)器托管、營(yíng)銷(xiāo)軟件、網(wǎng)站建設(shè)、太倉(cāng)網(wǎng)站維護(hù)、網(wǎng)站推廣。
1. 一個(gè)監(jiān)督式學(xué)習(xí)實(shí)例;
2. 監(jiān)督式學(xué)習(xí)算法的維;
3. 學(xué)習(xí)算法的能力--VC維;
4. 學(xué)習(xí)算法樣本量的確定--概率逼近;
好了,長(zhǎng)話短說(shuō),下面我們來(lái)介紹機(jī)器學(xué)習(xí)中的監(jiān)督式學(xué)習(xí)。
一、一個(gè)監(jiān)督式學(xué)習(xí)實(shí)例
從一個(gè)例子著手是最為形象最為容易理解的,比如現(xiàn)在我們有一個(gè)判斷“家用汽車(chē)”的任務(wù),具體根據(jù)汽車(chē)價(jià)格和發(fā)動(dòng)機(jī)功率兩個(gè)特征進(jìn)行判斷,實(shí)際中也許有更多 的因素,在這里為了簡(jiǎn)單起見(jiàn)我們暫且只考慮這兩個(gè)特征。算法的任務(wù)是通過(guò)訓(xùn)練集的學(xué)習(xí),能夠?qū)σ粋€(gè)新的樣本進(jìn)行判斷是否是“家用汽車(chē)”。我們可以將認(rèn)為是 家用汽車(chē)的標(biāo)記為正例(Positive Example),其他的都被標(biāo)記為負(fù)例(Negative Example),類(lèi)學(xué)習(xí)就是要找到一個(gè)包含所有正例但是不包含任何負(fù)例的描述。
上面的公式描述了我們這個(gè)實(shí)例,向量x的兩個(gè)分量分別表示汽車(chē)價(jià)格和發(fā)動(dòng)機(jī)的功率,而向量r則表示輸出,當(dāng)為正例時(shí)輸出1,負(fù)例時(shí)輸出0;第一個(gè)集合表示N個(gè)樣本訓(xùn)練集,每個(gè)元素都由樣本特征x和標(biāo)準(zhǔn)判斷r組成。我們現(xiàn)在的目標(biāo)是可以找到一個(gè)算法,可以通過(guò)訓(xùn)練集找到某個(gè)分類(lèi)方法,適用于所有的訓(xùn)練集(包含所有正例但是不包含任何負(fù)例),然后利用這個(gè)分類(lèi)方法去預(yù)測(cè)判斷新的樣本。
這里在具體實(shí)現(xiàn)的時(shí)候,人們往往首先要有一個(gè)假設(shè)類(lèi)(Hypothesis class),比如可以采用一個(gè)矩形集合(假定位于某個(gè)價(jià)格區(qū)間且同時(shí)位于某個(gè)發(fā)動(dòng)機(jī)功率區(qū)間的汽車(chē)為家用汽車(chē),即一個(gè)判別式),來(lái)包含所有的正例,同時(shí) 卻不包含任何的負(fù)例。符合這樣條件的矩形可能有多個(gè),因此存在一個(gè)最小的矩形,即最特殊的假設(shè)(most specific hypothesis),比如S,再小就會(huì)有一個(gè)正例不包含在假設(shè)中;同時(shí)也存在一個(gè)最一般的假設(shè)(most general hypothesis),比如G,再大的假設(shè)就會(huì)包含一個(gè)或多個(gè)負(fù)例。因此我們尋找的假設(shè)應(yīng)該位于S與G之間。一般認(rèn)為可以選在S與G的中間,因?yàn)檫@樣可 以獲得較大的邊緣(margin),所謂邊緣就是邊界和它最近的實(shí)例之間的距離。
由于在S與G之間存在多個(gè)可用的假設(shè),但是不同的假設(shè)對(duì)于新的樣本可能做出不同的預(yù)測(cè)和判斷,因此這便引出了泛化(generalization)的問(wèn)題,即我們的假設(shè)對(duì)不在訓(xùn)練集中的未來(lái)實(shí)例的分類(lèi)的準(zhǔn)確率如何。
二、監(jiān)督式學(xué)習(xí)算法的維度
監(jiān)督式學(xué)習(xí)簡(jiǎn)單來(lái)說(shuō)就是通過(guò)訓(xùn)練集讓計(jì)算機(jī)學(xué)習(xí)數(shù)據(jù)間的規(guī)律和模式,然后以此進(jìn)行分類(lèi)和回歸預(yù)測(cè)。訓(xùn)練集的表示就如同上面的結(jié)合X, 其中樣本應(yīng)當(dāng)是獨(dú)立同分布的,對(duì)于分類(lèi)而言,兩類(lèi)學(xué)習(xí)輸出就是0和1,而K類(lèi)學(xué)習(xí)就是一個(gè)K維向量,其中只有一個(gè)分量為1,其余分量均為0,這個(gè)要求也就 是說(shuō)任何一樣本最多只能屬于一個(gè)類(lèi)別。對(duì)于回歸而言,輸出是一個(gè)實(shí)數(shù)值??梢赃@樣簡(jiǎn)單地來(lái)區(qū)分分類(lèi)和回歸問(wèn)題:分類(lèi)輸出是離散值,而回歸輸出是連續(xù)值。下 面我們來(lái)看看監(jiān)督式學(xué)習(xí)的維度, 也就是監(jiān)督學(xué)習(xí)的基本步驟。
1. 確定假設(shè)類(lèi),比如假設(shè)了函數(shù)模型G(x,A),A表示一個(gè)參數(shù)向量,而x表示我們的樣本輸入,我們通過(guò)訓(xùn)練集學(xué)習(xí)確定最好的A,使得假設(shè)可以對(duì)新的樣本進(jìn)行判斷;
2. 滿足訓(xùn)練集的假設(shè)可能會(huì)有很多,因此我們要選擇最合適的那個(gè),標(biāo)準(zhǔn)就是一個(gè)損失函數(shù)L(Loss Function),比如L是x與G(x, A)的平方差或者絕對(duì)值,用于表示我們的假設(shè)與訓(xùn)練集的差異,我們尋求最小的那個(gè)。當(dāng)然,損失函數(shù)還可以有其他的定義,但是基本思想都是用來(lái)表示假設(shè)與訓(xùn)練集數(shù)據(jù)的差異;
3. 有了損失函數(shù)L,接下來(lái)我們就進(jìn)入了最優(yōu)化過(guò)程,即使得L最小,這一步有多種方法可以實(shí)現(xiàn),比如將L對(duì)所有的特征分量求偏導(dǎo)數(shù),確定極小值;或者使用梯度下降、模擬退火以及遺傳算法等。
不同的機(jī)器學(xué)習(xí)方法的之間的區(qū)別,要么是假設(shè)類(lèi)不同(假設(shè)模型或歸納偏倚),要么是所使用的損失函數(shù)不同,再者就是使用的最優(yōu)化過(guò)程不同??梢哉f(shuō),假設(shè)模型、損失度量和最優(yōu)化過(guò)程是機(jī)器學(xué)習(xí)的三個(gè)基本維度。
三、學(xué)習(xí)算法的能力--VC維
學(xué)習(xí)算法的能力通過(guò)VC維度來(lái)度量,即一個(gè)假設(shè)類(lèi)散列的數(shù)據(jù)點(diǎn)的個(gè)數(shù)。假定一個(gè)數(shù)據(jù)集中有N個(gè)數(shù)據(jù)點(diǎn),對(duì)于正例和負(fù)例的判斷而言,就有2的N次方種不同的學(xué)習(xí)問(wèn)題,如果對(duì)于這些學(xué)習(xí)問(wèn)題中的任何一個(gè)都可以找到假設(shè)類(lèi)H中的一個(gè)假設(shè)h可以將正例和負(fù)例分開(kāi),我們就稱該假設(shè)類(lèi)H散列這N個(gè)點(diǎn)。因此VC維度量假設(shè)類(lèi)的學(xué)習(xí)能力。
四、學(xué)習(xí)算法樣本量的確定--概率逼近
概率逼近主要用于針對(duì)特定的假設(shè)類(lèi),確定最少需要多少樣本量就可以保證學(xué)習(xí)的結(jié)果獲得一定的置信率,其實(shí)也就是說(shuō)如果我們想達(dá)到一個(gè)較好的假設(shè),那么最少需要多大的訓(xùn)練集呢?根據(jù)我們期望的置信率和不同的假設(shè),我們可以計(jì)算其概率逼近的最小樣本量。
好了,今天的基本概念就到這里,明天繼續(xù)!
Refer:
《機(jī)器學(xué)習(xí)導(dǎo)論》,Ethen Alpaydin(土耳其),機(jī)械工業(yè)出版社