由于工作的關(guān)系,開始接觸機(jī)器學(xué)習(xí)這個(gè)技術(shù)領(lǐng)域,雖然自己的工作看似和機(jī)器學(xué)習(xí)關(guān)系不大,但是利用機(jī)器學(xué)習(xí)進(jìn)行大數(shù)據(jù)的分析卻是至關(guān)重要的。因此從今天開始自己再開始一個(gè)關(guān)于“機(jī)器學(xué)習(xí)”的系列筆記,將主要記錄整理自己學(xué)習(xí)的收獲。今天是對(duì)于機(jī)器學(xué)習(xí)的一個(gè)基本的介紹。
一、什么是機(jī)器學(xué)習(xí)?為什么需要機(jī)器學(xué)習(xí)?
所謂機(jī)器學(xué)習(xí),英文就是Machine Learning,最早的形式類似于數(shù)據(jù)挖掘、模式識(shí)別、人工智能等。無論其如何變化,應(yīng)用到哪個(gè)具體的領(lǐng)域,其核心的思想都沒有變:利用數(shù)據(jù)分析技術(shù)發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的規(guī)律或模式。
這里的主要問題面向那些算法還不清晰,無法直接編程實(shí)現(xiàn)解決的問題。比如對(duì)于序列排序問題,我們已經(jīng)有了成熟的冒泡等算法;但是對(duì)于識(shí)別手寫字體或從音頻
中提取出一個(gè)人說的話等,大腦的處理機(jī)制尚且不清晰,又何談編程實(shí)現(xiàn)呢?因此對(duì)于此類難以編程實(shí)現(xiàn)的問題,我們采取數(shù)據(jù)分析的方法;而之所以我們可以通過
數(shù)據(jù)分析獲得模式或者近似的描述,本質(zhì)上則是因?yàn)閿?shù)據(jù)本身不是隨機(jī)的,其中已經(jīng)包含著我們還未發(fā)現(xiàn)的規(guī)律,我們利用數(shù)據(jù)分析的目的,就是發(fā)現(xiàn)、找到這些規(guī)
律或者這些規(guī)律的近似描述。而這里的數(shù)據(jù)分析,就是我們今天說的機(jī)器學(xué)習(xí),讓計(jì)算機(jī)通過大量的數(shù)據(jù)分析,去自己學(xué)會(huì)解決該問題的算法,所以機(jī)器學(xué)習(xí)的算法
也可以稱作是“學(xué)習(xí)型算法”。
二、監(jiān)督式學(xué)習(xí)
接下來我們來分別看看機(jī)器學(xué)習(xí)四個(gè)具體的方面:監(jiān)督式學(xué)習(xí)、算法理論、非監(jiān)督式學(xué)習(xí)以及增強(qiáng)學(xué)習(xí)。首先我們來看看監(jiān)督式學(xué)習(xí)。所謂監(jiān)督式學(xué)習(xí),也許定義有許多說法,不過我們只要把握一點(diǎn)就可以了:監(jiān)督式學(xué)習(xí)需要一組“監(jiān)督數(shù)據(jù)”來作為訓(xùn)練學(xué)習(xí)。這里的“監(jiān)督數(shù)據(jù)”指的是一組明確標(biāo)準(zhǔn)輸入對(duì)應(yīng)的標(biāo)準(zhǔn)輸出的數(shù)據(jù),也就是“正確”結(jié)果明了的數(shù)據(jù),我們所做的是運(yùn)行算法,使得算法根據(jù)這些標(biāo)準(zhǔn)數(shù)據(jù)學(xué)習(xí)其中的映射關(guān)系,因此是“監(jiān)督”的。
常見的監(jiān)督式學(xué)習(xí)有回歸和分類。所謂回歸常見的例子就
想不同月份房?jī)r(jià)的數(shù)據(jù),一年12個(gè)月的房?jī)r(jià)(平米均價(jià))各不相同,如果我們以時(shí)間為x軸,房屋均價(jià)為y軸,那么可以繪出一年中的房?jī)r(jià)/月份漲跌圖。如果我
們想知道來年一月份的房?jī)r(jià),我們只需要找到一條最符合已知數(shù)據(jù)的曲線就可以了,然后以此預(yù)測(cè)未來的房屋均價(jià)。
至于分類,最常用的例子是關(guān)于腫瘤良性/惡性與大小的關(guān)系數(shù)據(jù),以腫瘤大小為x軸,良性/惡性為y軸,自根據(jù)已有的腫瘤大小和性質(zhì)的數(shù)據(jù),來對(duì)新的病例腫瘤性質(zhì)進(jìn)行判斷。這里的y軸不再像回歸例
子中是連續(xù)變化的數(shù)值(比如房屋均價(jià)),而是離散的數(shù)值(1:良性;0:惡性)。我們同樣可以進(jìn)行機(jī)器學(xué)習(xí)算法訓(xùn)練,然后根據(jù)找到的規(guī)律來判斷新的病例。
將分類的思想推廣出去,現(xiàn)在我們只是考慮腫瘤大小一個(gè)因素,如果加上病者年齡,那么將得到一個(gè)三維的函數(shù)圖;如果再考慮病人的性別,那么維數(shù)將繼續(xù)增加。
如果我們面臨的問題需要考慮的因素很多,那么我們就可能需要一個(gè)高維平面。但是這個(gè)高維平面式什么樣子呢?這個(gè)時(shí)候空間中的規(guī)律又如何尋找呢?值得慶幸的
是,最近幾年人們找到了SVM來解決這種高位向量空間的分類問題。SVM現(xiàn)在應(yīng)用越來越廣泛,這個(gè)在以后的章節(jié)會(huì)繼續(xù)介紹。
三、算法理論
機(jī)器學(xué)習(xí)依賴于多種多樣的算法,這些算法大多基于數(shù)學(xué)和統(tǒng)計(jì)學(xué),因此理解這些算法有時(shí)候需要掌握一定的數(shù)學(xué)基礎(chǔ)。統(tǒng)計(jì)學(xué)上比如隨機(jī)變量的期望、方差、相關(guān)
系數(shù)等;而數(shù)學(xué)上則需要比較多的代數(shù)知識(shí),比如矩陣的計(jì)算、轉(zhuǎn)置、求逆以及特征向量等。一般來說,如果只是使用機(jī)器學(xué)習(xí)現(xiàn)有的算法,那么不需要對(duì)于其中的
數(shù)學(xué)原理透徹理解,只需要理解各個(gè)算法和使用的條件就可以了。我們學(xué)習(xí)機(jī)器學(xué)習(xí)的目的分為三個(gè)層次:
-1. 了解機(jī)器學(xué)習(xí)領(lǐng)域,知道重要的算法;
-2. 可以根據(jù)自己的實(shí)際問題,靈活地應(yīng)用機(jī)器學(xué)習(xí)算法來解決問題;
-3. 理解算法,提出已有算法的改進(jìn);
這里自己的目標(biāo)也就是到第二個(gè)層次了,能夠使用機(jī)器學(xué)習(xí)算法解決面臨的數(shù)據(jù)分析問題就可以了。機(jī)器學(xué)習(xí)是一門很有用的數(shù)據(jù)分析工具。
四、非監(jiān)督式學(xué)習(xí)
同監(jiān)督式學(xué)習(xí)對(duì)應(yīng)的就是非監(jiān)督式學(xué)習(xí),非監(jiān)督式學(xué)習(xí)的特點(diǎn)就是開始的時(shí)候沒有一組知道結(jié)果的標(biāo)準(zhǔn)數(shù)據(jù),完完全全是從一堆毫無頭緒的數(shù)據(jù)中去發(fā)現(xiàn)規(guī)律。常見
的非監(jiān)督式學(xué)習(xí)的例子就是聚類。一個(gè)經(jīng)典的例子就是“雞尾酒會(huì)”問題,這個(gè)是說在一個(gè)人聲嘈雜的雞尾酒會(huì)上,你如何從聲音的疊加中提取出你想聽的某個(gè)人的
聲音。這里就需要對(duì)聲頻數(shù)據(jù)進(jìn)行大量的聚類分析,應(yīng)用領(lǐng)域可以在聲音識(shí)別、圖像像素分析、計(jì)算機(jī)視覺、社交網(wǎng)絡(luò)/市場(chǎng)劃分等。
五、增強(qiáng)學(xué)習(xí)
前面所說的數(shù)據(jù)分析的輸入都是一次性的大量數(shù)據(jù),然后對(duì)一個(gè)新的輸入做出預(yù)測(cè)/判斷。但是有些問題需要對(duì)一個(gè)輸入的序列進(jìn)行分析,也就是說這個(gè)時(shí)候我們關(guān)
注的不是一個(gè)輸入的結(jié)果,而是一個(gè)輸入序列的“策略”。比如無人駕駛飛機(jī)的導(dǎo)航程序,一個(gè)“上升”或“下降”的指令并不會(huì)導(dǎo)致飛機(jī)事故,相反只有一系列連
續(xù)的升降指令才會(huì)導(dǎo)致飛機(jī)失事。這里的應(yīng)用領(lǐng)域往往是關(guān)注“策略”的領(lǐng)域,如游戲(RTS等)、無人機(jī)、機(jī)器人導(dǎo)航等。
六、小結(jié)
可以說,機(jī)器學(xué)習(xí)的領(lǐng)域主要是上面所說的三個(gè)方面:監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)以及增強(qiáng)學(xué)習(xí),但是具體的應(yīng)用領(lǐng)域則涉及醫(yī)學(xué)、生物學(xué)、電子工程、人工智能等多個(gè)領(lǐng)域。機(jī)器學(xué)習(xí)作為一個(gè)強(qiáng)大的工具在不同的領(lǐng)域?qū)?shù)據(jù)分析發(fā)揮著不可替代的作用。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。