機器學(xué)習(xí)使用場景有哪些

這篇文章將為大家詳細(xì)講解有關(guān)機器學(xué)習(xí)使用場景有哪些，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

創(chuàng)新互聯(lián)建站長期為超過千家客戶提供的網(wǎng)站建設(shè)服務(wù)，團隊從業(yè)經(jīng)驗10年，關(guān)注不同地域、不同群體，并針對不同對象提供差異化的產(chǎn)品和服務(wù)；打造開放共贏平臺，與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為張店企業(yè)提供專業(yè)的成都網(wǎng)站設(shè)計、網(wǎng)站建設(shè)，張店網(wǎng)站改版等技術(shù)服務(wù)。擁有十多年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。

算法分類

監(jiān)督式學(xué)習(xí)：

在監(jiān)督式學(xué)習(xí)下，輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”，每組訓(xùn)練數(shù)據(jù)有一個明確的標(biāo)識或結(jié)果，如對防垃圾郵件系統(tǒng)中“垃圾郵件”“非垃圾郵件”，對手寫數(shù)字識別中的“1“，”2“，”3“，”4“等。在建立預(yù)測模型的時候，監(jiān)督式學(xué)習(xí)建立一個學(xué)習(xí)過程，將預(yù)測結(jié)果與“訓(xùn)練數(shù)據(jù)”的實際結(jié)果進行比較，不斷的調(diào)整預(yù)測模型，直到模型的預(yù)測結(jié)果達(dá)到一個預(yù)期的準(zhǔn)確率。監(jiān)督式學(xué)習(xí)的常見應(yīng)用場景如分類問題和回歸問題。常見算法有邏輯回歸（Logistic Regression）和反向傳遞神經(jīng)網(wǎng)絡(luò)（Back Propagation Neural Network）。

非監(jiān)督式學(xué)習(xí)：

機器學(xué)習(xí)使用場景有哪些

在非監(jiān)督式學(xué)習(xí)中，數(shù)據(jù)并不被特別標(biāo)識，學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。非監(jiān)督學(xué)習(xí)模型是用來從原始數(shù)據(jù)（無訓(xùn)練數(shù)據(jù)）中找到隱藏的模式或者關(guān)系，因而非監(jiān)督學(xué)習(xí)模型是基于未標(biāo)記數(shù)據(jù)集的.常見的應(yīng)用場景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。常見算法包括Apriori算法以及k-Means算法。例子: 社交網(wǎng)絡(luò)，語言預(yù)測

半監(jiān)督式學(xué)習(xí)：

機器學(xué)習(xí)使用場景有哪些

在此學(xué)習(xí)方式下，輸入數(shù)據(jù)部分被標(biāo)識，部分沒有被標(biāo)識，這種學(xué)習(xí)模型可以用來進行預(yù)測，但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來進行預(yù)測。應(yīng)用場景包括分類和回歸，算法包括一些對常用監(jiān)督式學(xué)習(xí)算法的延伸，這些算法首先試圖對未標(biāo)識數(shù)據(jù)進行建模，在此基礎(chǔ)上再對標(biāo)識的數(shù)據(jù)進行預(yù)測。如圖論推理算法（Graph Inference）或者拉普拉斯支持向量機（Laplacian SVM.）等。例子：圖像分類、語音識別

強化學(xué)習(xí)：

機器學(xué)習(xí)使用場景有哪些

在這種學(xué)習(xí)模式下，輸入數(shù)據(jù)作為對模型的反饋，不像監(jiān)督模型那樣，輸入數(shù)據(jù)僅僅是作為一個檢查模型對錯的方式，在強化學(xué)習(xí)下，輸入數(shù)據(jù)直接反饋到模型，模型必須對此立刻作出調(diào)整。強化學(xué)習(xí)模型通過不同的行為來尋找目標(biāo)回報函數(shù)最大化。常見的應(yīng)用場景包括動態(tài)系統(tǒng)以及機器人控制，人工智能 AI等。常見算法包括Q-Learning以及時間差學(xué)習(xí)（Temporal difference learning）。

在企業(yè)數(shù)據(jù)應(yīng)用的場景下，人們最常用的可能就是監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)的模型。在圖像識別等領(lǐng)域，由于存在大量的非標(biāo)識的數(shù)據(jù)和少量的可標(biāo)識數(shù)據(jù)，目前半監(jiān)督式學(xué)習(xí)是一個很熱的話題。而強化學(xué)習(xí)更多的應(yīng)用在機器人控制及其他需要進行系統(tǒng)控制的領(lǐng)域。

算法類似性

根據(jù)算法的功能和形式的類似性，我們可以把算法分類，比如說基于樹的算法，基于神經(jīng)網(wǎng)絡(luò)的算法等等。當(dāng)然，機器學(xué)習(xí)的范圍非常龐大，有些算法很難明確歸類到某一類。而對于有些分類來說，同一分類的算法可以針對不同類型的問題。這里，我們盡量把常用的算法按照最容易理解的方式進行分類。

回歸算法：

機器學(xué)習(xí)使用場景有哪些

回歸算法是試圖采用對誤差的衡量來探索變量之間的關(guān)系的一類算法?；貧w算法是統(tǒng)計機器學(xué)習(xí)的利器。在機器學(xué)習(xí)領(lǐng)域，人們說起回歸，有時候是指一類問題，有時候是指一類算法，這一點常常會使初學(xué)者有所困惑。常見的回歸算法包括：最小二乘法（Ordinary Least Square），邏輯回歸（Logistic Regression），逐步式回歸（Stepwise Regression），多元自適應(yīng)回歸樣條（Multivariate Adaptive Regression Splines）以及本地散點平滑估計（Locally Estimated Scatterplot Smoothing）。

基于實例的算法

機器學(xué)習(xí)使用場景有哪些

基于實例的算法常常用來對決策問題建立模型，這樣的模型常常先選取一批樣本數(shù)據(jù)，然后根據(jù)某些近似性把新數(shù)據(jù)與樣本數(shù)據(jù)進行比較。通過這種方式來尋找最佳的匹配。因此，基于實例的算法常常也被稱為“贏家通吃”學(xué)習(xí)或者“基于記憶的學(xué)習(xí)”。常見的算法包括 k-Nearest Neighbor(KNN), 學(xué)習(xí)矢量量化（Learning Vector Quantization， LVQ），以及自組織映射算法（Self-Organizing Map ， SOM）

正則化方法

機器學(xué)習(xí)使用場景有哪些

正則化方法是其他算法（通常是回歸算法）的延伸，根據(jù)算法的復(fù)雜度對算法進行調(diào)整。正則化方法通常對簡單模型予以獎勵而對復(fù)雜算法予以懲罰。常見的算法包括：Ridge Regression， Least Absolute Shrinkage and Selection Operator（LASSO），以及彈性網(wǎng)絡(luò)（Elastic Net）。

決策樹學(xué)習(xí)

機器學(xué)習(xí)使用場景有哪些

決策樹算法根據(jù)數(shù)據(jù)的屬性采用樹狀結(jié)構(gòu)建立決策模型，決策樹模型常常用來解決分類和回歸問題。常見的算法包括：分類及回歸樹（Classification And Regression Tree， CART）， ID3 (Iterative Dichotomiser 3)， C4.5， Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 隨機森林（Random Forest），多元自適應(yīng)回歸樣條（MARS）以及梯度推進機（Gradient Boosting Machine， GBM）

貝葉斯方法

機器學(xué)習(xí)使用場景有哪些

貝葉斯方法算法是基于貝葉斯定理的一類算法，主要用來解決分類和回歸問題。常見算法包括：樸素貝葉斯算法，平均單依賴估計（Averaged One-Dependence Estimators， AODE），以及Bayesian Belief Network（BBN）。

基于核的算法

機器學(xué)習(xí)使用場景有哪些

基于核的算法中最著名的莫過于支持向量機（SVM）了。基于核的算法把輸入數(shù)據(jù)映射到一個高階的向量空間，在這些高階向量空間里，有些分類或者回歸問題能夠更容易的解決。常見的基于核的算法包括：支持向量機（Support Vector Machine， SVM），徑向基函數(shù)（Radial Basis Function ，RBF)，以及線性判別分析（Linear Discriminate Analysis ，LDA)等

聚類算法

機器學(xué)習(xí)使用場景有哪些

聚類，就像回歸一樣，有時候人們描述的是一類問題，有時候描述的是一類算法。聚類算法通常按照中心點或者分層的方式對輸入數(shù)據(jù)進行歸并。所以的聚類算法都試圖找到數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，以便按照最大的共同點將數(shù)據(jù)進行歸類。常見的聚類算法包括 k-Means算法以及期望最大化算法（Expectation Maximization， EM）。

關(guān)聯(lián)規(guī)則學(xué)習(xí)

機器學(xué)習(xí)使用場景有哪些

關(guān)聯(lián)規(guī)則學(xué)習(xí)通過尋找最能夠解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則，來找出大量多元數(shù)據(jù)集中有用的關(guān)聯(lián)規(guī)則。常見算法包括 Apriori算法和Eclat算法等。

人工神經(jīng)網(wǎng)絡(luò)

機器學(xué)習(xí)使用場景有哪些

人工神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò)，是一類模式匹配算法。通常用于解決分類和回歸問題。人工神經(jīng)網(wǎng)絡(luò)是機器學(xué)習(xí)的一個龐大的分支，有幾百種不同的算法。（其中深度學(xué)習(xí)就是其中的一類算法，我們會單獨討論），重要的人工神經(jīng)網(wǎng)絡(luò)算法包括：感知器神經(jīng)網(wǎng)絡(luò)（Perceptron Neural Network）, 反向傳遞（Back Propagation）， Hopfield網(wǎng)絡(luò)，自組織映射（Self-Organizing Map, SOM）。學(xué)習(xí)矢量量化（Learning Vector Quantization， LVQ）

深度學(xué)習(xí)

機器學(xué)習(xí)使用場景有哪些

深度學(xué)習(xí)算法是對人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。在近期贏得了很多關(guān)注，特別是百度也開始發(fā)力深度學(xué)習(xí)后，更是在國內(nèi)引起了很多關(guān)注。在計算能力變得日益廉價的今天，深度學(xué)習(xí)試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)。很多深度學(xué)習(xí)的算法是半監(jiān)督式學(xué)習(xí)算法，用來處理存在少量未標(biāo)識數(shù)據(jù)的大數(shù)據(jù)集。常見的深度學(xué)習(xí)算法包括：受限波爾茲曼機（Restricted Boltzmann Machine， RBN）， Deep Belief Networks（DBN），卷積網(wǎng)絡(luò)（Convolutional Network）, 堆棧式自動編碼器（Stacked Auto-encoders）。

降低維度算法

機器學(xué)習(xí)使用場景有哪些

像聚類算法一樣，降低維度算法試圖分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，不過降低維度算法是以非監(jiān)督學(xué)習(xí)的方式試圖利用較少的信息來歸納或者解釋數(shù)據(jù)。這類算法可以用于高維數(shù)據(jù)的可視化或者用來簡化數(shù)據(jù)以便監(jiān)督式學(xué)習(xí)使用。常見的算法包括：主成份分析（Principle Component Analysis， PCA），偏最小二乘回歸（Partial Least Square Regression，PLS）， Sammon映射，多維尺度（Multi-Dimensional Scaling, MDS）, 投影追蹤（Projection Pursuit）等。

集成算法：

機器學(xué)習(xí)使用場景有哪些

集成算法用一些相對較弱的學(xué)習(xí)模型獨立地就同樣的樣本進行訓(xùn)練，然后把結(jié)果整合起來進行整體預(yù)測。集成算法的主要難點在于究竟集成哪些獨立的較弱的學(xué)習(xí)模型以及如何把學(xué)習(xí)結(jié)果整合起來。這是一類非常強大的算法，同時也非常流行。常見的算法包括：Boosting， Bootstrapped Aggregation（Bagging）， AdaBoost，堆疊泛化（Stacked Generalization， Blending），梯度推進機（Gradient Boosting Machine, GBM），隨機森林（Random Forest）。

機器學(xué)習(xí)8大算法比較

機器學(xué)習(xí)算法太多了，分類、回歸、聚類、推薦、圖像識別領(lǐng)域等等，要想找到一個合適算法真的不容易，所以在實際應(yīng)用中，我們一般都是采用啟發(fā)式學(xué)習(xí)方式來實驗。

通常最開始我們都會選擇大家普遍認(rèn)同的算法，諸如SVM，GBDT，Adaboost，現(xiàn)在深度學(xué)習(xí)很火熱，神經(jīng)網(wǎng)絡(luò)也是一個不錯的選擇。

假如你在乎精度(accuracy)的話，最好的方法就是通過交叉驗證(cross-validation)對各個算法一個個地進行測試，進行比較，然后調(diào)整參數(shù)確保每個算法達(dá)到最優(yōu)解，最后選擇最好的一個。

但是如果你只是在尋找一個“足夠好”的算法來解決你的問題，或者這里有些技巧可以參考，下面來分析下各個算法的優(yōu)缺點，基于算法的優(yōu)缺點，更易于我們?nèi)ミx擇它。

偏差&方差

在統(tǒng)計學(xué)中，一個模型好壞，是根據(jù)偏差和方差來衡量的，所以我們先來普及一下偏差和方差：

偏差：描述的是預(yù)測值(估計值)的期望E’與真實值Y之間的差距。偏差越大，越偏離真實數(shù)據(jù)。

機器學(xué)習(xí)使用場景有哪些

方差：描述的是預(yù)測值P的變化范圍，離散程度，是預(yù)測值的方差，也就是離其期望值E的距離。方差越大，數(shù)據(jù)的分布越分散。

機器學(xué)習(xí)使用場景有哪些

模型的真實誤差是兩者之和，如下圖：機器學(xué)習(xí)使用場景有哪些

如果是小訓(xùn)練集，高偏差/低方差的分類器(例如，樸素貝葉斯NB)要比低偏差/高方差大分類的優(yōu)勢大(例如，KNN)，因為后者會過擬合。

但是，隨著你訓(xùn)練集的增長，模型對于原數(shù)據(jù)的預(yù)測能力就越好，偏差就會降低，此時低偏差/高方差分類器就會漸漸的表現(xiàn)其優(yōu)勢(因為它們有較低的漸近誤差)，此時高偏差分類器此時已經(jīng)不足以提供準(zhǔn)確的模型了。

當(dāng)然，你也可以認(rèn)為這是生成模型(NB)與判別模型(KNN)的一個區(qū)別。

為什么說樸素貝葉斯是高偏差低方差?

首先，假設(shè)你知道訓(xùn)練集和測試集的關(guān)系。簡單來講是我們要在訓(xùn)練集上學(xué)習(xí)一個模型，然后拿到測試集去用，效果好不好要根據(jù)測試集的錯誤率來衡量。

但很多時候，我們只能假設(shè)測試集和訓(xùn)練集的是符合同一個數(shù)據(jù)分布的，但卻拿不到真正的測試數(shù)據(jù)。這時候怎么在只看到訓(xùn)練錯誤率的情況下，去衡量測試錯誤率呢?

由于訓(xùn)練樣本很少(至少不足夠多)，所以通過訓(xùn)練集得到的模型，總不是真正正確的。(就算在訓(xùn)練集上正確率100%，也不能說明它刻畫了真實的數(shù)據(jù)分布，要知道刻畫真實的數(shù)據(jù)分布才是我們的目的，而不是只刻畫訓(xùn)練集的有限的數(shù)據(jù)點)。

而且，實際中，訓(xùn)練樣本往往還有一定的噪音誤差，所以如果太追求在訓(xùn)練集上的完美而采用一個很復(fù)雜的模型，會使得模型把訓(xùn)練集里面的誤差都當(dāng)成了真實的數(shù)據(jù)分布特征，從而得到錯誤的數(shù)據(jù)分布估計。

這樣的話，到了真正的測試集上就錯的一塌糊涂了(這種現(xiàn)象叫過擬合)。但是也不能用太簡單的模型，否則在數(shù)據(jù)分布比較復(fù)雜的時候，模型就不足以刻畫數(shù)據(jù)分布了(體現(xiàn)為連在訓(xùn)練集上的錯誤率都很高，這種現(xiàn)象較欠擬合)。

過擬合表明采用的模型比真實的數(shù)據(jù)分布更復(fù)雜，而欠擬合表示采用的模型比真實的數(shù)據(jù)分布要簡單。

在統(tǒng)計學(xué)習(xí)框架下，大家刻畫模型復(fù)雜度的時候，有這么個觀點，認(rèn)為Error = Bias + Variance。這里的Error大概可以理解為模型的預(yù)測錯誤率，是有兩部分組成的，一部分是由于模型太簡單而帶來的估計不準(zhǔn)確的部分(Bias)，另一部分是由于模型太復(fù)雜而帶來的更大的變化空間和不確定性(Variance)。

所以，這樣就容易分析樸素貝葉斯了。它簡單的假設(shè)了各個數(shù)據(jù)之間是無關(guān)的，是一個被嚴(yán)重簡化了的模型。所以，對于這樣一個簡單模型，大部分場合都會Bias部分大于Variance部分，也就是說高偏差而低方差。

在實際中，為了讓Error盡量小，我們在選擇模型的時候需要平衡Bias和Variance所占的比例，也就是平衡over-fitting和under-fitting。

偏差和方差與模型復(fù)雜度的關(guān)系使用下圖更加明了：

機器學(xué)習(xí)使用場景有哪些

當(dāng)模型復(fù)雜度上升的時候，偏差會逐漸變小，而方差會逐漸變大。

常見算法優(yōu)缺點

1.樸素貝葉斯

樸素貝葉斯屬于生成式模型(關(guān)于生成模型和判別式模型，主要還是在于是否是要求聯(lián)合分布)，非常簡單，你只是做了一堆計數(shù)。

如果注有條件獨立性假設(shè)(一個比較嚴(yán)格的條件)，樸素貝葉斯分類器的收斂速度將快于判別模型，如邏輯回歸，所以你只需要較少的訓(xùn)練數(shù)據(jù)即可。即使NB條件獨立假設(shè)不成立，NB分類器在實踐中仍然表現(xiàn)的很出色。

它的主要缺點是它不能學(xué)習(xí)特征間的相互作用，用mRMR中R來講，就是特征冗余。引用一個比較經(jīng)典的例子，比如，雖然你喜歡Brad Pitt和Tom Cruise的電影，但是它不能學(xué)習(xí)出你不喜歡他們在一起演的電影。

優(yōu)點：

樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論，有著堅實的數(shù)學(xué)基礎(chǔ)，以及穩(wěn)定的分類效率。

對小規(guī)模的數(shù)據(jù)表現(xiàn)很好，能個處理多分類任務(wù)，適合增量式訓(xùn)練;

對缺失數(shù)據(jù)不太敏感，算法也比較簡單，常用于文本分類。

缺點：

需要計算先驗概率;

分類決策存在錯誤率;

對輸入數(shù)據(jù)的表達(dá)形式很敏感。

2.邏輯回歸

屬于判別式模型，有很多正則化模型的方法(L0， L1，L2，etc)，而且你不必像在用樸素貝葉斯那樣擔(dān)心你的特征是否相關(guān)。

與決策樹與SVM機相比，你還會得到一個不錯的概率解釋，你甚至可以輕松地利用新數(shù)據(jù)來更新模型(使用在線梯度下降算法，online gradient descent)。

如果你需要一個概率架構(gòu)(比如，簡單地調(diào)節(jié)分類閾值，指明不確定性，或者是要獲得置信區(qū)間)，或者你希望以后將更多的訓(xùn)練數(shù)據(jù)快速整合到模型中去，那么使用它吧。

Sigmoid函數(shù)：

機器學(xué)習(xí)使用場景有哪些

優(yōu)點：

實現(xiàn)簡單，廣泛的應(yīng)用于工業(yè)問題上;

分類時計算量非常小，速度很快，存儲資源低;

便利的觀測樣本概率分?jǐn)?shù);

對邏輯回歸而言，多重共線性并不是問題，它可以結(jié)合L2正則化來解決該問題;

缺點：

當(dāng)特征空間很大時，邏輯回歸的性能不是很好;

容易欠擬合，一般準(zhǔn)確度不太高

不能很好地處理大量多類特征或變量;

只能處理兩分類問題(在此基礎(chǔ)上衍生出來的softmax可以用于多分類)，且必須線性可分;

對于非線性特征，需要進行轉(zhuǎn)換;

3.線性回歸

線性回歸是用于回歸的，而不像Logistic回歸是用于分類，其基本思想是用梯度下降法對最小二乘法形式的誤差函數(shù)進行優(yōu)化，當(dāng)然也可以用normal equation直接求得參數(shù)的解，結(jié)果為：

機器學(xué)習(xí)使用場景有哪些

而在LWLR(局部加權(quán)線性回歸)中，參數(shù)的計算表達(dá)式為:

機器學(xué)習(xí)使用場景有哪些

由此可見LWLR與LR不同，LWLR是一個非參數(shù)模型，因為每次進行回歸計算都要遍歷訓(xùn)練樣本至少一次。

優(yōu)點：

實現(xiàn)簡單，計算簡單

缺點：

不能擬合非線性數(shù)據(jù).

4.最近鄰算法——KNN

KNN即最近鄰算法，其主要過程為：

1. 計算訓(xùn)練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離，馬氏距離等);

2. 對上面所有的距離值進行排序;

3. 選前k個最小距離的樣本;

4. 根據(jù)這k個樣本的標(biāo)簽進行投票，得到最后的分類類別;

如何選擇一個最佳的K值，這取決于數(shù)據(jù)。一般情況下，在分類時較大的K值能夠減小噪聲的影響。但會使類別之間的界限變得模糊。

一個較好的K值可通過各種啟發(fā)式技術(shù)來獲取，比如，交叉驗證。另外噪聲和非相關(guān)性特征向量的存在會使K近鄰算法的準(zhǔn)確性減小。

近鄰算法具有較強的一致性結(jié)果。隨著數(shù)據(jù)趨于無限，算法保證錯誤率不會超過貝葉斯算法錯誤率的兩倍。對于一些好的K值，K近鄰保證錯誤率不會超過貝葉斯理論誤差率。

優(yōu)點：

理論成熟，思想簡單，既可以用來做分類也可以用來做回歸;

可用于非線性分類;

訓(xùn)練時間復(fù)雜度為O(n);

對數(shù)據(jù)沒有假設(shè)，準(zhǔn)確度高，對outlier不敏感;

缺點：

計算量大;

樣本不平衡問題(即有些類別的樣本數(shù)量很多，而其它樣本的數(shù)量很少);

需要大量的內(nèi)存;

5.決策樹

易于解釋。它可以毫無壓力地處理特征間的交互關(guān)系并且是非參數(shù)化的，因此你不必?fù)?dān)心異常值或者數(shù)據(jù)是否線性可分(舉個例子，決策樹能輕松處理好類別A在某個特征維度x的末端，類別B在中間，然后類別A又出現(xiàn)在特征維度x前端的情況)。

它的缺點之一就是不支持在線學(xué)習(xí)，于是在新樣本到來后，決策樹需要全部重建。

另一個缺點就是容易出現(xiàn)過擬合，但這也就是諸如隨機森林RF(或提升樹boosted tree)之類的集成方法的切入點。

另外，隨機森林經(jīng)常是很多分類問題的贏家(通常比支持向量機好上那么一丁點)，它訓(xùn)練快速并且可調(diào)，同時你無須擔(dān)心要像支持向量機那樣調(diào)一大堆參數(shù)，所以在以前都一直很受歡迎。

決策樹中很重要的一點就是選擇一個屬性進行分枝，因此要注意一下信息增益的計算公式，并深入理解它。

信息熵的計算公式如下:

機器學(xué)習(xí)使用場景有哪些

其中的n代表有n個分類類別(比如假設(shè)是2類問題，那么n=2)。分別計算這2類樣本在總樣本中出現(xiàn)的概率p1和p2，這樣就可以計算出未選中屬性分枝前的信息熵。

現(xiàn)在選中一個屬性xixi用來進行分枝，此時分枝規(guī)則是：如果xi=vxi=v的話，將樣本分到樹的一個分支;如果不相等則進入另一個分支。

很顯然，分支中的樣本很有可能包括2個類別，分別計算這2個分支的熵H1和H2,計算出分枝后的總信息熵H’ =p1 H1+p2 H2,則此時的信息增益ΔH = H - H’。以信息增益為原則，把所有的屬性都測試一邊，選擇一個使增益最大的屬性作為本次分枝屬性。

優(yōu)點

計算簡單，易于理解，可解釋性強;

比較適合處理有缺失屬性的樣本;

能夠處理不相關(guān)的特征;

在相對短的時間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。

缺點

容易發(fā)生過擬合(隨機森林可以很大程度上減少過擬合);

忽略了數(shù)據(jù)之間的相關(guān)性;

對于那些各類別樣本數(shù)量不一致的數(shù)據(jù)，在決策樹當(dāng)中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征(只要是使用了信息增益，都有這個缺點，如RF)。

5.1 Adaboosting

Adaboost是一種加和模型，每個模型都是基于上一次模型的錯誤率來建立的，過分關(guān)注分錯的樣本，而對正確分類的樣本減少關(guān)注度，逐次迭代之后，可以得到一個相對較好的模型。是一種典型的boosting算法。下面是總結(jié)下它的優(yōu)缺點。

優(yōu)點

adaboost是一種有很高精度的分類器。

可以使用各種方法構(gòu)建子分類器，Adaboost算法提供的是框架。

當(dāng)使用簡單分類器時，計算出的結(jié)果是可以理解的，并且弱分類器的構(gòu)造極其簡單。

簡單，不用做特征篩選。

不容易發(fā)生overfitting。

關(guān)于隨機森林和GBDT等組合算法，參考這篇文章：機器學(xué)習(xí)-組合算法總結(jié)

缺點：
對outlier比較敏感

6.SVM支持向量機

高準(zhǔn)確率，為避免過擬合提供了很好的理論保證，而且就算數(shù)據(jù)在原特征空間線性不可分，只要給個合適的核函數(shù)，它就能運行得很好。

在動輒超高維的文本分類問題中特別受歡迎?？上?nèi)存消耗大，難以解釋，運行和調(diào)參也有些煩人，而隨機森林卻剛好避開了這些缺點，比較實用。

優(yōu)點

可以解決高維問題，即大型特征空間;

能夠處理非線性特征的相互作用;

無需依賴整個數(shù)據(jù);

可以提高泛化能力;

缺點

當(dāng)觀測樣本很多時，效率并不是很高;

對非線性問題沒有通用解決方案，有時候很難找到一個合適的核函數(shù);

對缺失數(shù)據(jù)敏感;

對于核的選擇也是有技巧的(libsvm中自帶了四種核函數(shù)：線性核、多項式核、RBF以及sigmoid核)：

第一，如果樣本數(shù)量小于特征數(shù)，那么就沒必要選擇非線性核，簡單的使用線性核就可以了;

第二，如果樣本數(shù)量大于特征數(shù)目，這時可以使用非線性核，將樣本映射到更高維度，一般可以得到更好的結(jié)果;

第三，如果樣本數(shù)目和特征數(shù)目相等，該情況可以使用非線性核，原理和第二種一樣。

對于第一種情況，也可以先對數(shù)據(jù)進行降維，然后使用非線性核，這也是一種方法。

7. 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點

優(yōu)點：

分類的準(zhǔn)確度高;

并行分布處理能力強,分布存儲及學(xué)習(xí)能力強，

對噪聲神經(jīng)有較強的魯棒性和容錯能力，能充分逼近復(fù)雜的非線性關(guān)系;

具備聯(lián)想記憶的功能。

缺點：

神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù)，如網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、權(quán)值和閾值的初始值;

不能觀察之間的學(xué)習(xí)過程，輸出結(jié)果難以解釋，會影響到結(jié)果的可信度和可接受程度;

學(xué)習(xí)時間過長,甚至可能達(dá)不到學(xué)習(xí)的目的。

關(guān)于“機器學(xué)習(xí)使用場景有哪些”這篇文章就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，使各位可以學(xué)到更多知識，如果覺得文章不錯，請把它分享出去讓更多的人看到。

標(biāo)題名稱：機器學(xué)習(xí)使用場景有哪些
分享路徑：http://weahome.cn/article/jphsjg.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

機器學(xué)習(xí)使用場景有哪些

算法分類

監(jiān)督式學(xué)習(xí)：

非監(jiān)督式學(xué)習(xí)：

半監(jiān)督式學(xué)習(xí)：

強化學(xué)習(xí)：

算法類似性

回歸算法：

基于實例的算法

正則化方法

決策樹學(xué)習(xí)

貝葉斯方法

基于核的算法

聚類算法

關(guān)聯(lián)規(guī)則學(xué)習(xí)

人工神經(jīng)網(wǎng)絡(luò)

深度學(xué)習(xí)

降低維度算法

集成算法：

機器學(xué)習(xí)8大算法比較

偏差&方差

為什么說樸素貝葉斯是高偏差低方差?

常見算法優(yōu)缺點

1.樸素貝葉斯

優(yōu)點：

缺點：

2.邏輯回歸

優(yōu)點：

缺點：

3.線性回歸

優(yōu)點：

缺點：

4.最近鄰算法——KNN

優(yōu)點：

缺點：

5.決策樹

優(yōu)點

缺點

5.1 Adaboosting

優(yōu)點

6.SVM支持向量機

優(yōu)點

缺點

7. 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點

優(yōu)點：

缺點：

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管