作者——Navoneel Chakrabarty
創(chuàng)新互聯(lián)是一家集網(wǎng)站建設,宿松企業(yè)網(wǎng)站建設,宿松品牌網(wǎng)站建設,網(wǎng)站定制,宿松網(wǎng)站建設報價,網(wǎng)絡營銷,網(wǎng)絡優(yōu)化,宿松網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強企業(yè)競爭力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時我們時刻保持專業(yè)、時尚、前沿,時刻以成就客戶成長自我,堅持不斷學習、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實用型網(wǎng)站。
在數(shù)據(jù)科學領域,分類問題是一個非常普遍和重要的問題。例如:糖尿病視網(wǎng)膜病變、情緒分析、數(shù)字識別、癌癥類型預測(惡性或良性)等。這些問題往往通過機器學習或深度學習來解決。像糖尿病視網(wǎng)膜病變或青光眼檢測這樣的項目中,紋理分析經(jīng)常被使用,而不是傳統(tǒng)的圖像處理或深度學習等。雖然根據(jù)研究論文,深度學習在處理糖尿病視網(wǎng)膜病變方面有著極強的優(yōu)越性。
補充:紋理分析指通過一定的提取出紋理特征參數(shù),從而獲得紋理的定量或定性描述的處理過程·紋理分析方法按其性質而言,可分為兩大類:統(tǒng)計分析方法和結構分析方法。紋理分析在遙感圖像、 X、細胞和處理方面有廣泛的應用。關于紋理,還沒有一個統(tǒng)一的數(shù)學模型。它起源于表征紡織品表面性質的紋理概念,可以用來描述任何物質組成成分的排列情況,例如醫(yī)學上X 射線照片中的、血管紋理、航天(或航空)地形照片中的巖性紋理等。圖像處理中的視覺紋理通常理解為某種基本模式(色調(diào)基元)的重復排列。
現(xiàn)在,我們再回到主題。相關研究論文如下:
"糖尿病視網(wǎng)膜病變檢測的深度學習方法"鏈接:https://ieeexplore.ieee.org/document/8596839
在分類問題中,一個特定類的預測往往要涉及多個類。換句話說,它還可以以這樣一種方式構建:將特定實例(特征空間幾何中的數(shù)據(jù)點)保存在特定區(qū)域下(某一類),并且與其他區(qū)域分離(其他類)。這種與其他區(qū)域的分離的"現(xiàn)象"我們稱之為決策邊界的可視化。在特征空間中決策邊界的可視化是在散點圖上完成的。其中每個點表示數(shù)據(jù)集的一個數(shù)據(jù)點,軸線表示特征。決策邊界將數(shù)據(jù)點劃分為多個區(qū)域,這些區(qū)域就是(我前面所談及的)數(shù)據(jù)點所屬的類。
決策邊界的重要性/意義:
在使用數(shù)據(jù)集訓練機器學習模型之后,我們通常需要可視化特征空間中數(shù)據(jù)點的類。散點圖上的決策邊界就是出于這個目的。而散點圖更是包含著屬于不同類別的數(shù)據(jù)點(用顏色或形狀表示),決策邊界可以通過多種不同的策略繪制:
單線決策邊界:在散點圖上繪制決策邊界的基本策略是找到一條將數(shù)據(jù)點分隔成不同類區(qū)域的單線?,F(xiàn)在,利用訓練過的模型找到與機器學習算法相關的參數(shù),進而找到這條直線。然后利用得到的參數(shù)和機器學習算法找到直線坐標。如果你不知道ML算法的工作原理,那么你將無法繼續(xù)進行下去。
基于輪廓的決策邊界:另一種策略是繪制輪廓,這些輪廓是用匹配或緊密匹配的顏色包圍數(shù)據(jù)點的區(qū)域——描繪數(shù)據(jù)點所屬的類,以及描繪預測類的輪廓。這是最常用的策略,因為它不使用模型訓練后得到的機器學習算法的參數(shù)和相關計算。但另一方面,我們并不能很好地用一條直線來分離數(shù)據(jù)點,也就是說這條直線只能通過訓練后得到的參數(shù)及其坐標計算得到。
單線決策邊界的范例演練:
在這里,我將演示基于邏輯回歸的機器學習模型的單線決策邊界。
進入邏輯回歸假設
其中z被定義為:
theta_1、theta_2 theta_3,....其中,theta_n為邏輯回歸的參數(shù),x_1、x_2、…、x_n為特征。
因此,h(z)是一個Sigmoid函數(shù),其范圍是從0到1(包括0和1)。
在繪制決策邊界時,取h(z) = Logistic回歸中使用的閾值,通常為0.5。即:
然后:
現(xiàn)在,在繪制決策邊界時,需要考慮兩個特征,并沿散點圖的x軸和y軸繪制。所以,
也就是說
其中x_1是數(shù)據(jù)集的原始特征
因此,得到2個x ' _1的值以及2個相應的x ' _2的值。x ' _1是單線決策邊界的x極值,x ' _2是單線決策邊界的y極值。
在虛構數(shù)據(jù)集上的應用:
該數(shù)據(jù)集包含100名學生在2次考試中獲得的分數(shù)和標簽(1,0),該標簽指示該學生是否將被大學錄取(用1和0表示)。相關數(shù)據(jù)集鏈接:https://github.com/navoneel1092283/logistic_regression.git
問題陳述:"根據(jù)在兩次考試中獲得的分數(shù),用邏輯回歸預測該學生是否會被大學錄取。"
在這里,兩門考試的分數(shù)將是考慮的兩個特征。
下面是具體的實現(xiàn)方法:
相關鏈接:https://hackernoon.com/logistic-regression-in-python-from-scratch-954c0196d258
對數(shù)據(jù)集進行邏輯回歸:
得到(參數(shù))向量,
獲取數(shù)據(jù)點的預測或預測類:
繪制單線決策邊界:
得到單線決策邊界
這樣,任何基于邏輯回歸的機器學習模型都可以繪制出單線決策邊界。對于基于其他機器學習算法的模型而言,則必須知道相應的假設等等。
基于輪廓的決策邊界的范例演練:
利用剛才的數(shù)據(jù)集和訓練模型,繪制基于輪廓的決策邊界。
得到基于輪廓的決策邊界,其中黃色->允許,藍色->不允許
這種方法顯然更方便,因為機器學習算法不需要假設,也不需要數(shù)學。所需要的只是高級Python編程的訣竅。
因此,它是繪制任意機器學習模型決策邊界的一種通用方法。
在現(xiàn)實生活中和一些高級項目中,都會涉及到許多特征。那么,如何在二維散點圖中繪制決策邊界呢?
面對這種情況,我認為有多種解決辦法:
1.利用隨機森林分類器等給特征進行重要性評分,得到2個最重要的特征,然后在散點圖上繪制決策邊界。
2.主成分分析(PCA)或線性判別分析(LDA)等降維技術可用于將N個特征嵌入到2個特征中,從而將N個特征的信息解釋或減少為2個特征(n_components = 2)。然后再基于這兩個特征在散點圖上繪制決策邊界。
這就是決策邊界可視化。