python 離散型數(shù)據(jù)量化的方法可以采用變量轉(zhuǎn)換方法來解決,分類數(shù)據(jù)和連續(xù)數(shù)據(jù)需要參與模型計算,并且通常會轉(zhuǎn)換為數(shù)值數(shù)據(jù)。
創(chuàng)新互聯(lián)建站是一家專業(yè)提供孫吳企業(yè)網(wǎng)站建設(shè),專注與成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營銷網(wǎng)站建設(shè)、成都h5網(wǎng)站建設(shè)、小程序制作等業(yè)務(wù)。10年已為孫吳眾多企業(yè)、政府機構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)的建站公司優(yōu)惠進行中。
當然,某些算法允許這些數(shù)據(jù)直接參與計算,例如分類算法中的決策樹和關(guān)聯(lián)規(guī)則。將非數(shù)字數(shù)據(jù)轉(zhuǎn)換為數(shù)字數(shù)據(jù)的最佳方法是將所有類別或有序變量的范圍從一列多值形式轉(zhuǎn)換為僅包含真值的多列??梢詫rue值傳遞給True,F(xiàn)alse或0、1。這種符號轉(zhuǎn)換方法有時稱為真值轉(zhuǎn)換。
具體代碼是:
import pandas as pddata = [.
['yellow', 'S', 10.1, 'class1'].
['red', 'M', 13.5, 'class1'].
['red', 'M', 15.1, 'class2'].
['blue', 'XL', 15.3, 'class2'.
df = pd.DataFrame(.
data,columns=['color', 'size', 'prize', 'class'].
python 離散型數(shù)據(jù)用連續(xù)數(shù)據(jù)處理的方法是:
1、等寬法:若數(shù)據(jù)區(qū)間為0~20,設(shè)置箱子個數(shù)為4個,則等寬法會將數(shù)據(jù)裝入4個箱子:[0,5],(5,10],(10,15],(15,20],并且可以設(shè)置每個箱子的名字,如1、2、3、4。
等寬法缺點是分箱結(jié)果會受到最值影響。并且需要人為指定箱子個數(shù),比較依賴于經(jīng)驗。分箱結(jié)果會直接影響后續(xù)分類、聚類的結(jié)果。
2、等頻法:等頻法是指將一組數(shù)據(jù)分解成n個部分后,每個部分的記錄數(shù)量是一樣多的。等頻法常用pandas庫中的qcut()函數(shù)進行處理。
從零開始用Python構(gòu)建神經(jīng)網(wǎng)絡(luò)
動機:為了更加深入的理解深度學(xué)習(xí),我們將使用 python 語言從頭搭建一個神經(jīng)網(wǎng)絡(luò),而不是使用像 Tensorflow 那樣的封裝好的框架。我認為理解神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作原理,對數(shù)據(jù)科學(xué)家來說至關(guān)重要。
這篇文章的內(nèi)容是我的所學(xué),希望也能對你有所幫助。
神經(jīng)網(wǎng)絡(luò)是什么?
介紹神經(jīng)網(wǎng)絡(luò)的文章大多數(shù)都會將它和大腦進行類比。如果你沒有深入研究過大腦與神經(jīng)網(wǎng)絡(luò)的類比,那么將神經(jīng)網(wǎng)絡(luò)解釋為一種將給定輸入映射為期望輸出的數(shù)學(xué)關(guān)系會更容易理解。
神經(jīng)網(wǎng)絡(luò)包括以下組成部分
? 一個輸入層,x
? 任意數(shù)量的隱藏層
? 一個輸出層,?
? 每層之間有一組權(quán)值和偏置,W and b
? 為隱藏層選擇一種激活函數(shù),σ。在教程中我們使用 Sigmoid 激活函數(shù)
下圖展示了 2 層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)(注意:我們在計算網(wǎng)絡(luò)層數(shù)時通常排除輸入層)
2 層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
用 Python 可以很容易的構(gòu)建神經(jīng)網(wǎng)絡(luò)類
訓(xùn)練神經(jīng)網(wǎng)絡(luò)
這個網(wǎng)絡(luò)的輸出 ? 為:
你可能會注意到,在上面的等式中,輸出 ? 是 W 和 b 函數(shù)。
因此 W 和 b 的值影響預(yù)測的準確率. 所以根據(jù)輸入數(shù)據(jù)對 W 和 b 調(diào)優(yōu)的過程就被成為訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
每步訓(xùn)練迭代包含以下兩個部分:
? 計算預(yù)測結(jié)果 ?,這一步稱為前向傳播
? 更新 W 和 b,,這一步成為反向傳播
下面的順序圖展示了這個過程:
前向傳播
正如我們在上圖中看到的,前向傳播只是簡單的計算。對于一個基本的 2 層網(wǎng)絡(luò)來說,它的輸出是這樣的:
我們在 NeuralNetwork 類中增加一個計算前向傳播的函數(shù)。為了簡單起見我們假設(shè)偏置 b 為0:
但是我們還需要一個方法來評估預(yù)測結(jié)果的好壞(即預(yù)測值和真實值的誤差)。這就要用到損失函數(shù)。
損失函數(shù)
常用的損失函數(shù)有很多種,根據(jù)模型的需求來選擇。在本教程中,我們使用誤差平方和作為損失函數(shù)。
誤差平方和是求每個預(yù)測值和真實值之間的誤差再求和,這個誤差是他們的差值求平方以便我們觀察誤差的絕對值。
訓(xùn)練的目標是找到一組 W 和 b,使得損失函數(shù)最好小,也即預(yù)測值和真實值之間的距離最小。
反向傳播
我們已經(jīng)度量出了預(yù)測的誤差(損失),現(xiàn)在需要找到一種方法來傳播誤差,并以此更新權(quán)值和偏置。
為了知道如何適當?shù)恼{(diào)整權(quán)值和偏置,我們需要知道損失函數(shù)對權(quán)值 W 和偏置 b 的導(dǎo)數(shù)。
回想微積分中的概念,函數(shù)的導(dǎo)數(shù)就是函數(shù)的斜率。
梯度下降法
如果我們已經(jīng)求出了導(dǎo)數(shù),我們就可以通過增加或減少導(dǎo)數(shù)值來更新權(quán)值 W 和偏置 b(參考上圖)。這種方式被稱為梯度下降法。
但是我們不能直接計算損失函數(shù)對權(quán)值和偏置的導(dǎo)數(shù),因為在損失函數(shù)的等式中并沒有顯式的包含他們。因此,我們需要運用鏈式求導(dǎo)發(fā)在來幫助計算導(dǎo)數(shù)。
鏈式法則用于計算損失函數(shù)對 W 和 b 的導(dǎo)數(shù)。注意,為了簡單起見。我們只展示了假設(shè)網(wǎng)絡(luò)只有 1 層的偏導(dǎo)數(shù)。
這雖然很簡陋,但是我們依然能得到想要的結(jié)果—損失函數(shù)對權(quán)值 W 的導(dǎo)數(shù)(斜率),因此我們可以相應(yīng)的調(diào)整權(quán)值。
現(xiàn)在我們將反向傳播算法的函數(shù)添加到 Python 代碼中
為了更深入的理解微積分原理和反向傳播中的鏈式求導(dǎo)法則,我強烈推薦 3Blue1Brown 的如下教程:
Youtube:
整合并完成一個實例
既然我們已經(jīng)有了包括前向傳播和反向傳播的完整 Python 代碼,那么就將其應(yīng)用到一個例子上看看它是如何工作的吧。
神經(jīng)網(wǎng)絡(luò)可以通過學(xué)習(xí)得到函數(shù)的權(quán)重。而我們僅靠觀察是不太可能得到函數(shù)的權(quán)重的。
讓我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)進行 1500 次迭代,看看會發(fā)生什么。 注意觀察下面每次迭代的損失函數(shù),我們可以清楚地看到損失函數(shù)單調(diào)遞減到最小值。這與我們之前介紹的梯度下降法一致。
讓我們看看經(jīng)過 1500 次迭代后的神經(jīng)網(wǎng)絡(luò)的最終預(yù)測結(jié)果:
經(jīng)過 1500 次迭代訓(xùn)練后的預(yù)測結(jié)果
我們成功了!我們應(yīng)用前向和方向傳播算法成功的訓(xùn)練了神經(jīng)網(wǎng)絡(luò)并且預(yù)測結(jié)果收斂于真實值。
注意預(yù)測值和真實值之間存在細微的誤差是允許的。這樣可以防止模型過擬合并且使得神經(jīng)網(wǎng)絡(luò)對于未知數(shù)據(jù)有著更強的泛化能力。
下一步是什么?
幸運的是我們的學(xué)習(xí)之旅還沒有結(jié)束,仍然有很多關(guān)于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的內(nèi)容需要學(xué)習(xí)。例如:
? 除了 Sigmoid 以外,還可以用哪些激活函數(shù)
? 在訓(xùn)練網(wǎng)絡(luò)的時候應(yīng)用學(xué)習(xí)率
? 在面對圖像分類任務(wù)的時候使用卷積神經(jīng)網(wǎng)絡(luò)
我很快會寫更多關(guān)于這個主題的內(nèi)容,敬請期待!
最后的想法
我自己也從零開始寫了很多神經(jīng)網(wǎng)絡(luò)的代碼
雖然可以使用諸如 Tensorflow 和 Keras 這樣的深度學(xué)習(xí)框架方便的搭建深層網(wǎng)絡(luò)而不需要完全理解其內(nèi)部工作原理。但是我覺得對于有追求的數(shù)據(jù)科學(xué)家來說,理解內(nèi)部原理是非常有益的。
這種練習(xí)對我自己來說已成成為重要的時間投入,希望也能對你有所幫助
學(xué)習(xí)目標:
OpenCV 中有 150 多種色彩空間轉(zhuǎn)化的方法,這里只討論兩種:
HSV的色相范圍為[0,179],飽和度范圍為[0,255],值范圍為[0,255]。不同的軟件使用不同的規(guī)模。如果要比較 OpenCV 值和它們,你需要標準化這些范圍。
HSV 和 HLV 解釋
運行結(jié)果:該段程序的作用是檢測藍色目標,同理可以檢測其他顏色的目標
結(jié)果中存在一定的噪音,之后的章節(jié)將會去掉它
這是物體跟蹤中最簡單的方法。一旦你學(xué)會了等高線的函數(shù),你可以做很多事情,比如找到這個物體的質(zhì)心,用它來跟蹤這個物體,僅僅通過在相機前移動你的手來畫圖表,還有很多其他有趣的事情。
菜鳥教程 在線 HSV- BGR 轉(zhuǎn)換
比如要找出綠色的 HSV 值,可以使用上面的程序,得到的值取一個上下界。如上面的取下界 [H-10, 100, 100],上界 [H+10, 255, 255]
或者使用其他工具如 GIMP
學(xué)習(xí)目標:
對圖像進行閾值處理,算是一種最簡單的圖像分割方法,基于圖像與背景之間的灰度差異,此項分割是基于像素級的分割
threshold(src, thresh, maxval, type[, dst]) - retval, dst
計算圖像小區(qū)域的閾值。所以我們對同一幅圖像的不同區(qū)域得到不同的閾值,這給我們在不同光照下的圖像提供了更好的結(jié)果。
三個特殊的輸入?yún)?shù)和一個輸出參數(shù)
adaptiveThreshold(src, maxValue, adaptiveMethod, thresholdType, blockSize, C[, dst]) - dst
opencv-threshold-python
OpenCV 圖片集
本節(jié)原文
學(xué)習(xí)目標:
OpenCV 提供兩種變換函數(shù): cv2.warpAffine 和 cv2.warpPerspective
cv2.resize() 完成縮放
文檔說明
運行結(jié)果
說明 : cv2.INTER_LINEAR 方法比 cv2.INTER_CUBIC 還慢,好像與官方文檔說的不一致? 有待驗證。
速度比較: INTER_CUBIC INTER_NEAREST INTER_LINEAR INTER_AREA INTER_LANCZOS4
改變圖像的位置,創(chuàng)建一個 np.float32 類型的變換矩陣,
warpAffine(src, M, dsize[, dst[, flags[, borderMode[, borderValue]]]]) - dst
運行結(jié)果:
旋轉(zhuǎn)角度( )是通過一個變換矩陣變換的:
OpenCV 提供的是可調(diào)旋轉(zhuǎn)中心的縮放旋轉(zhuǎn),這樣你可以在任何你喜歡的位置旋轉(zhuǎn)。修正后的變換矩陣為
這里
OpenCV 提供了 cv2.getRotationMatrix2D 控制
cv2.getRotationMatrix2D(center, angle, scale) → retval
運行結(jié)果
cv2.getAffineTransform(src, dst) → retval
函數(shù)關(guān)系:
\begin{bmatrix} x'_i \ y'_i \end{bmatrix}\begin{bmatrix} x'_i \ y'_i \end{bmatrix} =
其中
運行結(jié)果:圖上的點便于觀察,兩圖中的紅點是相互對應(yīng)的
透視變換需要一個 3x3 變換矩陣。轉(zhuǎn)換之后直線仍然保持筆直,要找到這個變換矩陣,需要輸入圖像上的 4 個點和輸出圖像上的對應(yīng)點。在這 4 個點中,有 3 個不應(yīng)該共線。通過 cv2.getPerspectiveTransform 計算得到變換矩陣,得到的矩陣 cv2.warpPerspective 變換得到最終結(jié)果。
本節(jié)原文
平滑處理(smoothing)也稱模糊處理(bluring),是一種簡單且使用頻率很高的圖像處理方法。平滑處理的用途:常見是用來 減少圖像上的噪點或失真 。在涉及到降低圖像分辨率時,平滑處理是很好用的方法。
圖像濾波:盡量保留圖像細節(jié)特征的條件下對目標圖像的噪聲進行抑制,其處理效果的好壞將直接影響到后續(xù)圖像處理和分析的有效性和可靠性。
消除圖像中的噪聲成分叫做圖像的平滑化或濾波操作。信號或圖像的能量大部分集中在幅度譜的低頻和中頻段,在高頻段,有用的信息會被噪聲淹沒。因此一個能降低高頻成分幅度的濾波器就能夠減弱噪聲的影響。
濾波的目的:抽出對象的特征作為圖像識別的特征模式;為適應(yīng)圖像處理的要求,消除圖像數(shù)字化時混入的噪聲。
濾波處理的要求:不能損壞圖像的輪廓及邊緣等重要信息;圖像清晰視覺效果好。
平滑濾波是低頻增強的空間濾波技術(shù),目的:模糊和消除噪音。
空間域的平滑濾波一般采用簡單平均法,即求鄰近像元點的平均亮度值。鄰域的大小與平滑的效果直接相關(guān),鄰域越大平滑效果越好,但是鄰域過大,平滑也會使邊緣信息的損失的越大,從而使輸出圖像變得模糊。因此需要選擇合適的鄰域。
濾波器:一個包含加權(quán)系數(shù)的窗口,利用濾波器平滑處理圖像時,把這個窗口放在圖像上,透過這個窗口來看我們得到的圖像。
線性濾波器:用于剔除輸入信號中不想要的頻率或者從許多頻率中選擇一個想要的頻率。
低通濾波器、高通濾波器、帶通濾波器、帶阻濾波器、全通濾波器、陷波濾波器
boxFilter(src, ddepth, ksize[, dst[, anchor[, normalize[, borderType]]]]) - dst
均值濾波是方框濾波歸一化后的特殊情況。歸一化就是要把處理的量縮放到一個范圍內(nèi)如 (0,1),以便統(tǒng)一處理和直觀量化。非歸一化的方框濾波用于計算每個像素鄰近內(nèi)的積分特性,比如密集光流算法中用到的圖像倒數(shù)的協(xié)方差矩陣。
運行結(jié)果:
均值濾波是典型的線性濾波算法,主要方法為鄰域平均法,即用一片圖像區(qū)域的各個像素的均值來代替原圖像中的各個像素值。一般需要在圖像上對目標像素給出一個模板(內(nèi)核),該模板包括了其周圍的臨近像素(比如以目標像素為中心的周圍8(3x3-1)個像素,構(gòu)成一個濾波模板,即 去掉目標像素本身 )。再用模板中的全體像素的平均值來代替原來像素值。即對待處理的當前像素點(x,y),選擇一個模板,該模板由其近鄰的若干像素組成,求模板中所有像素的均值,再把該均值賦予當前像素點(x,y),作為處理后圖像在該點上的灰度個g(x,y),即個g(x,y)=1/m ∑f(x,y) ,其中m為該模板中包含當前像素在內(nèi)的像素總個數(shù)。
均值濾波本身存在著固有的缺陷,即它不能很好地保護圖像細節(jié),在圖像去噪的同時也破壞了圖像的細節(jié)部分,從而使圖像變得模糊,不能很好地去除噪聲點。
cv2.blur(src, ksize[, dst[, anchor[, borderType]]]) → dst
結(jié)果:
高斯濾波:線性濾波,可以消除高斯噪聲,廣泛應(yīng)用于圖像處理的減噪過程。高斯濾波就是對整幅圖像進行加權(quán)平均的過程,每一個像素點的值,都由其本身和鄰域內(nèi)的其他像素值經(jīng)過 加權(quán)平均 后得到。高斯濾波的具體操作是:用一個模板(或稱卷積、掩模)掃描圖像中的每一個像素,用模板確定的鄰域內(nèi)像素的加權(quán)平均灰度值去替代模板中心像素點的值。
高斯濾波有用但是效率不高。
高斯模糊技術(shù)生成的圖像,其視覺效果就像是經(jīng)過一個半透明屏幕在觀察圖像,這與鏡頭焦外成像效果散景以及普通照明陰影中的效果都明顯不同。高斯平滑也用于計算機視覺算法中的預(yù)先處理階段,以增強圖像在不同比例大小下的圖像效果(參見尺度空間表示以及尺度空間實現(xiàn))。從數(shù)學(xué)的角度來看,圖像的高斯模糊過程就是圖像與正態(tài)分布做卷積。由于正態(tài)分布又叫作高斯分布,所以這項技術(shù)就叫作高斯模糊。
高斯濾波器是一類根據(jù)高斯函數(shù)的形狀來選擇權(quán)值的線性平滑濾波器。 高斯平滑濾波器對于抑制服從正態(tài)分布的噪聲非常有效。
一維零均值高斯函數(shù)為: 高斯分布參數(shù) 決定了高斯函數(shù)的寬度。
高斯噪聲的產(chǎn)生
GaussianBlur(src, ksize, sigmaX[, dst[, sigmaY[, borderType]]]) - dst
線性濾波容易構(gòu)造,并且易于從頻率響應(yīng)的角度來進行分析。
許多情況,使用近鄰像素的非線性濾波會得到更好的結(jié)果。比如在噪聲是散粒噪聲而不是高斯噪聲,即圖像偶爾會出現(xiàn)很大值的時候,用高斯濾波器進行圖像模糊時,噪聲像素不會被消除,而是轉(zhuǎn)化為更為柔和但仍然可見的散粒。
中值濾波(Median filter)是一種典型的非線性濾波技術(shù),基本思想是用像素點鄰域灰度值的中值來代替該像素點的灰度值,該方法在去除脈沖噪聲、椒鹽噪聲『椒鹽噪聲又稱脈沖噪聲,它隨機改變一些像素值,是由圖像傳感器,傳輸信道,解碼處理等產(chǎn)生的黑白相間的亮暗點噪聲。椒鹽噪聲往往由圖像切割引起?!坏耐瑫r又能保留圖像邊緣細節(jié),
中值濾波是基于排序統(tǒng)計理論的一種能有效抑制噪聲的非線性信號處理技術(shù),其基本原理是把數(shù)字圖像或數(shù)字序列中一點的值用該點的一個鄰域中各點值的中值代替,讓周圍的像素值接近的真實值,從而消除孤立的噪聲點,對于 斑點噪聲(speckle noise)和椒鹽噪聲(salt-and-pepper noise) 來說尤其有用,因為它不依賴于鄰域內(nèi)那些與典型值差別很大的值。中值濾波器在處理連續(xù)圖像窗函數(shù)時與線性濾波器的工作方式類似,但濾波過程卻不再是加權(quán)運算。
中值濾波在一定的條件下可以克服常見線性濾波器如最小均方濾波、方框濾波器、均值濾波等帶來的圖像細節(jié)模糊,而且對濾除脈沖干擾及圖像掃描噪聲非常有效,也常用于保護邊緣信息, 保存邊緣的特性使它在不希望出現(xiàn)邊緣模糊的場合也很有用,是非常經(jīng)典的平滑噪聲處理方法。
與均值濾波比較:
說明:中值濾波在一定條件下,可以克服線性濾波器(如均值濾波等)所帶來的圖像細節(jié)模糊,而且對濾除脈沖干擾即圖像掃描噪聲最為有效。在實際運算過程中并不需要圖像的統(tǒng)計特性,也給計算帶來不少方便。 但是對一些細節(jié)多,特別是線、尖頂?shù)燃毠?jié)多的圖像不宜采用中值濾波。
雙邊濾波(Bilateral filter)是一種非線性的濾波方法,是結(jié)合 圖像的空間鄰近度和像素值相似度 的一種折衷處理,同時考慮空域信息和灰度相似性,達到保邊去噪的目的。具有簡單、非迭代、局部的特點。
雙邊濾波器的好處是可以做邊緣保存(edge preserving),一般過去用的維納濾波或者高斯濾波去降噪,都會較明顯地模糊邊緣,對于高頻細節(jié)的保護效果并不明顯。雙邊濾波器顧名思義比高斯濾波多了一個高斯方差 sigma-d ,它是基于空間分布的高斯濾波函數(shù),所以在邊緣附近,離的較遠的像素不會太多影響到邊緣上的像素值,這樣就保證了邊緣附近像素值的保存。 但是由于保存了過多的高頻信息,對于彩色圖像里的高頻噪聲,雙邊濾波器不能夠干凈的濾掉,只能夠?qū)τ诘皖l信息進行較好的濾波。
運行結(jié)果
學(xué)習(xí)目標:
形態(tài)變換是基于圖像形狀的一些簡單操作。它通常在二進制圖像上執(zhí)行。
膨脹與腐蝕實現(xiàn)的功能
侵蝕的基本思想就像土壤侵蝕一樣,它會侵蝕前景物體的邊界(總是試圖保持前景為白色)。那它是做什么的?內(nèi)核在圖像中滑動(如在2D卷積中)。只有當內(nèi)核下的所有像素都是 1 時,原始圖像中的像素( 1 或 0 )才會被視為 1 ,否則它將被侵蝕(變?yōu)榱悖?/p>
erode(src, kernel[, dst[, anchor[, iterations[, borderType[, borderValue]]]]]) - dst
與腐蝕的操作相反。如果內(nèi)核下的至少一個像素為“1”,則像素元素為“1”。因此它增加了圖像中的白色區(qū)域或前景對象的大小增加。通常,在去除噪音的情況下,侵蝕之后是擴張。因為,侵蝕會消除白噪聲,但它也會縮小我們的物體。所以我們擴大它。由于噪音消失了,它們不會再回來,但我們的物體區(qū)域會增加。它也可用于連接對象的破碎部分