pytorch梯度機制,計算梯度注意事項
成都創(chuàng)新互聯(lián)公司專注于企業(yè)全網(wǎng)營銷推廣、網(wǎng)站重做改版、渭南網(wǎng)站定制設(shè)計、自適應(yīng)品牌網(wǎng)站建設(shè)、HTML5、商城網(wǎng)站建設(shè)、集團公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計等建站業(yè)務(wù),價格優(yōu)惠性價比高,為渭南等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。
pytorch,autograd,tensor,自動微分,張量,梯度
??在一些優(yōu)化算法中,常常需要計算函數(shù)的梯度,在pytorch可以借助autograd機制來自動計算梯度值。
??假設(shè) ,關(guān)于 的梯度記為 , 是關(guān)于變量 的函數(shù),其梯度 是隨著 的值變化而變化的,決定梯度的除了 自身的值以外還有施加在 上的運算。因此,關(guān)注梯度就是關(guān)注兩個東西,求哪個 變量 的梯度,該變量上被施加了哪種 運算 。
??首先看 變量 :在pytorch中把梯度作為一個固有屬性結(jié)合進(jìn)張量(tensor),任何一個tensor類型的變量都有梯度(grad)屬性,再結(jié)合一般場景下的需要,pytorch把 tensor 類型定義為一個對象,包括5個屬性,分別對應(yīng) data (變量本身的值), grad (梯度值), requires_grad (是否需要梯度,很多場景都不需要求變量的微分), grad_fn (生成該變量結(jié)果的運算,即這個值通過什么運算來的), is_leaf (是否葉子節(jié)點,葉子才幫你算梯度)。
??接著看 運算 :在pytorch中沒有顯式的給出梯度函數(shù)表達(dá),而是算出梯度值,存放在tensor類型變量的grad屬性中,那么運算也一樣用結(jié)果來表達(dá),假設(shè) ,這里的 就承載了運算的結(jié)果,因此需要求 的梯度值時就對 使用 backward() 方法來計算 的梯度。
??上面提到計算梯度的兩個要素: 變量 和 運算 ,對應(yīng)的pytorch機制是 tensor 對象和 backward 方法。因此計算梯度就是學(xué)會怎么用這倆貨。具體的例子這邊不寫,各位大神寫的很多了,不當(dāng)搬運工了,推薦 參考資料3 , 參考資料2 。這里說明兩點,然后總結(jié)個過程。
??(1)可求梯度的條件
??從上面的敘述知道,一個變量有5個屬性,要求這個變量可以求梯度,需要滿足2個屬性為真,requires_grad=True,is_leaf=True。在聲明變量的時候聲明requires_grad=True就可以了。在實踐過程中如果發(fā)現(xiàn)梯度沒法計算,要查一下這兩個屬性。
??(2)回傳結(jié)果類型
??大部分情況是對標(biāo)量求梯度,也是在 中, 是標(biāo)量的情況,如果 向量或矩陣,也可以求梯度,此時本質(zhì)上也是按分量一個一個來,因此要給backward()加個參數(shù),一般情況下該參數(shù)的形狀和 一樣,每一個位置的值指示每個分量的梯度權(quán)重,多數(shù)情況就是全部設(shè)置為1。
??(3)一般過程
??仍然假設(shè)求 的關(guān)于 的梯度,首先設(shè)置聲明tensor類型變量 ,聲明的時候需要設(shè)置參數(shù)requires_grad=True;接下來計算出 ,這里的 是用來表示函數(shù)運算過程,最后使用 ,如果 非標(biāo)量,就加個參數(shù),假設(shè)為 , 的形狀與 相同,此時使用的是 ,要的梯度值可以通過 獲得。
??單獨寫個注意事項,計算變量 的梯度時, 的屬性有可能會變化,比如需要對 進(jìn)行迭代,假設(shè)為 ,那么 的requires_grad和is_leaf屬性會變化,變得不可求梯度,那怎么辦呢,其實程序迭代時只需要改變值就好了,使用 就可以了。
[1]
[2]
[3]
梯度的計算公式:gradu=a?(?u/?x)+a?(?u/?y)+az(?u/?z)
梯度的本意是一個向量(矢量),表示某一函數(shù)在該點處的方向?qū)?shù)沿著該方向取得最大值,即函數(shù)在該點處沿著該方向(此梯度的方向)變化最快,變化率最大(為該梯度的模)。
擴展資料:
在向量微積分中,標(biāo)量場的梯度是一個向量場。標(biāo)量場中某一點上的梯度指向標(biāo)量場增長最快的方向,梯度的長度是這個最大的變化率。更嚴(yán)格的說,從歐幾里得空間Rn到R的函數(shù)的梯度是在Rn某一點最佳的線性近似。在這個意義上,梯度是雅可比矩陣的特殊情況。
在單變量的實值函數(shù)的情況,梯度只是導(dǎo)數(shù),或者,對于一個線性函數(shù),也就是線的斜率。
參考資料來源:
百度百科-梯度
上一期提到的圖像閾值處理,不僅可以實現(xiàn)獲取你想要的目標(biāo)區(qū)域(作為mask使用),還可以幫你獲取圖像的邊緣信息,那關(guān)于圖像邊緣,本期將從另外的角度來處理。
對邊緣信息與背景差異較大的場景,你也可以使用threshold分割,不過若閾值不好選取,Laplacian梯度算子就不失為一直嘗試方案,而且上網(wǎng)看看,關(guān)于Laplacian算子還可以用來判斷圖像的模糊程度,這個在相機的自動對焦當(dāng)中,是否可以嘗試判斷下?
不過處理的效果并不理想,圖像低灰階部分邊緣信息丟失嚴(yán)重。
對于sobel,laplacian算子我們可以使用cv2.filter2D()來實現(xiàn),配置相應(yīng)的核模板即可,如實現(xiàn)提取水平方向邊緣信息:
你可以依據(jù)實際的應(yīng)用需求來配置提取邊緣的角度信息,這里以45度角(垂直向下逆時針旋轉(zhuǎn)45度)為例:
對此,你可以采用下面的方式來解決:
一、概觀scipy中的optimize子包中提供了常用的最優(yōu)化算法函數(shù)實現(xiàn)。我們可以直接調(diào)用這些函數(shù)完成我們的優(yōu)化問題。optimize中函數(shù)最典型的特點就是能夠從函數(shù)名稱上看出是使用了什么算法。下面optimize包中函數(shù)的概覽:1.非線性最優(yōu)化fmin -- 簡單Nelder-Mead算法fmin_powell -- 改進(jìn)型Powell法fmin_bfgs -- 擬Newton法fmin_cg -- 非線性共軛梯度法fmin_ncg -- 線性搜索Newton共軛梯度法leastsq -- 最小二乘2.有約束的多元函數(shù)問題fmin_l_bfgs_b ---使用L-BFGS-B算法fmin_tnc ---梯度信息fmin_cobyla ---線性逼近fmin_slsqp ---序列最小二乘法nnls ---解|| Ax - b ||_2 for x=03.全局優(yōu)化anneal ---模擬退火算法brute --強力法4.標(biāo)量函數(shù)fminboundbrentgoldenbracket5.擬合curve_fit-- 使用非線性最小二乘法擬合6.標(biāo)量函數(shù)求根brentq ---classic Brent (1973)brenth ---A variation on the classic Brent(1980)ridder ---Ridder是提出這個算法的人名bisect ---二分法newton ---牛頓法fixed_point7.多維函數(shù)求根fsolve ---通用broyden1 ---Broyden’s first Jacobian approximation.broyden2 ---Broyden’s second Jacobian approximationnewton_krylov ---Krylov approximation for inverse Jacobiananderson ---extended Anderson mixingexcitingmixing ---tuned diagonal Jacobian approximationlinearmixing ---scalar Jacobian approximationdiagbroyden ---diagonal Broyden Jacobian approximation8.實用函數(shù)line_search ---找到滿足強Wolfe的alpha值check_grad ---通過和前向有限差分逼近比較檢查梯度函數(shù)的正確性二、實戰(zhàn)非線性最優(yōu)化fmin完整的調(diào)用形式是:fmin(func, x0, args=(), xtol=0.0001, ftol=0.0001, maxiter=None, maxfun=None, full_output=0, disp=1, retall=0, callback=None)不過我們最常使用的就是前兩個參數(shù)。一個描述優(yōu)化問題的函數(shù)以及初值。后面的那些參數(shù)我們也很容易理解。如果您能用到,請自己研究。下面研究一個最簡單的問題,來感受這個函數(shù)的使用方法:f(x)=x**2-4*x+8,我們知道,這個函數(shù)的最小值是4,在x=2的時候取到。from scipy.optimize import fmin #引入優(yōu)化包def myfunc(x):return x**2-4*x+8 #定義函數(shù)x0 = [1.3] #猜一個初值xopt = fmin(myfunc, x0) #求解print xopt #打印結(jié)果運行之后,給出的結(jié)果是:Optimization terminated successfully.Current function value: 4.000000Iterations: 16Function evaluations: 32[ 2.00001953]程序準(zhǔn)確的計算得出了最小值,不過最小值點并不是嚴(yán)格的2,這應(yīng)該是由二進(jìn)制機器編碼誤差造成的。除了fmin_ncg必須提供梯度信息外,其他幾個函數(shù)的調(diào)用大同小異,完全類似。我們不妨做一個對比:from scipy.optimize import fmin,fmin_powell,fmin_bfgs,fmin_cgdef myfunc(x):return x**2-4*x+8x0 = [1.3]xopt1 = fmin(myfunc, x0)print xopt1printxopt2 = fmin_powell(myfunc, x0)print xopt2printxopt3 = fmin_bfgs(myfunc, x0)print xopt3printxopt4 = fmin_cg(myfunc,x0)print xopt4給出的結(jié)果是:Optimization terminated successfully.Current function value: 4.000000Iterations: 16Function evaluations: 32[ 2.00001953]Optimization terminated successfully.Current function value: 4.000000Iterations: 2Function evaluations: 531.99999999997Optimization terminated successfully.Current function value: 4.000000Iterations: 2Function evaluations: 12Gradient evaluations: 4[ 2.00000001]Optimization terminated successfully.Current function value: 4.000000Iterations: 2Function evaluations: 15Gradient evaluations: 5[ 2.]我們可以根據(jù)給出的消息直觀的判斷算法的執(zhí)行情況。每一種算法數(shù)學(xué)上的問題,請自己看書學(xué)習(xí)。個人感覺,如果不是純研究數(shù)學(xué)的工作,沒必要搞清楚那些推導(dǎo)以及定理云云。不過,必須了解每一種算法的優(yōu)劣以及能力所及。在使用的時候,不妨多種算法都使用一下,看看效果分別如何,同時,還可以互相印證算法失效的問題。在from scipy.optimize import fmin之后,就可以使用help(fmin)來查看fmin的幫助信息了。幫助信息中沒有例子,但是給出了每一個參數(shù)的含義說明,這是調(diào)用函數(shù)時候的最有價值參考。有源碼研究癖好的,或者當(dāng)你需要改進(jìn)這些已經(jīng)實現(xiàn)的算法的時候,可能需要查看optimize中的每種算法的源代碼。在這里:https:/ / github. com/scipy/scipy/blob/master/scipy/optimize/optimize.py聰明的你肯定發(fā)現(xiàn)了,順著這個鏈接往上一級、再往上一級,你會找到scipy的幾乎所有源碼!
設(shè)二元函數(shù)f(x,y),對于每一個點P(x,y)都可定出一個向量fx(x,y)i+fy(x,y)j,該函數(shù)就稱為函數(shù)f(x,y)在點P的梯度。函數(shù)梯度本意是指一個向量(矢量),表示某一函數(shù)在該點處的方向?qū)?shù)沿著該方向取得最大值,即函數(shù)在該點處沿著該方向(此梯度的方向)變化最快,變化率最大(為該梯度的模)。