這篇文章將為大家詳細(xì)講解有關(guān)Python怎么實(shí)現(xiàn)K折交叉驗(yàn)證法的方法,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。
創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比鉛山網(wǎng)站開(kāi)發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫(kù),直接使用。一站式鉛山網(wǎng)站制作公司更省心,省錢(qián),快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋鉛山地區(qū)。費(fèi)用合理售后完善,十多年實(shí)體公司更值得信賴。學(xué)習(xí)器在測(cè)試集上的誤差我們通常稱作“泛化誤差”。要想得到“泛化誤差”首先得將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。那么怎么劃分呢?常用的方法有兩種,k折交叉驗(yàn)證法和自助法。下面是k折交叉驗(yàn)證法的python實(shí)現(xiàn)。
##一個(gè)簡(jiǎn)單的2折交叉驗(yàn)證 from sklearn.model_selection import KFold import numpy as np X=np.array([[1,2],[3,4],[1,3],[3,5]]) Y=np.array([1,2,3,4]) KF=KFold(n_splits=2) #建立4折交叉驗(yàn)證方法 查一下KFold函數(shù)的參數(shù) for train_index,test_index in KF.split(X): print("TRAIN:",train_index,"TEST:",test_index) X_train,X_test=X[train_index],X[test_index] Y_train,Y_test=Y[train_index],Y[test_index] print(X_train,X_test) print(Y_train,Y_test) #小結(jié):KFold這個(gè)包 劃分k折交叉驗(yàn)證的時(shí)候,是以TEST集的順序?yàn)橹鞯?,舉例來(lái)說(shuō),如果劃分4折交叉驗(yàn)證,那么TEST選取的順序?yàn)閇0].[1],[2],[3]。 #提升 import numpy as np from sklearn.model_selection import KFold #Sample=np.random.rand(50,15) #建立一個(gè)50行12列的隨機(jī)數(shù)組 Sam=np.array(np.random.randn(1000)) #1000個(gè)隨機(jī)數(shù) New_sam=KFold(n_splits=5) for train_index,test_index in New_sam.split(Sam): #對(duì)Sam數(shù)據(jù)建立5折交叉驗(yàn)證的劃分 #for test_index,train_index in New_sam.split(Sam): #默認(rèn)第一個(gè)參數(shù)是訓(xùn)練集,第二個(gè)參數(shù)是測(cè)試集 #print(train_index,test_index) Sam_train,Sam_test=Sam[train_index],Sam[test_index] print('訓(xùn)練集數(shù)量:',Sam_train.shape,'測(cè)試集數(shù)量:',Sam_test.shape) #結(jié)果表明每次劃分的數(shù)量 #Stratified k-fold 按照百分比劃分?jǐn)?shù)據(jù) from sklearn.model_selection import StratifiedKFold import numpy as np m=np.array([[1,2],[3,5],[2,4],[5,7],[3,4],[2,7]]) n=np.array([0,0,0,1,1,1]) skf=StratifiedKFold(n_splits=3) for train_index,test_index in skf.split(m,n): print("train",train_index,"test",test_index) x_train,x_test=m[train_index],m[test_index] #Stratified k-fold 按照百分比劃分?jǐn)?shù)據(jù) from sklearn.model_selection import StratifiedKFold import numpy as np y1=np.array(range(10)) y2=np.array(range(20,30)) y3=np.array(np.random.randn(10)) m=np.append(y1,y2) #生成1000個(gè)隨機(jī)數(shù) m1=np.append(m,y3) n=[i//10 for i in range(30)] #生成25個(gè)重復(fù)數(shù)據(jù) skf=StratifiedKFold(n_splits=5) for train_index,test_index in skf.split(m1,n): print("train",train_index,"test",test_index) x_train,x_test=m1[train_index],m1[test_index]
Python中貌似沒(méi)有自助法(Bootstrap)現(xiàn)成的包,可能是因?yàn)樽灾ㄔ聿浑y,所以自主實(shí)現(xiàn)難度不大。
關(guān)于“Python怎么實(shí)現(xiàn)K折交叉驗(yàn)證法的方法”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺(jué)得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。