本篇文章給大家分享的是有關(guān)如何使用scikit-learn機(jī)器學(xué)習(xí)庫做預(yù)測,小編覺得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
為欒城等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計(jì)制作服務(wù),及欒城網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為網(wǎng)站制作、網(wǎng)站建設(shè)、欒城網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!
scikit-learn是基于Python的一個(gè)機(jī)器學(xué)習(xí)庫,你可以在scikit-learn庫中選擇合適的模型,使用它訓(xùn)練數(shù)據(jù)集并對新數(shù)據(jù)集作出預(yù)測。
對于初學(xué)者來說,有一個(gè)共同的困惑:
怎么使用scikit-learn庫中的模型做預(yù)測
廢話少說,讓我們開始吧!
模型選擇是機(jī)器學(xué)習(xí)的第一步。
你可以使用K折交叉驗(yàn)證或者分割訓(xùn)練集/測試集的方法處理數(shù)據(jù)集,并用來訓(xùn)練模型。這樣做為了能夠讓訓(xùn)練出來的模型對新數(shù)據(jù)集做出預(yù)測。
還要判斷該問題是分類問題還是回歸問題,分類問題預(yù)測的是類別、標(biāo)簽,一般來說是二分類即(0,1),比如是否下雨。回歸問題預(yù)測的是連續(xù)的數(shù)值,比如股票的價(jià)格。
分類問題是指模型學(xué)習(xí)輸入特征和輸出標(biāo)簽之間的映射關(guān)系,然后對新的輸入預(yù)測標(biāo)簽。拿識別垃圾郵件舉例,輸入的是郵件的文本、時(shí)間、標(biāo)題等等特征,而輸出的則是垃圾郵件和非垃圾郵件兩個(gè)標(biāo)簽。模型通過訓(xùn)練數(shù)據(jù)集,學(xué)習(xí)特征與標(biāo)簽的關(guān)系,才能做出預(yù)測。
下面給出一個(gè)簡單的,針對二進(jìn)制分類問題的LogisticRegression(邏輯回歸)模型代碼示例。
雖然我們用的是LogisticRegression(邏輯回歸)分類模型解決問題,但scikit-learn中的其它分類模型同樣適用。
# 導(dǎo)入LogisticRegression方法
from sklearn.linear_model import LogisticRegression
# 導(dǎo)入數(shù)據(jù)生成器
from sklearn.datasets.samples_generator import make_blobs
# 生成2維數(shù)據(jù),類別是2類
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# 訓(xùn)練模型
model = LogisticRegression()
model.fit(X, y)
注:make_blobs為聚類數(shù)據(jù)生成器
這里特別介紹兩種分類預(yù)測的模型,類別預(yù)測和概率預(yù)測。
1、類別預(yù)測
類別預(yù)測:給定模型并訓(xùn)練數(shù)據(jù)實(shí)例后,通過scikit-learn的predict()函數(shù)預(yù)測新數(shù)據(jù)實(shí)例的類別。
比如,Xnew數(shù)組中有一個(gè)或多個(gè)數(shù)據(jù)實(shí)例,這個(gè)數(shù)組可以傳遞給predict()函數(shù),用來預(yù)測每個(gè)實(shí)例的類別。
Xnew = [[...], [...]]
ynew = model.predict(Xnew)
輸入代碼:
# 類別預(yù)測案例
from sklearn.linear_model import LogisticRegression
from sklearn.datasets.samples_generator import make_blobs
# 生成數(shù)據(jù)集,有100個(gè)實(shí)列即100行,目標(biāo)類別有2個(gè):(0,1)
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# 擬合模型
model = LogisticRegression()
model.fit(X, y)
# 生成新的預(yù)測數(shù)據(jù)集,有3個(gè)實(shí)例。這里的新實(shí)例可以為1個(gè)或多個(gè)
Xnew, _ = make_blobs(n_samples=3, centers=2, n_features=2, random_state=1)
# 開始預(yù)測
ynew = model.predict(Xnew)
# 展示類別的預(yù)測結(jié)果
print('預(yù)測類別:')
for i in range(len(Xnew)):
print("X=%s, Predicted=%s" % (Xnew[i], ynew[i]))
# 展示數(shù)據(jù)集真實(shí)類別
print('真實(shí)類別:')
for i in range(len(Xnew)):
print("X=%s, Predicted=%s" % (Xnew[i], _[i]))
輸出結(jié)果:
預(yù)測類別:
X=[-0.79415228 2.10495117], Predicted=0
X=[-8.25290074 -4.71455545], Predicted=1
X=[-2.18773166 3.33352125], Predicted=0
真實(shí)類別:
X=[-0.79415228 2.10495117], Real=0
X=[-8.25290074 -4.71455545], Real=1
X=[-2.18773166 3.33352125], Real=0
可以看到,預(yù)測值和真實(shí)值一樣,說明準(zhǔn)確率100%。
關(guān)于字符串類別標(biāo)簽的小提示
有時(shí)候,數(shù)據(jù)集的類別可能是字符串,比如(是,否)、(熱,冷)等,但模型并不接受字符串輸入輸出,必須將字符串類別轉(zhuǎn)化為整數(shù)的形式,比如(1,0)對應(yīng)(是,否)。
scikit-learn提供LabelEncoder函數(shù),用以將字符串轉(zhuǎn)換為整數(shù)。
2、概率預(yù)測
另一種分類模型是預(yù)測數(shù)據(jù)實(shí)例屬于每個(gè)類別的概率,如果有2個(gè)類別(0,1),則預(yù)測輸出值為0的概率和1概率。
比如,Xnew數(shù)組中有一個(gè)或多個(gè)數(shù)據(jù)實(shí)例,這個(gè)數(shù)組可以傳遞給predict_proba()函數(shù),用來預(yù)測每個(gè)實(shí)例的類別。
Xnew = [[...], [...]]
ynew = model.predict_proba(Xnew)
概率預(yù)測只適用于能夠進(jìn)行概率預(yù)測的模型,大多數(shù)(不是全部)模型可以做到。
下面的例子,通過訓(xùn)練好的模型對Xnew數(shù)組中的每個(gè)實(shí)例進(jìn)行概率預(yù)測。
輸入代碼:
# 概率預(yù)測案例
from sklearn.linear_model import LogisticRegression
from sklearn.datasets.samples_generator import make_blobs
# 生成數(shù)據(jù)集,有100個(gè)實(shí)列即100行,目標(biāo)類別有2個(gè):(0,1)
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# 訓(xùn)練模型
model = LogisticRegression()
model.fit(X, y)
# 生成新的預(yù)測集,有3個(gè)實(shí)例即3行
Xnew, _ = make_blobs(n_samples=3, centers=2, n_features=2, random_state=1)
# 開始預(yù)測
ynew = model.predict_proba(Xnew)
# 展示預(yù)測的類別概率,分別生成為0的概率和為1的概率
print('預(yù)測的類別概率:')
for i in range(len(Xnew)):
print("X=%s, Predicted=%s" % (Xnew[i], ynew[i]))
print('真實(shí)類別:')
for i in range(len(Xnew)):
print("X=%s, Predicted=%s" % (Xnew[i], _[i]))
輸出結(jié)果:
預(yù)測的類別概率:
X=[-0.79415228 2.10495117], Predicted=[0.94556472 0.05443528]
X=[-8.25290074 -4.71455545], Predicted=[3.60980873e-04 9.99639019e-01]
X=[-2.18773166 3.33352125], Predicted=[0.98437415 0.01562585]
真實(shí)類別:
X=[-0.79415228 2.10495117], Real=0
X=[-8.25290074 -4.71455545], Real=1
X=[-2.18773166 3.33352125], Real=0
概率預(yù)測的輸出可以理解為:輸出每個(gè)類別的概率,有多少個(gè)類別就有多少個(gè)概率值。
回歸預(yù)測和分類預(yù)測一樣,都是一種監(jiān)督學(xué)習(xí)。通過訓(xùn)練給定的示例即訓(xùn)練集,模型學(xué)習(xí)到輸入特征和輸出值之間的映射關(guān)系,如輸出值為0.1,0.4,0.8......
下面代碼用的最常見的LinearRegression線性回歸預(yù)測模型,當(dāng)然你也可以用其它所有回歸模型來實(shí)踐它。
輸入代碼:
# 線性回歸預(yù)測案例
# 導(dǎo)入相關(guān)方法
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
# 生成隨機(jī)回歸訓(xùn)練數(shù)據(jù)集,有100個(gè)實(shí)列即100行
X, y = make_regression(n_samples=100, n_features=2, noise=0.1, random_state=1)
# 擬合模型
model = LinearRegression()
model.fit(X, y)
# 生成新的預(yù)測集,有3個(gè)實(shí)例即3行
Xnew, _ = make_regression(n_samples=3, n_features=2, noise=0.1, random_state=1)
# 開始預(yù)測
ynew = model.predict(Xnew)
# 展示預(yù)測的值
print('預(yù)測值:')
for i in range(len(Xnew)):
print("X=%s, Predicted=%s" % (Xnew[i], ynew[i]))
# 展示真實(shí)的值
print('真實(shí)值:')
for i in range(len(Xnew)):
print("X=%s, Real=%s" % (Xnew[i], _[i]))
注:make_regression函數(shù)為隨機(jī)回歸數(shù)據(jù)集生成器
輸出結(jié)果:
預(yù)測值:
X=[-1.07296862 -0.52817175], Predicted=-80.24979831685631
X=[-0.61175641 1.62434536], Predicted=120.64928064345101
X=[-2.3015387 0.86540763], Predicted=0.5518357031232064
真實(shí)值:
X=[-1.07296862 -0.52817175], Real=-95.68750948023445
X=[-0.61175641 1.62434536], Real=26.204828091429512
X=[-2.3015387 0.86540763], Real=-121.28229571474058
小編分別用scikit-learn庫中的分類模型和回歸模型做了預(yù)測,并解釋了這兩種預(yù)測模型的區(qū)別,你也可以探索其它相關(guān)函數(shù)并實(shí)現(xiàn)文中的案例。
以上就是如何使用scikit-learn機(jī)器學(xué)習(xí)庫做預(yù)測,小編相信有部分知識點(diǎn)可能是我們?nèi)粘9ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。