本篇內(nèi)容介紹了“python矩陣分解原理是什么”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
成都創(chuàng)新互聯(lián)公司成立與2013年,先為龍文等服務(wù)建站,龍文等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為龍文企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。
矩陣分解是推薦系統(tǒng)系列中的一種算法,顧名思義,就是將矩陣分解成兩個(gè)(或多個(gè))矩陣,它們相乘后得到原始矩陣。在推薦系統(tǒng)中,我們通常從用戶與項(xiàng)目之間的交互/評(píng)分矩陣開(kāi)始,矩陣分解算法會(huì)將用戶和項(xiàng)目特征矩陣分解,這也稱為嵌入。下面以電影推薦中的評(píng)分,購(gòu)買等矩陣為例。
通常,在數(shù)據(jù)集中,要挖掘用戶和項(xiàng)目屬性的潛在特征。本質(zhì)上,潛在特征是用戶/項(xiàng)目在任意空間中的表示,表示用戶如何評(píng)價(jià)電影。在電影推薦系統(tǒng)的示例中,一個(gè)用戶樣本中包含了他所觀看的多個(gè)電影,潛在特征的值越高,則表示他喜歡該類型的電影,那么就應(yīng)該推薦此類型的電影。
本文所用數(shù)據(jù)來(lái)自kaggle,包含了76000個(gè)用戶樣本。
首先,導(dǎo)入數(shù)據(jù)和有關(guān)庫(kù)。
from recsys import *
from generic_preprocessing import
from IPython.display import HTML ## 以Ipython Notebook顯示
import pandas as pd,numpy as np
anime = pd.read_csv('anime.csv')
ratings = pd.read_csv('rating.csv').iloc[:5000000]
為了創(chuàng)建推薦系統(tǒng),我們需要一個(gè)可交互的矩陣。為此,使用recsys
模塊中的create_interaction_matrix
函數(shù),這個(gè)函數(shù)要求以Pandas的DataFrame類型的數(shù)據(jù)為輸入,輸入數(shù)據(jù)的列必須有諸如用戶id,項(xiàng)目id和評(píng)分等。此函數(shù)的中如果設(shè)置norm=True
,則意味著任何評(píng)分的值都應(yīng)該是正的。在這個(gè)示例中,沒(méi)有必要設(shè)置,因?yàn)閷?shí)際的購(gòu)買數(shù)據(jù)和評(píng)分都是正的。
# 利用評(píng)分?jǐn)?shù)據(jù)創(chuàng)建矩陣
interactions = create_interaction_matrix(df = ratings,
user_col = ‘user_id’,
item_col = ‘a(chǎn)nime_id’,
rating_col = ‘rating’)
interactions.shape
然后用create_user_dict
和create_item_dict
函數(shù)(recsys
模塊)創(chuàng)建關(guān)于用戶和項(xiàng)目的字典。
# 用戶字典
user_dict = create_user_dict(interactions=interactions)
# 項(xiàng)目字典
movies_dict = create_item_dict(df = anime,
id_col = 'anime_id',
name_col = 'name')
用recsys
中的runMF
函數(shù)來(lái)創(chuàng)建矩陣分解模型,這個(gè)函數(shù)的參數(shù):
interaction
:前面所創(chuàng)建的矩陣n_components
:對(duì)于每個(gè)用戶和項(xiàng)目嵌入的數(shù)量loss
:定義一個(gè)損失函數(shù),本例中我們使用warp損失函數(shù),因?yàn)槲覀兏P(guān)心矩陣的秩。epoch
:運(yùn)行的次數(shù)n_jobs
:并行處理中使用的核數(shù)mf_model = runMF(interactions = interactions,
n_components = 30,
loss = 'warp',
epoch = 30,
n_jobs = 4)
“python矩陣分解原理是什么”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!