這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)碛嘘P(guān)使用python怎么實(shí)現(xiàn)一個(gè)協(xié)同過濾算法,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
創(chuàng)新互聯(lián)公司制作網(wǎng)站網(wǎng)頁找三站合一網(wǎng)站制作公司,專注于網(wǎng)頁設(shè)計(jì),成都網(wǎng)站設(shè)計(jì)、網(wǎng)站制作,網(wǎng)站設(shè)計(jì),企業(yè)網(wǎng)站搭建,網(wǎng)站開發(fā),建網(wǎng)站業(yè)務(wù),680元做網(wǎng)站,已為數(shù)千家服務(wù),創(chuàng)新互聯(lián)公司網(wǎng)站建設(shè)將一如既往的為我們的客戶提供最優(yōu)質(zhì)的網(wǎng)站建設(shè)、網(wǎng)絡(luò)營銷推廣服務(wù)!代碼
import pandas as pd import numpy as np import math import os import time import datetime os.chdir(r'f:\zxx\pthon_work\CF') def loadData(): #讀入movies.dat, rating.dat,tags.dat #mnames=['movie_id','title','genres'] #movies=pd.read_table(r'.\data\movies.dat',sep='::',header=None,names=mnames) rnames=['UserID','MovieID','Rating','Timestamp'] all_ratings=pd.read_table(r'.\data\ratings.dat',sep='::',header=None,names=rnames,nrows=300000) #tnames=['UserID','MovieID','Tag','Timestamp'] #tags=pd.read_table(r'.\data\tags.dat',sep='::',header=None,names=tnames) return all_ratings #數(shù)據(jù)探索:rating def data_alay(ratings): """rating nums10000054, 3, 示例 : 1 122 5 838985046 col:'UserID','MovieID','Rating','Timestamp' """ #一個(gè)用戶只對一個(gè)電影打分一次 UR=ratings.groupby([ratings['UserID'],ratings['MovieID']]) len(UR.size) #計(jì)算每部電影的平均打分,電影數(shù)10677 def avgRating(ratings): movies_mean=ratings['Rating'].groupby(ratings['MovieID']).mean()#計(jì)算所有用戶對電影X的平均打分 movies_id=movies_mean.index movies_avg_rating=movies_mean.values return movies_id,movies_avg_rating,movies_mean #計(jì)算電影相似度矩陣相,即建立10677*10677矩陣 def calculatePC(ratings): movies_id,movies_avg_rating,movies_mean=avgRating(ratings) #pc_mat=np.eye(3)#建立電影相似度單位矩陣 pc_dic={} top_movie=len(movies_id) for i in range(0,top_movie): for j in range(i+1,top_movie): movieAID=movies_id[i] movieBID=movies_id[j] see_moviesA_user=ratings['UserID'][ratings['MovieID']==movieAID] see_moviesB_user=ratings['UserID'][ratings['MovieID']==movieBID] join_user=np.intersect1d(see_moviesA_user.values,see_moviesB_user.values)#同時(shí)給電影A、B評分的用戶 movieA_avg=movies_mean[movieAID] movieB_avg=movies_mean[movieBID] key1=str(movieAID)+':'+str(movieBID) key2=str(movieBID)+':'+str(movieAID) value=twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings) pc_dic[key1]=value pc_dic[key2]=value #pc_mat[i][i+1]=twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings) #print ('---the %s, %d,%d:--movie %s--%s--pc is %f' % (key1,movieAID,movieBID,movieAID,movieBID,pc_dic[key1])) return pc_dic #計(jì)算電影A與電影B的相似度,皮爾森相似度=sum(A-A^)*sum(B-B^)/sqrt(sum[(A-A^)*(A-A^)]*sum[(B-B^)*(B-B^)]) def twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings): cent_AB_sum=0.0#相似度分子 centA_sum=0.0#分母 centB_sum=0.0#分母 movieAB_pc=0.0#電影A,B的相似度 count=0 for u in range(len(join_user)): #print '---------',u count=count+1 ratA=ratings['Rating'][ratings['UserID']==join_user[u]][ratings['MovieID']==movieAID].values[0]#用戶給電影A評分 ratB=ratings['Rating'][ratings['UserID']==join_user[u]][ratings['MovieID']==movieBID].values[0]#用戶給電影B評分 cent_AB=(ratA-movieA_avg)*(ratB-movieB_avg) #去均值中心化 centA_square=(ratA-movieA_avg)*(ratA-movieA_avg) #去均值平方 centB_square=(ratB-movieB_avg)*(ratB-movieB_avg)#去均值平方 cent_AB_sum=cent_AB_sum+cent_AB centA_sum=centA_sum+centA_square centB_sum=centB_sum+centB_square if(centA_sum>0 and centB_sum>0 ): movieAB_pc=cent_AB_sum/math.sqrt(centA_sum*centB_sum) return movieAB_pc """ 預(yù)測用戶U對那些電影感興趣。分三步, 1)用戶U過去X天看過的電影。 2)提出用戶U已看過的電影,根據(jù)用戶U過去看過的電影,計(jì)算用戶U對其他電影的打分. 3) 拉去打分最高的的電影給用戶推薦。 預(yù)測用戶U對電影C的打分。分三步:(先只做這個(gè)) 1)用戶U過去X天看過的電影。 2)利用加權(quán)去中心化公式預(yù)測用戶U對電影C的打分. """ #日期處理: -3天,然后轉(zhuǎn)換為uinxtime def timePro(last_rat_time,UserU): lastDate= datetime.datetime.fromtimestamp(last_rat_time[UserU]) #unix轉(zhuǎn)為日期 date_sub3=lastDate+datetime.timedelta(days=-3)#減去3天 unix_sub3=time.mktime(date_sub3.timetuple())#日期轉(zhuǎn)為unix return unix_sub3 #取用戶最后一次評分前3天評估的電影進(jìn)行預(yù)測 def getHisRat(ratings,last_rat_time,UserUID): unix_sub3= timePro(last_rat_time,UserUID) UserU_info=ratings[ratings['UserID']==UserUID][ratings['Timestamp']>unix_sub3] return UserU_info #預(yù)測用戶U對電影C的打分 def hadSeenMovieByUser(UserUID,MovieA,ratings,pc_dic,movies_mean): pre_rating=0.0 last_rat_time=ratings['Timestamp'].groupby([ratings['UserID']]).max()#獲取用戶U最近一次評分日期 UserU_info= getHisRat(ratings,last_rat_time,UserUID)#獲取用戶U過去看過的電影 flag=0#表示新電影,用戶U是否給電影A打過分 wmv=0.0#相似度*mv平均打分去均值后之和 w=0.0#相似度之和 movie_userU=UserU_info['MovieID'].values#當(dāng)前用戶看過的電影 if MovieA in movie_userU: flag=1 pre_rating=UserU_info['Rating'][UserU_info['MovieID']==MovieA].values else: for mv in movie_userU: key=str(mv)+':'+str(MovieA) rat_U_mv=UserU_info['Rating'][UserU_info['MovieID']==mv][UserU_info['UserID']==UserUID].values#用戶U對看過電影mv的打分 wmv=(wmv+pc_dic[key]*(rat_U_mv-movies_mean[mv]))#相似度*mv平均打分去均值后之和 w=(w+pc_dic[key])#看過電影與新電影相似度之和 #print ('---have seen mv %d with new mv %d,%f,%f'%(mv,MovieA,wmv,w)) pre_rating=(movies_mean[MovieA]+wmv/w) print ('-flag:%d---User:%d rating movie:%d with %f score----' %(flag,UserUID,MovieA,pre_rating)) return pre_rating,flag if __name__=='__main__': all_ratings=loadData() movie_num=100#控制電影數(shù),只針對電影ID在該范圍的數(shù)據(jù)進(jìn)行計(jì)算,否則數(shù)據(jù)量太大 ratings=all_ratings[all_ratings['MovieID']<=movie_num] movies_id,movies_avg_rating,movies_mean=avgRating(ratings) pc_dic=calculatePC(ratings)#電影相似度矩陣 #預(yù)測 UserUID=10#當(dāng)前數(shù)據(jù)集只看過電影4,7, MovieA=6 pre_rating,flag=hadSeenMovieByUser(UserUID,MovieA,ratings,pc_dic,movies_mean) "-----------------測試ID提取------------------" #選取UserUID ratings.head(10)#從前10行中隨機(jī)選取一個(gè)用戶ID,例如:UserID=10 #查看該用戶在當(dāng)前數(shù)據(jù)集中看過那些電影,方便選取新電影(防止選擇的是用戶已經(jīng)看過的電影) ratings[ratings['UserID']==10]#該用戶在當(dāng)前數(shù)據(jù)集中,只看過電影MovieID in(4,7),則可選擇不是4,7的電影ID進(jìn)行預(yù)測,例如6.
上述就是小編為大家分享的使用python怎么實(shí)現(xiàn)一個(gè)協(xié)同過濾算法了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。