項(xiàng)目背景
目前成都創(chuàng)新互聯(lián)公司已為上千余家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)頁(yè)空間、網(wǎng)站托管運(yùn)營(yíng)、企業(yè)網(wǎng)站設(shè)計(jì)、葫蘆島網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。一個(gè)同學(xué)開了間影視投資公司,出于對(duì)創(chuàng)業(yè)人員的仰慕和影視投資行業(yè)的好奇,我就跟他寒暄了幾句,聊天當(dāng)中他提及到國(guó)慶節(jié)有部《攀登者》即將上映,預(yù)計(jì)票房會(huì)大好,因?yàn)閰蔷┦沁@部片的主演。然后我就想,目前吳京在國(guó)內(nèi)演員中位列幾何呢?正好之前爬了貓眼電影數(shù)據(jù),基于Python數(shù)據(jù)分析的方式,分析中國(guó)演員排名情況。
數(shù)據(jù)導(dǎo)入
導(dǎo)入之前爬取到的貓眼數(shù)據(jù),由于爬取過(guò)程不是本文的主要內(nèi)容,所以簡(jiǎn)單描述下數(shù)據(jù)情況:20110101至20191019年在中國(guó)上映,并且有用戶評(píng)分和票房的影片,總共是2923部。
import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.cluster import KMeans pd.set_option('display.max_columns', None) pd.set_option('display.max_rows', None) # 加載數(shù)據(jù) def load_data(): # 加載電影票房 open_filepath = 'D:\pythondata\\3、貓眼電影\\box_result.csv' movie_box = pd.read_csv(open_filepath) movie_box = movie_box[['電影id', '電影名稱','首映日期','總票房']].drop_duplicates() # 加載電影信息 open_filepath = 'D:\pythondata\\3、貓眼電影\\maoyan_movie.xlsx' movie_message = pd.read_excel(open_filepath,sheet_name='maoyan_movie') movie_message.columns = ['電影url','電影名稱','電影題材','國(guó)家','上映時(shí)間','用戶評(píng)分','電影簡(jiǎn)介','導(dǎo)演/演員/編劇'] movie_message = movie_message[['電影url','電影題材','國(guó)家','用戶評(píng)分','導(dǎo)演/演員/編劇']].copy() movie_message.drop_duplicates(inplace=True) movie_message['電影id'] = movie_message.apply(lambda x:x['電影url'].replace('https://maoyan.com/films/',''),axis=1) movie_message[['電影id']] = movie_message[['電影id']].apply(pd.to_numeric) # 合并電影信息和票房 data = pd.merge(movie_box,movie_message,how='inner',on=['電影id']) return data