真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率-創(chuàng)新互聯(lián)

這篇文章將為大家詳細(xì)講解有關(guān)使用python怎么預(yù)測(cè)廣告點(diǎn)擊率,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。

創(chuàng)新互聯(lián)公司服務(wù)項(xiàng)目包括茌平網(wǎng)站建設(shè)、茌平網(wǎng)站制作、茌平網(wǎng)頁(yè)制作以及茌平網(wǎng)絡(luò)營(yíng)銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,茌平網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到茌平省份的部分城市,未來相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!

數(shù)據(jù)

可以在這里下載移動(dòng)廣告點(diǎn)擊數(shù)據(jù),由于總數(shù)據(jù)量達(dá)到了4千多萬(wàn)條,數(shù)據(jù)量過于龐大,為了不影響我們的計(jì)算速度,因此我們要從中隨機(jī)抽樣100萬(wàn)條數(shù)據(jù),同時(shí)我們要對(duì)數(shù)據(jù)的相關(guān)字段類型進(jìn)行重置,這有助于我們以后的計(jì)算以及可視化。

types_train = {
  'id': np.dtype(int), 
  'click': np.dtype(int),    #是否點(diǎn)擊,1表示被點(diǎn)擊,0表示沒被點(diǎn)擊
  'hour': np.dtype(int),    #廣告被展現(xiàn)的日期+時(shí)間
  'C1': np.dtype(int),     #匿名分類變量
  'banner_pos': np.dtype(int), #廣告位置
  'site_id': np.dtype(str),   #站點(diǎn)Id
  'site_domain': np.dtype(str), #站點(diǎn)域名
  'site_category': np.dtype(str), #站點(diǎn)分類
  'app_id': np.dtype(str),    # appId 
  'app_domain': np.dtype(str),  # app域名
  'app_category': np.dtype(str), # app分類
  'device_id': np.dtype(str),   #設(shè)備Id
  'device_ip': np.dtype(str),   #設(shè)備Ip
  'device_model': np.dtype(str), #設(shè)備型號(hào)
  'device_type': np.dtype(int),  #設(shè)備型號(hào)
  'device_conn_type': np.dtype(int),
  'C14': np.dtype(int),  #匿名分類變量
  'C15': np.dtype(int),  #匿名分類變量
  'C16': np.dtype(int),  #匿名分類變量
  'C17': np.dtype(int),  #匿名分類變量
  'C18': np.dtype(int),  #匿名分類變量
  'C19': np.dtype(int),  #匿名分類變量
  'C20': np.dtype(int),  #匿名分類變量
  'C21':np.dtype(int)  #匿名分類變量
}
 
n = 40428967 #數(shù)據(jù)集中的記錄總數(shù)
sample_size = 1000000
skip_values = sorted(random.sample(range(1,n), n-sample_size)) 
parse_date = lambda val : pd.datetime.strptime(val, '%y%m%d%H')
 
with gzip.open('./data/ctr/train.gz') as f:
  train = pd.read_csv(f, parse_dates = ['hour'], date_parser = parse_date, dtype=types_train, skiprows = skip_values)
print(len(train))
train.head()

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

特征工程

接下來我們要做的就是數(shù)據(jù)的探索性分析(EDA)和特征工程(Feature Engineering),首先我們要確定哪些目標(biāo)變量,哪些是特征變量,根據(jù)kaggle中對(duì)數(shù)據(jù)的描述信息中我們可知,目標(biāo)變量就是"click"字段它表示廣告是否被點(diǎn)擊過(1表示被點(diǎn)擊,0未被點(diǎn)擊),其余所有的字段都是特征變量。在特征變量中C1,C14~C21表示匿名的分類變量(我們不知道它的含義),其余的特征變量都是和站點(diǎn),app,設(shè)備相關(guān)的變量。我們搞清了變量的大概含義以后,接下來我們要分析一下目標(biāo)變量"click",首先看看它的數(shù)據(jù)分布情況:

print(train['click'].value_counts())
print()
print(train['click'].value_counts()/len(train))
 
sns.countplot(x='click',data=train, palette='hls')
plt.show()

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率  

 在“click”變量的統(tǒng)計(jì)數(shù)據(jù)中,點(diǎn)擊的數(shù)量大約占17%,未點(diǎn)擊的數(shù)量大約占83%。也就是說廣告的平均點(diǎn)擊率大概是在17%左右。

接下來我們來分析另外一個(gè)關(guān)鍵的特征變量:hour,它可能表示廣告被展現(xiàn)的日期+時(shí)間,我們要看看不同的日期和時(shí)間對(duì)廣告點(diǎn)擊量的影響:

print(train.hour.describe())
 
train.groupby('hour').agg({'click':'sum'}).plot(figsize=(12,6))
plt.ylabel('點(diǎn)擊量')
plt.title('時(shí)間和點(diǎn)擊量')

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

由上面的統(tǒng)計(jì)結(jié)果可知數(shù)據(jù)的開始時(shí)間是2014-10-21 00:00:00,結(jié)束時(shí)間是2014-10-30 23:00:00,一共10天,點(diǎn)擊量高峰的時(shí)刻是在10月22日和10月28日這兩天,10月24日點(diǎn)擊量最低。

對(duì)Hour的特征工程

我們知道hour變量包含了具體的日期和時(shí)間,接下來我們想知道點(diǎn)擊量和具體的時(shí)間是什么關(guān)系,此時(shí)我們忽略日期,只關(guān)注具體時(shí)間和點(diǎn)擊量。接下來我們從hour變量中抽取時(shí)間,然后查看時(shí)間和點(diǎn)擊量之間的關(guān)系:

train['time'] = train.hour.apply(lambda x: x.hour)
train.sample(5)

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

train.groupby('time').agg({'click':'sum'}).plot(figsize=(12,6),grid=True)
plt.ylabel('點(diǎn)擊次數(shù)')
plt.title('時(shí)間和點(diǎn)擊量')

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

我們看到點(diǎn)擊量的高峰大約是在每天下午的13點(diǎn)到14點(diǎn)之間 ,點(diǎn)擊量的最低點(diǎn)是在每天的零點(diǎn)左右。這應(yīng)該是合理的,因?yàn)橄挛?點(diǎn)到2點(diǎn)應(yīng)該是人們精力最旺盛的時(shí)候,而晚上零點(diǎn)大部分人都進(jìn)入了夢(mèng)鄉(xiāng)。

接下來我們要查看一下在不同的時(shí)間點(diǎn)的情況下,廣告的展現(xiàn)量和點(diǎn)擊量的關(guān)系:

train.groupby(['time', 'click']).size().unstack().plot(kind='bar', figsize=(12,6))
plt.ylabel('數(shù)量')
plt.title('展現(xiàn)量與點(diǎn)擊量');

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

 我們將時(shí)間按每個(gè)時(shí)間點(diǎn)展開,這里沒有特別之處下午1點(diǎn)的展現(xiàn)量大,所以點(diǎn)擊量也是大,我們發(fā)現(xiàn)展現(xiàn)量和點(diǎn)擊量似乎是成正比的。這似乎也告訴我們,如果您要投放在線廣告,請(qǐng)?jiān)谙挛?點(diǎn)至2點(diǎn)之間投放,因?yàn)榇藭r(shí)廣告的展現(xiàn)量和點(diǎn)擊量都是大的。

接下來我們來計(jì)算一下各個(gè)時(shí)間點(diǎn)的廣告點(diǎn)擊率,并查看點(diǎn)擊率的數(shù)據(jù)分布。

df_click = train[train['click'] == 1]
df_hour = train[['time','click']].groupby(['time']).count().reset_index()
df_hour = df_hour.rename(columns={'click': 'impressions'})
df_hour['clicks'] = df_click[['time','click']].groupby(['time']).count().reset_index()['click']
df_hour['CTR'] = df_hour['clicks']/df_hour['impressions']*100
df_hour.head()

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

plt.figure(figsize=(12,6))
sns.barplot(y='CTR', x='time', data=df_hour)
plt.title('點(diǎn)擊率的時(shí)間分布')

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

在這里我們發(fā)現(xiàn)了一件有趣的事,廣告點(diǎn)擊率最高的時(shí)間點(diǎn)居然在凌晨1點(diǎn),上午7點(diǎn),下午16點(diǎn),而從之前的分析中我知道廣告展現(xiàn)量最高的時(shí)間點(diǎn)是在下午的13點(diǎn), 但是從上圖中我們可知13點(diǎn)的廣告點(diǎn)擊率并非是最高的。這似乎說明高的展現(xiàn)量和高的點(diǎn)擊量并不意味著就有高的點(diǎn)擊率。凌晨1點(diǎn)上網(wǎng)的“夜游神”們才是點(diǎn)擊率的真正貢獻(xiàn)者。

按星期特征工程

前面我們我們已經(jīng)分別實(shí)現(xiàn)了按日期和按時(shí)間兩種方式來分析點(diǎn)擊率,接下來我們?cè)倮^續(xù)擴(kuò)展對(duì)hour變量的分析,這回我們要按星期來分析點(diǎn)擊率。我們首先要把hour變量轉(zhuǎn)換成星期。

train['day_of_week'] = train['hour'].apply(lambda val: val.weekday_name)
cats = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
train.groupby('day_of_week').agg({'click':'sum'}).reindex(cats).plot(figsize=(12,6))
ticks = list(range(0, 7, 1)) 
labels = "周一 周二 周三 周四 周五 周六 周日".split()
plt.xticks(ticks, labels)
plt.title('星期的點(diǎn)擊量')

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

train.groupby(['day_of_week','click']).size().unstack().reindex(cats).plot(kind='bar', title="Day of the Week", figsize=(12,6))
ticks = list(range(0, 7, 1)) 
labels = "周一 周二 周三 周四 周五 周六 周日".split()
plt.xticks(ticks, labels)
plt.title('星期的展現(xiàn)量和點(diǎn)擊量分布')

 使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

 從上圖可知星期二的展現(xiàn)量和點(diǎn)擊量是最高的,接下來是星期三和星期四,不過展現(xiàn)量和點(diǎn)擊量較高并不意味著點(diǎn)擊率也較高,因此接下來我們要按星期來計(jì)算一下點(diǎn)擊率。

df_click = train[train['click'] == 1]
df_dayofweek = train[['day_of_week','click']].groupby(['day_of_week']).count().reset_index()
df_dayofweek = df_dayofweek.rename(columns={'click': 'impressions'})
df_dayofweek['clicks'] = df_click[['day_of_week','click']].groupby(['day_of_week']).count().reset_index()['click']
df_dayofweek['CTR'] = df_dayofweek['clicks']/df_dayofweek['impressions']*100
 
plt.figure(figsize=(12,6))
sns.barplot(y='CTR', x='day_of_week', data=df_dayofweek, order=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'])
plt.title('星期的點(diǎn)擊率')

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

通過之前的我們知道星期二和星期三有著最高的展現(xiàn)量和點(diǎn)擊量,可是他們的點(diǎn)擊率卻是最低的。相反星期六和星期天卻有著最高的點(diǎn)擊率。這是否說明星期六和星期天是人民群眾最空閑的時(shí)候,有了空閑時(shí)間大家才會(huì)想到去購(gòu)物,所以廣告的點(diǎn)擊率才會(huì)是最高的?

通過對(duì)數(shù)據(jù)的嚴(yán)謹(jǐn)分析,我們就會(huì)從中發(fā)現(xiàn)人民群眾的日常行為舉止以及他們的活動(dòng)規(guī)律都會(huì)在數(shù)據(jù)中得到體現(xiàn),只要你足夠努力,就可以讓數(shù)據(jù)說話!

匿名特征變量C1

C1是一個(gè)匿名的分類型變量,我們不知道它的含義,我們先查看一下c1的數(shù)據(jù)分布

print(train.C1.value_counts()/len(train))

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

 因?yàn)镃1是分類型變量,它的值包含了1005,1002,1010,1012,1007,1001,1008七種,其中1005的所占比例高達(dá)91.87%,接下來我們看看C1的不同的值對(duì)點(diǎn)擊率的貢獻(xiàn)

C1_values = train.C1.unique()
C1_values.sort()
ctr_avg_list=[]
for i in C1_values:
  ctr_avg=train.loc[np.where((train.C1 == i))].click.mean()
  ctr_avg_list.append(ctr_avg)
  print(" C1 value: {}, 點(diǎn)擊率: {}".format(i,ctr_avg))

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

 從上面的統(tǒng)計(jì)結(jié)果可知,雖然1005數(shù)據(jù)量所占比重最高,但是它的點(diǎn)擊率并不是最高,1002的點(diǎn)擊率最高達(dá)到了21.3%。接下來我們看一下C1的展現(xiàn)量和點(diǎn)擊量的分布

train.groupby(['C1', 'click']).size().unstack().plot(kind='bar', figsize=(12,6), title='C1 展現(xiàn)量和點(diǎn)擊量分布');

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

 從上圖可知,1005的展現(xiàn)量和點(diǎn)擊量是最高的,但這并不意味著點(diǎn)擊率也是最高的,下面我們看一下C1的點(diǎn)擊率的分布

df_c1 = train[['C1','click']].groupby(['C1']).count().reset_index()
df_c1 = df_c1.rename(columns={'click': 'impressions'})
df_c1['clicks'] = df_click[['C1','click']].groupby(['C1']).count().reset_index()['click']
df_c1['CTR'] = df_c1['clicks']/df_c1['impressions']*100
 
plt.figure(figsize=(12,6))
sns.barplot(y='CTR', x='C1', data=df_c1)
plt.title('C1的點(diǎn)擊率分布')

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

我們看到點(diǎn)擊率最高的并不是1005,而是1002. 它的點(diǎn)擊率達(dá)到了21%,下面我們總結(jié)一下C1數(shù)據(jù)量和點(diǎn)擊率的分布:

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

從上表中我們可以看出,1002的數(shù)據(jù)比例是5.5%,它貢獻(xiàn)的點(diǎn)擊率為21.33%遠(yuǎn)大于17%的平均點(diǎn)擊率,1002的數(shù)據(jù)比例為0.28%卻貢獻(xiàn)了17.66%的點(diǎn)擊率,1008的數(shù)據(jù)比例是0.01%,它貢獻(xiàn)了14.84%的點(diǎn)擊率,性價(jià)比非常高。

banner_pos

banner_pos表示廣告在網(wǎng)頁(yè)中的位置,廣告擺放在網(wǎng)頁(yè)的不同位置可能會(huì)帶來不同的點(diǎn)擊量和點(diǎn)擊量,下面我們就來分析一下banner_pos這個(gè)分類型變量。首先我們查看一下banner_pos的數(shù)據(jù)分布

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

從上面的統(tǒng)計(jì)結(jié)果可知banner_pos包含了7個(gè)值,它可能代表網(wǎng)頁(yè)中的7個(gè)不同位置,其中位置0和位置1占據(jù)了機(jī)會(huì)99%的數(shù)據(jù)比例,也就是說絕大多數(shù)廣告都房子了位置0或者位置1的地方。

下面我們看看不同位置對(duì)點(diǎn)擊率的貢獻(xiàn):

banner_pos = train.banner_pos.unique()
banner_pos.sort()
ctr_avg_list=[]
for i in banner_pos:
  ctr_avg=train.loc[np.where((train.banner_pos == i))].click.mean()
  ctr_avg_list.append(ctr_avg)
  print(" banner 位置: {}, 點(diǎn)擊率: {}".format(i,ctr_avg))

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

位置0和位置1的點(diǎn)擊率分別為16.4%和18.3%,它們的點(diǎn)擊率并不是最高。位置7和位置3的點(diǎn)擊率分別達(dá)到了31%和21%,它們的點(diǎn)擊率要比位置1和位置0高很多。

train.groupby(['banner_pos', 'click']).size().unstack().plot(kind='bar', figsize=(12,6), title='banner 位置的廣告展現(xiàn)量和點(diǎn)擊量的分布')

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

下面我們?cè)倏匆幌耣anner_pos的點(diǎn)擊率的分布

df_banner = train[['banner_pos','click']].groupby(['banner_pos']).count().reset_index()
df_banner = df_banner.rename(columns={'click': 'impressions'})
df_banner['clicks'] = df_click[['banner_pos','click']].groupby(['banner_pos']).count().reset_index()['click']
df_banner['CTR'] = df_banner['clicks']/df_banner['impressions']*100
sort_banners = df_banner.sort_values(by='CTR',ascending=False)['banner_pos'].tolist()
plt.figure(figsize=(12,6))
sns.barplot(y='CTR', x='banner_pos', data=df_banner, order=sort_banners)
plt.title('banner 位置的點(diǎn)擊率的分布')

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

 從上圖可知位置7和位置3的點(diǎn)擊率是最高的,但是他們的數(shù)據(jù)比例并不是最多的,相反位置0和位置1的數(shù)據(jù)比例,展現(xiàn)量和點(diǎn)擊量都是最高的,但是他們的點(diǎn)擊率并非最高。

device_type

device_type表示設(shè)備類型,廣告可能會(huì)在多種設(shè)備上展示,下面我們看一下device_type的數(shù)據(jù)分布

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

我們看到一共有4種設(shè)備,其中設(shè)備1所占比例大達(dá)到了92%, 絕大多數(shù)廣告都是在設(shè)備1上展示的。下面我們看一下展現(xiàn)量和點(diǎn)擊量的分布

train[['device_type','click']].groupby(['device_type','click']).size().unstack().plot(kind='bar', title='設(shè)備類型')

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

我們看到設(shè)備1上的廣告展現(xiàn)量和點(diǎn)擊量都是大的。其他設(shè)備的展現(xiàn)量和點(diǎn)擊量相對(duì)較少。為此我們要詳細(xì)分析一下設(shè)備1上的點(diǎn)擊量的情況,我們按照不同的時(shí)間點(diǎn)對(duì)設(shè)備1的點(diǎn)擊量進(jìn)行一下分析。

df_click[df_click['device_type']==1].groupby(['time', 'click'])\
                   .size().unstack()\
                   .plot(kind='bar', title="設(shè)備1的點(diǎn)擊量分布", figsize=(12,6))

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

從上圖可知,設(shè)備1上的點(diǎn)擊量最高點(diǎn)位于下午1點(diǎn),這和我們之前按時(shí)間分析點(diǎn)擊量的結(jié)果是一致的。

下面我們分別統(tǒng)計(jì)出所有類型的設(shè)備的點(diǎn)擊量、展現(xiàn)量和點(diǎn)擊率。

device_type_click = df_click.groupby('device_type').agg({'click':'sum'}).reset_index()
device_type_impression = train.groupby('device_type').agg({'click':'count'}).reset_index().rename(columns={'click': 'impressions'})
merged_device_type = pd.merge(left = device_type_click , right = device_type_impression, how = 'inner', on = 'device_type')
 
merged_device_type['CTR'] = merged_device_type['click'] / merged_device_type['impressions']*100
 
merged_device_type

 使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

我們看到點(diǎn)擊率最高的設(shè)備是設(shè)備0,并不是設(shè)備1.所以說展現(xiàn)量和點(diǎn)擊量都較高并不意味著點(diǎn)擊率也會(huì)較高。

剩余的特征變量的分析過程和上面的類似,這里就不再一一說明,有興趣的朋友可以自己嘗試分析一下。

建模

has簡(jiǎn)介

由于我們的的數(shù)據(jù)樣本量有100萬(wàn)條,特征變量有20個(gè)左右,那么總共的特征值將會(huì)有100萬(wàn)X20=2000萬(wàn)個(gè)左右,為了減少系統(tǒng)內(nèi)存的消耗,我們要使用python的內(nèi)置hash函數(shù)來映射某些特征變量,我們要將那些類型為object的特征變量映射為一定范圍內(nèi)的整數(shù)(原來的string被映射成了integer),這樣就可以大大降低內(nèi)存的消耗。

下面我們看看未使用hash之前我們的樣本數(shù)據(jù):

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

紅框中的特征變量類型均為object, 下面我們要將hash函數(shù)將類型為object的變量映射成integer型

def convert_obj_to_int(self):
  
  object_list_columns = self.columns
  object_list_dtypes = self.dtypes
  new_col_suffix = '_int'
  for index in range(0,len(object_list_columns)):
    if object_list_dtypes[index] == object :
      self[object_list_columns[index]+new_col_suffix] = self[object_list_columns[index]].map( lambda x: hash(x))
      self.drop([object_list_columns[index]],inplace=True,axis=1)
  return self
train = convert_obj_to_int(train)
train.head()

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

LightGBM 模型 

LightGBM是個(gè)快速的,分布式的,高性能的基于決策樹算法的梯度提升框架。可用于排序,分類,回歸以及很多其他的機(jī)器學(xué)習(xí)任務(wù)中,接下來我們要使用LightGBM作為我們的分類模型.

X_train = train.loc[:, train.columns != 'click']
y_target = train.click.values
 
msk = np.random.rand(len(X_train)) < 0.8
lgb_train = lgb.Dataset(X_train[msk], y_target[msk])
lgb_eval = lgb.Dataset(X_train[~msk], y_target[~msk], reference=lgb_train)
 
# 配置模型參數(shù)
params = {
  'task': 'train',
  'boosting_type': 'gbdt',
  'objective': 'binary',
  'metric': { 'binary_logloss'},
  'num_leaves': 31, # 每棵樹的默認(rèn)葉子數(shù)
  'learning_rate': 0.08,
  'feature_fraction': 0.7, # 將在訓(xùn)練每棵樹之前選擇70%的特征
  'bagging_fraction': 0.3, #隨機(jī)選擇30%的特征。
  'bagging_freq': 5, # 每5次迭代執(zhí)行bagging
  'verbose': 0
}
 
print('開始訓(xùn)練...')
 
gbm = lgb.train(params,
        lgb_train,
        num_boost_round=4000,
        valid_sets=lgb_eval,
        early_stopping_rounds=500)

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

 XGBoost 模型

XGBoost是boosting算法的其中一種。Boosting算法的思想是將許多弱分類器集成在一起形成一個(gè)強(qiáng)分類器。因?yàn)閄GBoost是一種提升樹模型,所以它是將許多樹模型集成在一起,形成一個(gè)很強(qiáng)的分類器。

def run_default_test(train, test, features, target, random_state=0):
  eta = 0.1
  max_depth = 5
  subsample = 0.8
  colsample_bytree = 0.8
  params = {
    "objective": "binary:logistic",
    "booster" : "gbtree",
    "eval_metric": "logloss",
    "eta": eta,
    "max_depth": max_depth,
    "subsample": subsample,
    "colsample_bytree": colsample_bytree,
    "silent": 1,
    "seed": random_state
  }
  num_boost_round = 260
  early_stopping_rounds = 20
  test_size = 0.2
 
  X_train, X_valid = train_test_split(train, test_size=test_size, random_state=random_state)
  y_train = X_train[target]
  y_valid = X_valid[target]
  dtrain = xgb.DMatrix(X_train[features], y_train)
  dvalid = xgb.DMatrix(X_valid[features], y_valid)
  watchlist = [(dtrain, 'train'), (dvalid, 'eval')]
  gbm = xgb.train(params, dtrain, num_boost_round, evals=watchlist, early_stopping_rounds=early_stopping_rounds, verbose_eval=True)
 
 
features = ['C1', 'banner_pos', 'device_type', 'device_conn_type', 'C14',
    'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21', 'time',
    'site_id_int', 'site_domain_int', 'site_category_int', 'app_id_int',
    'app_domain_int', 'app_category_int', 'device_id_int', 'device_ip_int',
    'device_model_int', 'day_of_week_int']
run_default_test(train, y_target, features, 'click')

使用python怎么預(yù)測(cè)廣告點(diǎn)擊率

關(guān)于使用python怎么預(yù)測(cè)廣告點(diǎn)擊率就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。


當(dāng)前文章:使用python怎么預(yù)測(cè)廣告點(diǎn)擊率-創(chuàng)新互聯(lián)
鏈接分享:http://weahome.cn/article/ceehod.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部