真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

如何分析LearningtoRank

如何分析Learning to Rank,針對(duì)這個(gè)問(wèn)題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)!專(zhuān)注于網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、成都小程序開(kāi)發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了黃岡免費(fèi)建站歡迎大家使用!

一、學(xué)習(xí)排序(Learning to Rank)

      LTR(Learning torank)學(xué)習(xí)排序是一種監(jiān)督學(xué)習(xí)(SupervisedLearning)的排序方法。LTR已經(jīng)被廣泛應(yīng)用到文本挖掘的很多領(lǐng)域,比如IR中排序返回的文檔,推薦系統(tǒng)中的候選產(chǎn)品、用戶排序,機(jī)器翻譯中排序候選翻譯結(jié)果等等。IR領(lǐng)域傳統(tǒng)的排序方法一般通過(guò)構(gòu)造相關(guān)度函數(shù),然后按照相關(guān)度進(jìn)行排序。影響相關(guān)度的因素很多,比如上面提到的tf,idf,dl等。有很多經(jīng)典的模型來(lái)完成這一任務(wù),比如VSM,Boolean model,概率模型等。對(duì)于傳統(tǒng)的排序方法,很難融合多種信息,比如向量空間模型以tf*idf作為權(quán)重構(gòu)建相關(guān)度函數(shù),就很難利用其他信息了,并且如果模型中參數(shù)比較多,也會(huì)使得調(diào)參非常困難,而且很可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。于是人們很自然的想到了用機(jī)器學(xué)習(xí)(Machine Learning)來(lái)解決這一問(wèn)題,于是就有了Learning to rank。機(jī)器學(xué)習(xí)方法很容易融合多種特征,而且有成熟深厚的理論基礎(chǔ),參數(shù)是通過(guò)迭代優(yōu)化出來(lái)的,有一套成熟理論解決稀疏、過(guò)擬合等問(wèn)題。學(xué)習(xí)排序系統(tǒng)框架如圖2.1所示:

如何分析Learning to Rank

圖2.1  排序?qū)W習(xí)系統(tǒng)框架

對(duì)于標(biāo)注訓(xùn)練集,選定LTR方法,確定損失函數(shù),以最小化損失函數(shù)為目標(biāo)進(jìn)行優(yōu)化即可得到排序模型的相關(guān)參數(shù),這就是學(xué)習(xí)過(guò)程。預(yù)測(cè)過(guò)程將待預(yù)測(cè)結(jié)果輸入學(xué)習(xí)得到的排序模型中,即可得到結(jié)果的相關(guān)得分,利用該得分進(jìn)行排序即可得到待預(yù)測(cè)結(jié)果的最終順序。

      LTR一般說(shuō)來(lái)有三類(lèi)方法:?jiǎn)挝臋n方法(Pointwise),文檔對(duì)方法(Pairwise),文檔列表方法(Listwise)。

1  Pointwise

      Pointwise處理對(duì)象是單一文檔,將文檔轉(zhuǎn)化為特征向量后,主要是將排序問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)中常規(guī)的分類(lèi)或回歸問(wèn)題。我們現(xiàn)以多類(lèi)分類(lèi)為例進(jìn)行舉例:表2-1是人工標(biāo)注的部分訓(xùn)練集合,每個(gè)文檔采用三個(gè)特征:查詢與文檔的BM25相似度,查詢與文檔的cosin相似度,以及頁(yè)面的PageRank值,query與di的相關(guān)性是多元的,label分為 5個(gè)等級(jí),即{perfect,Excellent,good,fair,bad}。于是,產(chǎn)生了5個(gè)具有l(wèi)abel的訓(xùn)練實(shí)例,然后我們可以使用機(jī)器學(xué)習(xí)的任一種多類(lèi)分類(lèi)算法進(jìn)行學(xué)習(xí),比如最大熵,支持向量機(jī)等。

如何分析Learning to Rank
      Pointwise完全從單文檔的分類(lèi)角度計(jì)算,沒(méi)有考慮文檔之間的相對(duì)順序。而且它假設(shè)相關(guān)度是查詢無(wú)關(guān)的,只要(query,di)的相關(guān)度相同,那么他們就被劃分到同一個(gè)級(jí)別中,屬于同一類(lèi)。然而實(shí)際上,相關(guān)度的相對(duì)性是和查詢相關(guān)的,比如一個(gè)常見(jiàn)的查詢它會(huì)有很多相關(guān)的文檔,該查詢和它相關(guān)性相對(duì)靠后的文檔的label標(biāo)注級(jí)別時(shí)可能會(huì)比一個(gè)稀有的查詢和它為數(shù)不多的高度相關(guān)文檔的label標(biāo)準(zhǔn)級(jí)別更高。這樣就導(dǎo)致訓(xùn)練樣本的不一致,并且對(duì)于預(yù)測(cè)為同一label級(jí)別的文檔之間也無(wú)法相對(duì)排序。Pointwise常用方法有McRank等。當(dāng)模型參數(shù)學(xué)習(xí)完畢后,之后就可利用模型進(jìn)行相關(guān)性判斷,對(duì)新的查詢和文檔,通過(guò)模型的打分函數(shù)可以得到一個(gè)數(shù)值,利用該數(shù)值即可對(duì)文檔進(jìn)行排序了。

2  pairwise

      Pairwise是目前比較流行的方法,相對(duì)pointwise他將重點(diǎn)轉(zhuǎn)向文檔順序關(guān)系。它主要將排序問(wèn)題歸結(jié)為二元分類(lèi)問(wèn)題,這時(shí)候機(jī)器學(xué)習(xí)的方法就比較多了,比如Boost、SVM、神經(jīng)網(wǎng)絡(luò)等。對(duì)于同一query的相關(guān)文檔集中,對(duì)任何兩個(gè)不同label的文檔,都可以得到一個(gè)訓(xùn)練實(shí)例(di,dj),如果di>dj則賦值+1,反之-1,于是我們就得到了二元分類(lèi)器訓(xùn)練所需的訓(xùn)練樣本了,如圖2.2所示。測(cè)試時(shí),只要對(duì)所有pair進(jìn)行分類(lèi)就可以得到所有文檔的一個(gè)偏序關(guān)系,從而實(shí)現(xiàn)排序。

如何分析Learning to Rank

圖2.2  Pairwise排序方法示意

盡管Pairwise對(duì)Pointwise做了改進(jìn),但該方法還是存在明顯的問(wèn)題:

     A.只考慮了兩篇文檔的相對(duì)順序,沒(méi)有考慮他們出現(xiàn)在搜索結(jié)果列表中的位置。排在前面的文檔更為重要,如果出現(xiàn)在前面的文檔判斷錯(cuò)誤,懲罰函數(shù)要明顯高于排在后面判斷錯(cuò)誤。因此需要引入位置因素,每個(gè)文檔對(duì)根據(jù)其在結(jié)果列表中的位置具有不同的權(quán)重,越排在前面權(quán)重越大,如果排錯(cuò)順序其受到的懲罰也越大。

      B.對(duì)于不同的查詢相關(guān)文檔集的數(shù)量差異很大,轉(zhuǎn)換為文檔對(duì)后,有的查詢可能只有十幾個(gè)文檔對(duì),而有的查詢可能會(huì)有數(shù)百個(gè)對(duì)應(yīng)的文檔對(duì),這對(duì)學(xué)習(xí)系統(tǒng)的效果評(píng)價(jià)帶來(lái)了偏置。假設(shè)查詢1對(duì)應(yīng)500個(gè)文檔對(duì),查詢2對(duì)應(yīng)10個(gè)文檔對(duì),假設(shè)機(jī)器學(xué)習(xí)系統(tǒng)對(duì)應(yīng)查詢1能夠判斷正確480個(gè)文檔對(duì),對(duì)應(yīng)查詢2能夠判斷正確2個(gè)。對(duì)于總的文檔對(duì)該系統(tǒng)準(zhǔn)確率是(480+2)/(500+10)=95%,但從查詢的角度,兩個(gè)查詢對(duì)應(yīng)的準(zhǔn)確率分別為:96%和20%,平均為58%,與總的文檔對(duì)判斷準(zhǔn)確率相差巨大,這將使得模型偏向于相關(guān)文檔集大的查詢。

      Pairwise有很多的實(shí)現(xiàn),比如Ranking SVM,RankNet,F(xiàn)rank,RankBoost等。

3  Listwise

       Listwise與上述兩種方法不同,它是將每個(gè)查詢對(duì)應(yīng)的所有搜索結(jié)果列表作為一個(gè)訓(xùn)練樣例。Listwise根據(jù)訓(xùn)練樣例訓(xùn)練得到最優(yōu)評(píng)分函數(shù)F,對(duì)應(yīng)新的查詢,評(píng)分F對(duì)每個(gè)文檔打分,然后根據(jù)得分由高到低排序,即為最終的排序結(jié)果。

對(duì)應(yīng)如何訓(xùn)練最優(yōu)評(píng)分函數(shù)F,本文介紹一種基于搜索結(jié)果排列組合的概率分布情況來(lái)訓(xùn)練的方法。如圖2-2所示,對(duì)應(yīng)查詢Q,假設(shè)搜索引擎返回結(jié)果A、B、C三個(gè)文檔,這三篇文檔可以產(chǎn)生6中排列方式,對(duì)應(yīng)評(píng)分函數(shù)F,對(duì)三篇文檔進(jìn)行相關(guān)度打分,得到F(A)、F(B)、F(C),根據(jù)這三個(gè)值可以計(jì)算6種排列組合情況各自的概率值。對(duì)應(yīng)不同的評(píng)分函數(shù)F,六種排列的概率分布是不同的。

如何分析Learning to Rank

假設(shè)評(píng)分函數(shù)g是由人工標(biāo)記得到的標(biāo)準(zhǔn)答案對(duì)應(yīng)的評(píng)分函數(shù),它是怎樣的我們暫時(shí)不清楚,我們?cè)噲D找到一個(gè)評(píng)分函數(shù)f,使得f產(chǎn)生的打分和人工的打分盡可能相同。假設(shè)存在兩個(gè)其他評(píng)分函數(shù)h和f,他們的計(jì)算方法已知,對(duì)應(yīng)的搜索排列組合概率分布如圖所示,通過(guò)KL距離可知,f比h更接近于虛擬的最優(yōu)函數(shù)g。訓(xùn)練過(guò)程就是在盡可能的函數(shù)中尋找最接近虛擬函數(shù)g的那個(gè)函數(shù),預(yù)測(cè)時(shí)用該評(píng)分函數(shù)進(jìn)行打分。

      Listwise方法往往更加直接,它專(zhuān)注于自己的目標(biāo)和任務(wù),直接對(duì)文檔排序結(jié)果進(jìn)行優(yōu)化,因此往往效果也是最好的。Listwise常用方法有AdaRank,SoftRank,LambdaMART等。

二、LTR訓(xùn)練數(shù)據(jù)的獲取

     1.人工標(biāo)注。如果需要大量的訓(xùn)練數(shù)據(jù),人工標(biāo)注不太現(xiàn)實(shí)

     2.對(duì)應(yīng)搜索引擎來(lái)說(shuō),可以通過(guò)用戶點(diǎn)擊記錄來(lái)獲取訓(xùn)練數(shù)據(jù)。對(duì)應(yīng)查詢返回的搜索結(jié)果,用戶會(huì)點(diǎn)擊其中的某些網(wǎng)頁(yè),假設(shè)用戶優(yōu)先點(diǎn)擊的是和查詢更相關(guān)的網(wǎng)頁(yè)。盡管很多時(shí)候這種假設(shè)并不成立,但實(shí)際經(jīng)驗(yàn)表明這種獲取訓(xùn)練數(shù)據(jù)是可行的。

三、LTR特征選取

      使用LTR時(shí)會(huì)選取一系列文本特征,利用機(jī)器學(xué)習(xí)方法很好的融合到一個(gè)排序模型中,來(lái)決定最終結(jié)果的順序,其中每一個(gè)特征我們稱為一個(gè)“feature”。對(duì)于一個(gè)網(wǎng)頁(yè)文本,feature所在的文檔區(qū)域可以包括body域,anchor域,title域,url域,whole document域等。

      文檔的feature又可以分為兩種類(lèi)型:一是文檔本身的特征,比如Pagerank值、內(nèi)容豐富度、spam值、number of slash、url length、inlink number、outlink number、siterank等。二是Query-Doc的特征:文檔對(duì)應(yīng)查詢的相關(guān)度、每個(gè)域的tf、idf值,bool model,vsm,bm25,language model相關(guān)度等。

關(guān)于如何分析Learning to Rank問(wèn)題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒(méi)有解開(kāi),可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。


網(wǎng)頁(yè)名稱:如何分析LearningtoRank
轉(zhuǎn)載來(lái)源:http://weahome.cn/article/jhhoig.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部