真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

推薦系統(tǒng)和搜索引擎的關(guān)系達(dá)觀陳運(yùn)文

創(chuàng)新互聯(lián)從2013年成立,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都網(wǎng)站設(shè)計(jì)、成都做網(wǎng)站、外貿(mào)網(wǎng)站建設(shè)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元東明做網(wǎng)站,已為上家服務(wù),為東明各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18980820575

 

從信息獲取的角度來看,搜索和推薦是用戶獲取信息的兩種主要手段。無論在互聯(lián)網(wǎng)上,還是在線下的場(chǎng)景里,搜索和推薦這兩種方式都大量并存,那么推薦系統(tǒng)和搜索引擎這兩個(gè)系統(tǒng)到底有什么關(guān)系?區(qū)別和相似的地方有哪些?本文作者有幸同時(shí)具有搜索引擎和推薦系統(tǒng)一線的技術(shù)產(chǎn)品開發(fā)經(jīng)驗(yàn),結(jié)合自己的實(shí)踐經(jīng)驗(yàn)來為大家闡述兩者之間的關(guān)系、分享自己的體會(huì)(達(dá)觀數(shù)據(jù)陳運(yùn)文博士)

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

圖1:搜索引擎和推薦系統(tǒng)是獲取信息的兩種不同方式

主動(dòng)或被動(dòng):搜索引擎和推薦系統(tǒng)的選擇

 

獲取信息是人類認(rèn)知世界、生存發(fā)展的剛需,搜索就是最明確的一種方式,其體現(xiàn)的動(dòng)作就是“出去找”,找食物、找地點(diǎn)等,到了互聯(lián)網(wǎng)時(shí)代,搜索引擎(Search Engine)就是滿足找信息這個(gè)需求的最好工具,你輸入想要找的內(nèi)容(即在搜索框里輸入查詢?cè)~,或稱為Query),搜索引擎快速的給你最好的結(jié)果,這樣的剛需催生了Google、百度這樣的互聯(lián)網(wǎng)巨頭。

 

但是獲取信息的方式除了搜索外,還有另一類,稱為推薦系統(tǒng)(Recommendation System,簡(jiǎn)稱Recsys),推薦也是伴隨人類發(fā)展而生的一種基本技能,你一定遇到這樣的場(chǎng)景,初來乍到一個(gè)地方,會(huì)找當(dāng)?shù)氐呐笥汛蚵牎班?,?qǐng)推薦下附近有啥好吃好玩的地方吧!”——知識(shí)、信息等通過推薦來傳播,這也是一種獲取信息的方式。

 

搜索和推薦的區(qū)別如圖1所示,搜索是一個(gè)非常主動(dòng)的行為,并且用戶的需求十分明確,在搜索引擎提供的結(jié)果里,用戶也能通過瀏覽和點(diǎn)擊來明確的判斷是否滿足了用戶需求。然而,推薦系統(tǒng)接受信息是被動(dòng)的,需求也都是模糊而不明確的。以“逛”商場(chǎng)為例,在用戶進(jìn)入商場(chǎng)的時(shí)候,如果需求不明確,這個(gè)時(shí)候需要推薦系統(tǒng),來告訴用戶有哪些優(yōu)質(zhì)的商品、哪些合適的內(nèi)容等,但如果用戶已經(jīng)非常明確當(dāng)下需要購買哪個(gè)品牌、什么型號(hào)的商品時(shí),直接去找對(duì)應(yīng)的店鋪就行,這時(shí)就是搜索了。

 達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

圖2:從搜索詞中可以看出,用戶有大量個(gè)性化推薦的需求

 

很多互聯(lián)網(wǎng)產(chǎn)品都需要同時(shí)滿足用戶這兩種需求,例如對(duì)提供音樂、新聞、或者電商服務(wù)的網(wǎng)站,必然要提供搜索功能,當(dāng)用戶想找某首歌或某樣商品的時(shí)候,輸入名字就能搜到;與此同時(shí),也同時(shí)要提供推薦功能,當(dāng)用戶就是想來聽好聽的歌,或者打發(fā)時(shí)間看看新聞,但并不明確一定要聽哪首的時(shí)候,給予足夠好的推薦,提升用戶體驗(yàn)。

 

 

個(gè)性化程度的高低

 

除了主被動(dòng)外,另一個(gè)有趣的區(qū)別是個(gè)性化程度的高低之分。搜索引擎雖然也可以有一定程度的個(gè)性化,但是整體上個(gè)性化運(yùn)作的空間是比較小的。因?yàn)楫?dāng)需求非常明確時(shí),找到結(jié)果的好壞通常沒有太多個(gè)性化的差異。例如搜“天氣”,搜索引擎可以將用戶所在地區(qū)的信息作補(bǔ)足,給出當(dāng)?shù)靥鞖獾慕Y(jié)果,但是個(gè)性化補(bǔ)足后給出的結(jié)果也是明確的了。

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

用戶對(duì)信息的個(gè)性化需求

 

 

但是推薦系統(tǒng)在個(gè)性化方面的運(yùn)作空間要大得多,以“推薦好看的電影”為例,一百個(gè)用戶有一百種口味,并沒有一個(gè)“標(biāo)準(zhǔn)”的答案,推薦系統(tǒng)可以根據(jù)每位用戶歷史上的觀看行為、評(píng)分記錄等生成一個(gè)對(duì)當(dāng)前用戶最有價(jià)值的結(jié)果,這也是推薦系統(tǒng)有獨(dú)特魅力的地方。雖然推薦的種類有很多(例如相關(guān)推薦、個(gè)性化推薦等),但是個(gè)性化對(duì)于推薦系統(tǒng)是如此重要,以至于在很多時(shí)候大家干脆就把推薦系統(tǒng)稱為“個(gè)性化推薦”甚至“智能推薦”了。

 

 

快速滿足還是持續(xù)服務(wù)?

 

開發(fā)過搜索引擎的朋友都知道,評(píng)價(jià)搜索結(jié)果質(zhì)量的一個(gè)重要考量指標(biāo)是要幫用戶盡快的找到需要的結(jié)果并點(diǎn)擊離開。在設(shè)計(jì)搜索排序算法里,需要想盡辦法讓最好的結(jié)果排在最前面,往往搜索引擎的前三條結(jié)果聚集了絕大多數(shù)的用戶點(diǎn)擊。簡(jiǎn)單來說,“好”的搜索算法是需要讓用戶獲取信息的效率更高、停留時(shí)間更短。

 

但是推薦恰恰相反,推薦算法和被推薦的內(nèi)容(例如商品、新聞等)往往是緊密結(jié)合在一起的,用戶獲取推薦結(jié)果的過程可以是持續(xù)的、長(zhǎng)期的,衡量推薦系統(tǒng)是否足夠好,往往要依據(jù)是否能讓用戶停留更多的時(shí)間(例如多購買幾樣商品、多閱讀幾篇新聞等),對(duì)用戶興趣的挖掘越深入,越“懂”用戶,那么推薦的成功率越高,用戶也越樂意留在產(chǎn)品里。

 

所以對(duì)大量的內(nèi)容型應(yīng)用來說,打造一個(gè)優(yōu)秀的推薦系統(tǒng)是提升業(yè)績(jī)所不得不重視的手段。

 

 

推薦系統(tǒng)滿足難以文字表述的需求

 

目前主流的搜索引擎仍然是以文字構(gòu)成查詢?cè)~(Query),這是因?yàn)槲淖质侨藗兠枋鲂枨笞詈?jiǎn)潔、直接的方式,搜索引擎抓取和索引的絕大部分內(nèi)容也是以文字方式組織的。

 

因?yàn)檫@個(gè)因素,我們統(tǒng)計(jì)發(fā)現(xiàn)用戶輸入的搜索查詢?cè)~也大都是比較短小的,查詢?cè)~中包含5個(gè)或5個(gè)以內(nèi)元素(或稱Term)的占總查詢量的98%以上(例如:Query“達(dá)觀數(shù)據(jù)地址”,包含兩個(gè)元素“達(dá)觀數(shù)據(jù)”和“地址”)。

 

但另一方面,用戶存在著大量的需求是比較難用精煉的文字來組織的,例如想查找“離我比較近的且價(jià)格100元以內(nèi)的川菜館”、“和我正在看的這條裙子同款式的但是價(jià)格更優(yōu)惠的其他裙子”等需求。

 

一方面幾乎沒有用戶愿意輸入這么多字來找結(jié)果(用戶天然都是愿意偷懶的),另一方面搜索引擎對(duì)語義的理解目前還無法做到足夠深入;所以在滿足這些需求的時(shí)候,通過推薦系統(tǒng)設(shè)置的功能(例如頁面上設(shè)置的“相關(guān)推薦”、“猜你喜歡”等模塊),加上與用戶的交互(例如篩選、排序、點(diǎn)擊等),不斷積累和挖掘用戶偏好,可以將這些難以用文字表達(dá)的需求良好的滿足起來。

 

形象的來說,推薦引擎又被人們稱為是無聲的搜索,意思是用戶雖然不用主動(dòng)輸入查詢?cè)~來搜索,但是推薦引擎通過分析用戶歷史的行為、當(dāng)前的上下文場(chǎng)景,自動(dòng)來生成復(fù)雜的查詢條件,進(jìn)而給出計(jì)算并推薦的結(jié)果。

 

 

馬太效應(yīng)和長(zhǎng)尾理論

 

馬太效應(yīng)(Mattnew Effect)是指強(qiáng)者愈強(qiáng)、弱者愈弱的現(xiàn)象,在互聯(lián)網(wǎng)中引申為熱門的產(chǎn)品受到更多的關(guān)注,冷門內(nèi)容則愈發(fā)的會(huì)被遺忘的現(xiàn)象。馬太效應(yīng)取名自圣經(jīng)《新約·馬太福音》的一則寓言: “凡有的,還要加倍給他叫他多余;沒有的,連他所有的也要奪過來?!?/p>

 

搜索引擎就非常充分的體現(xiàn)了馬太效應(yīng)——如下面的Google點(diǎn)擊熱圖,越紅的部分表示點(diǎn)擊多和熱,越偏紫色的部分表示點(diǎn)擊少而冷,絕大部分用戶的點(diǎn)擊都集中在頂部少量的結(jié)果上,下面的結(jié)果以及翻頁后的結(jié)果獲得的關(guān)注非常少。這也解釋了Google和百度的廣告為什么這么賺錢,企業(yè)客戶為什么要花大力氣做SEM或SEO來提升排名——因?yàn)橹挥信诺剿阉鹘Y(jié)果的前面才有機(jī)會(huì)。

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

搜索引擎充分體現(xiàn)的馬太效應(yīng):頭部?jī)?nèi)容吸引了絕大部分點(diǎn)擊

 

有意思的是,與“馬太效應(yīng)”相對(duì)應(yīng),還有一個(gè)非常有影響力的理論稱為“長(zhǎng)尾理論”。

 

長(zhǎng)尾理論(Long Tail Effect)是“連線”雜志主編克里斯·安德森(Chris Anderson)在2004年10月的“長(zhǎng)尾”(Long Tail)一文中最早提出的,長(zhǎng)尾實(shí)際上是統(tǒng)計(jì)學(xué)中冪率(Power Laws)和帕累托分布特征(Pareto Distribution)的拓展和口語化表達(dá),用來描述熱門和冷門物品的分布情況。Chris Anderson通過觀察數(shù)據(jù)發(fā)現(xiàn),在互聯(lián)網(wǎng)時(shí)代由于網(wǎng)絡(luò)技術(shù)能以很低的成本讓人們?nèi)カ@得更多的信息和選擇,在很多網(wǎng)站內(nèi)有越來越多的原先被“遺忘”的非最熱門的事物重新被人們關(guān)注起來。事實(shí)上,每一個(gè)人的品味和偏好都并非和主流人群完全一致,Chris指出:當(dāng)我們發(fā)現(xiàn)得越多,我們就越能體會(huì)到我們需要更多的選擇。如果說搜索引擎體現(xiàn)著馬太效應(yīng)的話,那么長(zhǎng)尾理論則闡述了推薦系統(tǒng)發(fā)揮的價(jià)值。陳運(yùn)文

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

推薦系統(tǒng)和長(zhǎng)尾理論

 

一個(gè)實(shí)際的例子就是亞馬遜(Amazon)網(wǎng)絡(luò)書店和傳統(tǒng)大型書店的數(shù)據(jù)對(duì)比。市場(chǎng)上出版發(fā)行的圖書種類超過了數(shù)百萬,但是其中大部分圖書是無法在傳統(tǒng)大型書店上架銷售的(實(shí)體店鋪空間有限),而能放在書店顯著位置(例如暢銷書Best Seller貨架)上的更是鳳毛麟角,因此傳統(tǒng)書店的經(jīng)營模式多以暢銷書為中心。但是亞馬遜等網(wǎng)絡(luò)書店的發(fā)展為長(zhǎng)尾書籍提供了無限廣闊的空間,用戶瀏覽、采購這些長(zhǎng)尾書籍比傳統(tǒng)書店方便得多,于是互聯(lián)網(wǎng)時(shí)代銷售成千上萬的小眾圖書,哪怕一次僅賣一兩本,但是因?yàn)檫@些圖書的種類比熱門書籍要多得多,就像長(zhǎng)長(zhǎng)的尾巴那樣,這些圖書的銷量積累起來甚至超過那些暢銷書。正如亞馬遜的史蒂夫·凱賽爾所說:“如果我有10萬種書,哪怕一次僅賣掉一本,10年后加起來它們的銷售就會(huì)超過最新出版的《哈利·波特》!”

 

 

長(zhǎng)尾理論作為一種新的經(jīng)濟(jì)模式,被成功的應(yīng)用于網(wǎng)絡(luò)經(jīng)濟(jì)領(lǐng)域。而對(duì)長(zhǎng)尾資源的盤活和利用,恰恰是推薦系統(tǒng)所擅長(zhǎng)的,因?yàn)橛脩魧?duì)長(zhǎng)尾內(nèi)容通常是陌生的,無法主動(dòng)搜索,唯有通過推薦的方式,引起用戶的注意,發(fā)掘出用戶的興趣,幫助用戶做出最終的選擇。

 

盤活長(zhǎng)尾內(nèi)容對(duì)企業(yè)來說也是非常關(guān)鍵的,營造一個(gè)內(nèi)容豐富、百花齊放的生態(tài),能保障企業(yè)健康的生態(tài)。試想一下,一個(gè)企業(yè)如果只依賴0.1%的“爆款”商品或內(nèi)容來吸引人氣,那么隨著時(shí)間推移這些爆款不再受歡迎,而新的爆款又沒有及時(shí)補(bǔ)位,那么企業(yè)的業(yè)績(jī)必然會(huì)有巨大波動(dòng)。

 

只依賴最熱門內(nèi)容的另一個(gè)不易察覺的危險(xiǎn)是潛在用戶的流失:因?yàn)橹灰蕾嚤铍m然能吸引一批用戶(簡(jiǎn)稱A類用戶),但同時(shí)也悄悄排斥了對(duì)這些熱門內(nèi)容并不感冒的用戶(簡(jiǎn)稱B類用戶),按照長(zhǎng)尾理論,B類用戶的數(shù)量并不少,并且隨時(shí)間推移A類用戶會(huì)逐步轉(zhuǎn)變?yōu)锽類用戶(因?yàn)槿藗兌际窍残聟捙f的),所以依靠推薦系統(tǒng)來充分滿足用戶個(gè)性化、差異化的需求,讓長(zhǎng)尾內(nèi)容在合適的時(shí)機(jī)來曝光,維護(hù)企業(yè)健康的生態(tài),才能讓企業(yè)的運(yùn)轉(zhuǎn)更穩(wěn)定,波動(dòng)更小。

 

 

評(píng)價(jià)方法的異同

 

搜索引擎通常基于Cranfield評(píng)價(jià)體系,并基于信息檢索中常用的評(píng)價(jià)指標(biāo),例如nDCG(英文全稱為normalized Discounted Cumulative Gain)、Precision-Recall(或其組合方式F1)、P@N等方法,具體可參見之前發(fā)表于InfoQ的文章《怎樣量化評(píng)價(jià)搜索引擎的結(jié)果質(zhì)量 陳運(yùn)文》。整體上看,評(píng)價(jià)的著眼點(diǎn)在于將優(yōu)質(zhì)結(jié)果盡可能排到搜索結(jié)果的最前面,前10條結(jié)果(對(duì)應(yīng)搜索結(jié)果的第一頁)幾乎涵蓋了搜索引擎評(píng)估的主要內(nèi)容。讓用戶以最少的點(diǎn)擊次數(shù)、最快的速度找到內(nèi)容是評(píng)價(jià)的核心。

 

推薦系統(tǒng)的評(píng)價(jià)面要寬泛的多,往往推薦結(jié)果的數(shù)量要多很多,出現(xiàn)的位置、場(chǎng)景也非常復(fù)雜,從量化角度來看,當(dāng)應(yīng)用于Top-N結(jié)果推薦時(shí),MAP(Mean Average Precison)或CTR(Click Through Rate,計(jì)算廣告中常用)是普遍的計(jì)量方法;當(dāng)用于評(píng)分預(yù)測(cè)問題時(shí),RMSE(Root Mean Squared Error)或MAE(Mean Absolute Error)是常見量化方法。

 

由于推薦系統(tǒng)和實(shí)際業(yè)務(wù)綁定更為緊密,從業(yè)務(wù)角度也有很多側(cè)面評(píng)價(jià)方法,根據(jù)不同的業(yè)務(wù)形態(tài),有不同的方法,例如帶來的增量點(diǎn)擊,推薦成功數(shù),成交轉(zhuǎn)化提升量,用戶延長(zhǎng)的停留時(shí)間等指標(biāo)。

 

 

搜索和推薦的相互交融

 

搜索和推薦雖然有很多差異,但兩者都是大數(shù)據(jù)技術(shù)的應(yīng)用分支,存在著大量的交疊。近年來,搜索引擎逐步融合了推薦系統(tǒng)的結(jié)果,例如右側(cè)的“相關(guān)推薦”、底部的“相關(guān)搜索詞”等,都使用了推薦系統(tǒng)的產(chǎn)品思路和運(yùn)算方法(如下圖紅圈區(qū)域)。

 

在另一些平臺(tái)型電商網(wǎng)站中,由于結(jié)果數(shù)量巨大,且相關(guān)性并沒有明顯差異,因而對(duì)搜索結(jié)果的個(gè)性化排序有一定的運(yùn)作空間,這里融合運(yùn)用的個(gè)性化推薦技術(shù)也對(duì)促進(jìn)成交有良好的幫助。

 

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

搜索引擎中融合的推薦系統(tǒng)元素

 

推薦系統(tǒng)也大量運(yùn)用了搜索引擎的技術(shù),搜索引擎解決運(yùn)算性能的一個(gè)重要的數(shù)據(jù)結(jié)構(gòu)是倒排索引技術(shù)(Inverted Index),而在推薦系統(tǒng)中,一類重要算法是基于內(nèi)容的推薦(Content-based Recommendation),這其中大量運(yùn)用了倒排索引、查詢、結(jié)果歸并等方法。另外點(diǎn)擊反饋(Click Feedback)算法等也都在兩者中大量運(yùn)用以提升效果。

 

 

關(guān)于達(dá)觀數(shù)據(jù)

 

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

達(dá)觀數(shù)據(jù)是專注于企業(yè)大數(shù)據(jù)應(yīng)用服務(wù)的高科技創(chuàng)業(yè)公司,致力于為電商、新媒體、金融、企業(yè)等提供高質(zhì)量的大數(shù)據(jù)挖掘服務(wù),包括推薦系統(tǒng)和搜索引擎等技術(shù)服務(wù),力爭(zhēng)通過達(dá)觀數(shù)據(jù)積累的技術(shù)經(jīng)驗(yàn),幫助合作企業(yè)們提高業(yè)績(jī),提升服務(wù)質(zhì)量,增強(qiáng)競(jìng)爭(zhēng)力。

 

 

本文總結(jié)

 

作為大數(shù)據(jù)應(yīng)用的兩大類應(yīng)用,搜索引擎和推薦系統(tǒng)既相互伴隨和影響,又滿足不同的產(chǎn)品需求。在作為互聯(lián)網(wǎng)產(chǎn)品的連接器:連接人、信息、服務(wù)之間的橋梁,搜索和推薦有其各自的特點(diǎn),本文對(duì)兩者的關(guān)系進(jìn)行了闡述,分析了異同。它們都是數(shù)據(jù)挖掘技術(shù)、信息檢索技術(shù)、計(jì)算統(tǒng)計(jì)學(xué)等悠久學(xué)科的智慧結(jié)晶,也關(guān)聯(lián)到認(rèn)知科學(xué)、預(yù)測(cè)理論、營銷學(xué)等相關(guān)學(xué)科,感興趣的讀者們可以延伸到這些相關(guān)學(xué)科里做更深入的了解。(文/陳運(yùn)文)

 

附件:http://down.51cto.com/data/2367228

名稱欄目:達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系
當(dāng)前鏈接:http://weahome.cn/article/jpgcje.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部