真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

lda代碼詳解java java ldap

LDA在短文本分類方面的擴展模型有哪些

針對短文本存在的稀疏問題,有一系列的算法被提出??梢源笾路譃槿?。第一類采用一種的簡單的假設(shè)去學(xué)習(xí)隱含的主題,可以認為是基于窗口的算法,一個窗口內(nèi)的詞具有同一主題或者共現(xiàn)的詞具有相同的主題,代表算法Dirichlet Multinomial Mixture (DMM) in conference KDD2014, Biterm Topic Model (BTM) in journal TKDE2016。第二類算法可以成為偽長文檔算法,主要是把短文本聚合成偽長文檔來增強詞的共現(xiàn)信息,代表算法有Pseudo-Document-Based Topic Model (PTM) in conference KDD2016, Self-Aggregation-Based Topic Model (SATM) in conference IJCAI2015。 第三類是通過外部語料(如詞嵌入)增強詞的語義信息,代表算法有Generalized P′olya Urn (GPU) based Dirichlet Multinomial Mixturemodel (GPU-DMM) in conference SIGIR2016, Generalized P′olya Urn (GPU) based Poisson-based Dirichlet Multinomial Mixturemodel (GPU-PDMM) in journal TIS2017 and Latent Feature Model with DMM (LF-DMM) in journal TACL2015.。

創(chuàng)新互聯(lián)公司堅持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:做網(wǎng)站、成都網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時代的高州網(wǎng)站設(shè)計、移動媒體設(shè)計的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!

這些算法的源代碼都可以在這個基于JAVA的包里獲取到網(wǎng)頁鏈接。

我是這樣一步步理解--主題模型(Topic Model)、LDA(案例代碼)

LDA可以分為以下5個步驟:

關(guān)于LDA有兩種含義,一種是線性判別分析(Linear Discriminant Analysis),一種是概率主題模型: 隱含狄利克雷分布(Latent Dirichlet Allocation,簡稱LDA) ,本文講后者。

按照wiki上的介紹,LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,是一種主題模型,它可以將文檔集 中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔抽取出它們的主題(分布)出來后,便可以根據(jù)主題(分布)進行主題聚類或文本分類。同時,它是一種典型的詞袋模型,即一篇文檔是由一組詞構(gòu)成,詞與詞之間沒有先后順序的關(guān)系。此外,一篇文檔可以包含多個主題,文檔中每一個詞都由其中的一個主題生成。

人類是怎么生成文檔的呢?首先先列出幾個主題,然后以一定的概率選擇主題,以一定的概率選擇這個主題包含的詞匯,最終組合成一篇文章。如下圖所示(其中不同顏色的詞語分別對應(yīng)上圖中不同主題下的詞)。

那么LDA就是跟這個反過來: 根據(jù)給定的一篇文檔,反推其主題分布。

在LDA模型中,一篇文檔生成的方式如下:

其中,類似Beta分布是二項式分布的共軛先驗概率分布,而狄利克雷分布(Dirichlet分布)是多項式分布的共軛先驗概率分布。此外,LDA的圖模型結(jié)構(gòu)如下圖所示(類似貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)):

先解釋一下以上出現(xiàn)的概念。

至此,我們可以看到二項分布和多項分布很相似,Beta分布和Dirichlet 分布很相似。

如果想要深究其原理可以參考: 通俗理解LDA主題模型 ,也可以先往下走,最后在回過頭來看詳細的公式,就更能明白了。

總之, 可以得到以下幾點信息。

在講LDA模型之前,再循序漸進理解基礎(chǔ)模型:Unigram model、mixture of unigrams model,以及跟LDA最為接近的pLSA模型。為了方便描述,首先定義一些變量:

反過來,既然文檔已經(jīng)產(chǎn)生,那么如何根據(jù)已經(jīng)產(chǎn)生好的文檔反推其主題呢?這個利用看到的文檔推斷其隱藏的主題(分布)的過程(其實也就是產(chǎn)生文檔的逆過程),便是 主題建模的目的:自動地發(fā)現(xiàn)文檔集中的主題(分布)。

文檔d和詞w是我們得到的樣本,可觀測得到,所以對于任意一篇文檔,其 是已知的。從而可以根據(jù)大量已知的文檔-詞項信息 ,訓(xùn)練出文檔-主題 和主題-詞項 ,如下公式所示:

故得到文檔中每個詞的生成概率為:

由于 可事先計算求出,而 和 未知,所以 就是我們要估計的參數(shù)(值),通俗點說,就是要最大化這個θ。

用什么方法進行估計呢,常用的參數(shù)估計方法有極大似然估計MLE、最大后驗證估計MAP、貝葉斯估計等等。因為該待估計的參數(shù)中含有隱變量z,所以我們可以考慮EM算法。詳細的EM算法可以參考之前寫過的 EM算法 章節(jié)。

事實上,理解了pLSA模型,也就差不多快理解了LDA模型,因為LDA就是在pLSA的基礎(chǔ)上加層貝葉斯框架,即LDA就是pLSA的貝葉斯版本(正因為LDA被貝葉斯化了,所以才需要考慮歷史先驗知識,才加的兩個先驗參數(shù))。

下面,咱們對比下本文開頭所述的LDA模型中一篇文檔生成的方式是怎樣的:

LDA中,選主題和選詞依然都是兩個隨機的過程,依然可能是先從主題分布{教育:0.5,經(jīng)濟:0.3,交通:0.2}中抽取出主題:教育,然后再從該主題對應(yīng)的詞分布{大學(xué):0.5,老師:0.3,課程:0.2}中抽取出詞:大學(xué)。

那PLSA跟LDA的區(qū)別在于什么地方呢?區(qū)別就在于:

PLSA中,主題分布和詞分布是唯一確定的,能明確的指出主題分布可能就是{教育:0.5,經(jīng)濟:0.3,交通:0.2},詞分布可能就是{大學(xué):0.5,老師:0.3,課程:0.2}。

但在LDA中,主題分布和詞分布不再唯一確定不變,即無法確切給出。例如主題分布可能是{教育:0.5,經(jīng)濟:0.3,交通:0.2},也可能是{教育:0.6,經(jīng)濟:0.2,交通:0.2},到底是哪個我們不再確定(即不知道),因為它是隨機的可變化的。但再怎么變化,也依然服從一定的分布, 即主題分布跟詞分布由Dirichlet先驗隨機確定。正因為LDA是PLSA的貝葉斯版本,所以主題分布跟詞分布本身由先驗知識隨機給定。

換言之,LDA在pLSA的基礎(chǔ)上給這兩參數(shù) 加了兩個先驗分布的參數(shù)(貝葉斯化):一個主題分布的先驗分布Dirichlet分布 ,和一個詞語分布的先驗分布Dirichlet分布 。

綜上,LDA真的只是pLSA的貝葉斯版本,文檔生成后,兩者都要根據(jù)文檔去推斷其主題分布和詞語分布(即兩者本質(zhì)都是為了估計給定文檔生成主題,給定主題生成詞語的概率),只是用的參數(shù)推斷方法不同,在pLSA中用極大似然估計的思想去推斷兩未知的固定參數(shù),而LDA則把這兩參數(shù)弄成隨機變量,且加入dirichlet先驗。

所以,pLSA跟LDA的本質(zhì)區(qū)別就在于它們?nèi)ス烙嬑粗獏?shù)所采用的思想不同,前者用的是頻率派思想,后者用的是貝葉斯派思想。

LDA參數(shù)估計: Gibbs采樣 ,詳見文末的參考文獻。

推薦系統(tǒng)中的冷啟動問題是指在沒有大量用戶數(shù)據(jù)的情況下如何給用戶進行個性化推薦,目的是最優(yōu)化點擊率、轉(zhuǎn)化率或用戶 體驗(用戶停留時間、留存率等)。冷啟動問題一般分為用戶冷啟動、物品冷啟動和系統(tǒng)冷啟動三大類。

解決冷啟動問題的方法一般是基于內(nèi)容的推薦。以Hulu的場景為例,對于用 戶冷啟動來說,我們希望根據(jù)用戶的注冊信息(如:年齡、性別、愛好等)、搜 索關(guān)鍵詞或者合法站外得到的其他信息(例如用戶使用Facebook賬號登錄,并得 到授權(quán),可以得到Facebook中的朋友關(guān)系和評論內(nèi)容)來推測用戶的興趣主題。 得到用戶的興趣主題之后,我們就可以找到與該用戶興趣主題相同的其他用戶, 通過他們的歷史行為來預(yù)測用戶感興趣的電影是什么。

同樣地,對于物品冷啟動問題,我們也可以根據(jù)電影的導(dǎo)演、演員、類別、關(guān)鍵詞等信息推測該電影所屬于的主題,然后基于主題向量找到相似的電影,并將新電影推薦給以往喜歡看這 些相似電影的用戶。 可以使用主題模型(pLSA、LDA等)得到用戶和電影的主題。

以用戶為例,我們將每個用戶看作主題模型中的一篇文檔,用戶對應(yīng)的特征 作為文檔中的單詞,這樣每個用戶可以表示成一袋子特征的形式。通過主題模型 學(xué)習(xí)之后,經(jīng)常共同出現(xiàn)的特征將會對應(yīng)同一個主題,同時每個用戶也會相應(yīng)地 得到一個主題分布。每個電影的主題分布也可以用類似的方法得到。

那么如何解決系統(tǒng)冷啟動問題呢? 首先可以得到每個用戶和電影對應(yīng)的主題向量,除此之外,還需要知道用戶主題和電影主題之間的偏好程度,也就是哪些主題的用戶可能喜歡哪些主題的電影。當(dāng)系統(tǒng)中沒有任何數(shù)據(jù)時,我們需要一些先驗知識來指定,并且由于主題的數(shù)目通常比較小,隨著系統(tǒng)的上線,收集到少量的數(shù)據(jù)之后我們就可以對主題之間的偏好程度得到一個比較準(zhǔn)確的估計。

通俗理解LDA主題模型

LDA模型應(yīng)用:一眼看穿希拉里的郵件

【 機器學(xué)習(xí)通俗易懂系列文章 】

電動單梁起重機型號lda16t-16.5m中各個代碼的含義是什么

16t表示最大起重量為16t,16.5m表示跨度,也就是行車軌道間距。后面應(yīng)該還有起升高度和工作級別等參數(shù)。


分享名稱:lda代碼詳解java java ldap
網(wǎng)頁地址:http://weahome.cn/article/doipisp.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部