關(guān)于LDA主題模型,一度是NLP領(lǐng)域一個(gè)非?;鸬哪P?,后來深度學(xué)習(xí)大放異彩,它的熱度才慢慢降了下來。
十多年的龍安網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。網(wǎng)絡(luò)營銷推廣的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整龍安建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。成都創(chuàng)新互聯(lián)從事“龍安網(wǎng)站設(shè)計(jì)”,“龍安網(wǎng)站推廣”以來,每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。
由于數(shù)學(xué)基礎(chǔ)很差,一直沒有理解LDA的整個(gè)核心。到目前為止,也只是理解了皮毛。記錄一下關(guān)于LDA主題模型相關(guān)的學(xué)習(xí)資料。
LDA主題模型屬于編碼簡(jiǎn)單,但是數(shù)學(xué)功底要求較高的一個(gè)機(jī)器學(xué)習(xí)模型,在搜索引擎和廣告領(lǐng)域有用到。按照《LDA 數(shù)學(xué)八卦》作者靳志輝老師的說法,是一個(gè)比較簡(jiǎn)單的模型,前提是需要數(shù)學(xué)功底扎實(shí)。如果統(tǒng)計(jì)學(xué)基礎(chǔ)扎實(shí),理解LDA主題模型基本是一馬平川。
理解LDA主題模型,其實(shí)包含4大塊的內(nèi)容: 微積分基礎(chǔ),概率論與數(shù)理統(tǒng)計(jì)基礎(chǔ), 隨機(jī)模擬算法, 文本建模思路。LDA數(shù)學(xué)八卦講解的思路就是微積分-分布函數(shù)-隨機(jī)模擬-文本建模這條主線的。個(gè)人認(rèn)為,如果數(shù)學(xué)基礎(chǔ)比較差的話,光靠《LDA數(shù)學(xué)八卦》是很難理解清楚LDA主題模型的。出于彌補(bǔ)數(shù)學(xué)短板的目的,也是出于興趣,我前后看了一些書。如下的書籍我覺得還是不錯(cuò)的。
《普林斯頓微積分讀本》 這本書從高中數(shù)學(xué)的基本函數(shù)開始,到微積分的各種技巧。講解細(xì)致,學(xué)習(xí)曲線平緩。
如果這本書覺得枯燥,可以配合如下的4本科普入門。
《數(shù)學(xué)悖論與三次數(shù)學(xué)危機(jī)》
《天才引導(dǎo)的歷程:數(shù)學(xué)中的偉大定理》
《微積分的歷程:從牛頓到勒貝格》
《簡(jiǎn)單微積分 : 學(xué)校未教過的超簡(jiǎn)易入門技巧》
這幾本書下來,不敢說理解微積分了,至少看到微積分的那個(gè)求和符號(hào)會(huì)感覺親切很多。
關(guān)于數(shù)理統(tǒng)計(jì),有幾個(gè)個(gè)人名不得不提: 陳希儒,吳喜之,茆詩松。
《機(jī)會(huì)的數(shù)學(xué)》
《數(shù)理統(tǒng)計(jì)學(xué)簡(jiǎn)史》
上面兩本是科普層面的書,簡(jiǎn)史中數(shù)學(xué)推導(dǎo)有點(diǎn)難,但是不妨礙理解整個(gè)主線條。接下來就是比較硬的專業(yè)書籍了。
《概率論與數(shù)理統(tǒng)計(jì)教程》(茆詩松)
《概率論與數(shù)理統(tǒng)計(jì)》(陳希孺)
《數(shù)理統(tǒng)計(jì)學(xué)教程》(陳希孺)
《貝葉斯統(tǒng)計(jì)》(茆詩松)
這里面能看懂多少是多少吧,我到現(xiàn)在也只能理解很少的一部分。到這里,就到了LDA數(shù)學(xué)八卦里面提到的數(shù)學(xué)不超出《概率論與數(shù)理統(tǒng)計(jì)》這本書的層級(jí)了。其實(shí),陳院士的這本書難度還是頗大的,畢竟立足點(diǎn)高遠(yuǎn)。就像《高觀點(diǎn)下的初等數(shù)學(xué)》那樣,盡管講解的是初等數(shù)學(xué),但是無奈站的太高,只能仰望。 吳喜之教授的幾本書,在豆瓣上評(píng)價(jià)也挺不錯(cuò)的,可以搭配著看。
其實(shí)隨機(jī)模擬是比較簡(jiǎn)單的。這里推薦一本講隨機(jī)模擬的書,盡管里面沒有講Gibbs算法。我是看了這本書,才理解了MCMC算法的基本思路的。個(gè)人覺得對(duì)于理解MCMC算法非常有幫助。
《隨機(jī)模擬方法與應(yīng)用》
看完這本書的幾個(gè)章節(jié)估計(jì)就能理解清楚MCMC算法的來龍去脈了。 幾乎沒有書籍專門講解MCMC是因?yàn)樗膬?nèi)容基本不足以支撐一本書。
《統(tǒng)計(jì)模擬》在豆瓣的評(píng)價(jià)也不錯(cuò),應(yīng)該可以搭配著看。
我理解文本建模就是數(shù)學(xué)建模。各種降低現(xiàn)實(shí)問題復(fù)雜度的假設(shè),比如詞袋模型。其實(shí)有了前面的數(shù)學(xué)基礎(chǔ),這里應(yīng)該是不需要看什么書來幫助理解的。如果一定要看一下的話,吳軍老師的《數(shù)學(xué)之美》我覺得應(yīng)該不錯(cuò)。再或者,看一下《統(tǒng)計(jì)自然語言處理基礎(chǔ)》。
個(gè)人覺得,看書沒必要嚴(yán)格按照一定的先后順序,相互印證,配合理解才是王道。
整個(gè)路徑梳理下來,感覺對(duì)于機(jī)器學(xué)習(xí)的模型,最關(guān)鍵的還是數(shù)學(xué)功底。去年看了一些數(shù)學(xué)類的書籍,感覺數(shù)學(xué)還是相當(dāng)有意思的,關(guān)鍵在于選擇合適自己當(dāng)前水平的書,才能不至于因?yàn)殡y度太大而喪失探索的興趣和欲望。 李健老師說"重復(fù)也是一種力量", 路慢慢其修遠(yuǎn)兮,呵護(hù)培養(yǎng)著興趣,且行且珍惜吧。