關(guān)于LDA主題模型,一度是NLP領(lǐng)域一個(gè)非?;鸬哪P?,后來深度學(xué)習(xí)大放異彩,它的熱度才慢慢降了下來。
讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來自于我們對(duì)這個(gè)行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡(jiǎn)單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴,公司提供的服務(wù)項(xiàng)目有:域名申請(qǐng)、網(wǎng)站空間、營銷軟件、網(wǎng)站建設(shè)、新北網(wǎng)站維護(hù)、網(wǎng)站推廣。由于數(shù)學(xué)基礎(chǔ)很差,一直沒有理解LDA的整個(gè)核心。到目前為止,也只是理解了皮毛。記錄一下關(guān)于LDA主題模型相關(guān)的學(xué)習(xí)資料。
LDA主題模型屬于編碼簡(jiǎn)單,但是數(shù)學(xué)功底要求較高的一個(gè)機(jī)器學(xué)習(xí)模型,在搜索引擎和廣告領(lǐng)域有用到。按照《LDA 數(shù)學(xué)八卦》作者靳志輝老師的說法,是一個(gè)比較簡(jiǎn)單的模型,前提是需要數(shù)學(xué)功底扎實(shí)。如果統(tǒng)計(jì)學(xué)基礎(chǔ)扎實(shí),理解LDA主題模型基本是一馬平川。
理解LDA主題模型,其實(shí)包含4大塊的內(nèi)容: 微積分基礎(chǔ),概率論與數(shù)理統(tǒng)計(jì)基礎(chǔ), 隨機(jī)模擬算法, 文本建模思路。LDA數(shù)學(xué)八卦講解的思路就是微積分-分布函數(shù)-隨機(jī)模擬-文本建模這條主線的。個(gè)人認(rèn)為,如果數(shù)學(xué)基礎(chǔ)比較差的話,光靠《LDA數(shù)學(xué)八卦》是很難理解清楚LDA主題模型的。出于彌補(bǔ)數(shù)學(xué)短板的目的,也是出于興趣,我前后看了一些書。如下的書籍我覺得還是不錯(cuò)的。
《普林斯頓微積分讀本》 這本書從高中數(shù)學(xué)的基本函數(shù)開始,到微積分的各種技巧。講解細(xì)致,學(xué)習(xí)曲線平緩。
如果這本書覺得枯燥,可以配合如下的4本科普入門。
《數(shù)學(xué)悖論與三次數(shù)學(xué)危機(jī)》
《天才引導(dǎo)的歷程:數(shù)學(xué)中的偉大定理》
《微積分的歷程:從牛頓到勒貝格》
《簡(jiǎn)單微積分 : 學(xué)校未教過的超簡(jiǎn)易入門技巧》
這幾本書下來,不敢說理解微積分了,至少看到微積分的那個(gè)求和符號(hào)會(huì)感覺親切很多。
關(guān)于數(shù)理統(tǒng)計(jì),有幾個(gè)個(gè)人名不得不提: 陳希儒,吳喜之,茆詩松。
《機(jī)會(huì)的數(shù)學(xué)》
《數(shù)理統(tǒng)計(jì)學(xué)簡(jiǎn)史》
上面兩本是科普層面的書,簡(jiǎn)史中數(shù)學(xué)推導(dǎo)有點(diǎn)難,但是不妨礙理解整個(gè)主線條。接下來就是比較硬的專業(yè)書籍了。
《概率論與數(shù)理統(tǒng)計(jì)教程》(茆詩松)
《概率論與數(shù)理統(tǒng)計(jì)》(陳希孺)
《數(shù)理統(tǒng)計(jì)學(xué)教程》(陳希孺)
《貝葉斯統(tǒng)計(jì)》(茆詩松)
這里面能看懂多少是多少吧,我到現(xiàn)在也只能理解很少的一部分。到這里,就到了LDA數(shù)學(xué)八卦里面提到的數(shù)學(xué)不超出《概率論與數(shù)理統(tǒng)計(jì)》這本書的層級(jí)了。其實(shí),陳院士的這本書難度還是頗大的,畢竟立足點(diǎn)高遠(yuǎn)。就像《高觀點(diǎn)下的初等數(shù)學(xué)》那樣,盡管講解的是初等數(shù)學(xué),但是無奈站的太高,只能仰望。 吳喜之教授的幾本書,在豆瓣上評(píng)價(jià)也挺不錯(cuò)的,可以搭配著看。
其實(shí)隨機(jī)模擬是比較簡(jiǎn)單的。這里推薦一本講隨機(jī)模擬的書,盡管里面沒有講Gibbs算法。我是看了這本書,才理解了MCMC算法的基本思路的。個(gè)人覺得對(duì)于理解MCMC算法非常有幫助。
《隨機(jī)模擬方法與應(yīng)用》
看完這本書的幾個(gè)章節(jié)估計(jì)就能理解清楚MCMC算法的來龍去脈了。 幾乎沒有書籍專門講解MCMC是因?yàn)樗膬?nèi)容基本不足以支撐一本書。
《統(tǒng)計(jì)模擬》在豆瓣的評(píng)價(jià)也不錯(cuò),應(yīng)該可以搭配著看。
我理解文本建模就是數(shù)學(xué)建模。各種降低現(xiàn)實(shí)問題復(fù)雜度的假設(shè),比如詞袋模型。其實(shí)有了前面的數(shù)學(xué)基礎(chǔ),這里應(yīng)該是不需要看什么書來幫助理解的。如果一定要看一下的話,吳軍老師的《數(shù)學(xué)之美》我覺得應(yīng)該不錯(cuò)。再或者,看一下《統(tǒng)計(jì)自然語言處理基礎(chǔ)》。
個(gè)人覺得,看書沒必要嚴(yán)格按照一定的先后順序,相互印證,配合理解才是王道。
整個(gè)路徑梳理下來,感覺對(duì)于機(jī)器學(xué)習(xí)的模型,最關(guān)鍵的還是數(shù)學(xué)功底。去年看了一些數(shù)學(xué)類的書籍,感覺數(shù)學(xué)還是相當(dāng)有意思的,關(guān)鍵在于選擇合適自己當(dāng)前水平的書,才能不至于因?yàn)殡y度太大而喪失探索的興趣和欲望。 李健老師說"重復(fù)也是一種力量", 路慢慢其修遠(yuǎn)兮,呵護(hù)培養(yǎng)著興趣,且行且珍惜吧。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。