一、準(zhǔn)備數(shù)據(jù)
成都創(chuàng)新互聯(lián)公司堅持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:網(wǎng)站制作、成都網(wǎng)站設(shè)計、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時代的扎賚諾爾網(wǎng)站設(shè)計、移動媒體設(shè)計的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!數(shù)據(jù)格式為:documents: RDD[(Long, Vector)],其中:Long為文章ID,Vector為文章分詞后的詞向量;
通過分詞以及數(shù)據(jù)格式的轉(zhuǎn)換,轉(zhuǎn)換成RDD[(Long, Vector)]即可。
二、建立模型
import org.apache.spark.mllib.clustering._
val ldaOptimizer = new OnlineLDAOptimizer().setOptimizeDocConcentration(true)
val lda = new LDA()
lda.setK(params.k)
.setMaxIterations(params.maxIterations)
.setDocConcentration(params.docConcentration)
.setTopicConcentration(params.topicConcentration)
.setOptimizer(ldaOptimizer)
.setCheckpointInterval(10)
.setSeed(1234)
val modelLDA: LDAModel = lda.run(corpus)
modelLDA.save(sc.sparkContext, params.modelPath)
三、模型參數(shù)
case class NewsParams(
k: Int = 100,
maxIterations: Int = 100,
docConcentration: Double = -1,
topicConcentration: Double = -1,
stopWordFile: String = "zh_stopwords.txt",
modelPath: String = "LDAModel.14.100",
ldaJsonPath:String = "ldaModel.14.200.json",
vocabPath: String = "vocab_info" )
四、結(jié)果輸出
topicsMatrix以及topics(word,topic))輸出。mllib上的lda不是分布式的,目前只存儲topic的信息,而不存儲doc的信息,如果獲取只能使用ml中的lda或者通過以下代碼實現(xiàn)。
val ldaModel = lda.run(documents)
val distLDAModel = ldaModel.asInstanceOf[DistributedLDAModel]
distLDAModel.topicDistributions
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。