這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)Python中怎么實(shí)現(xiàn)文本分析,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
南山網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián)公司,南山網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為南山上千多家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\外貿(mào)網(wǎng)站建設(shè)要多少錢(qián),請(qǐng)找那個(gè)售后服務(wù)好的南山做網(wǎng)站的公司定做!
任務(wù)(Task)
人為判斷同義詞很簡(jiǎn)單,但用程序來(lái)判斷就不簡(jiǎn)單了。小愛(ài)想到了兩種方式:制作一個(gè)同義詞庫(kù);計(jì)算所有詞語(yǔ)的相似度,將相似度高于閾值的詞語(yǔ)作為同義詞。
同義詞庫(kù)。在網(wǎng)上百度一番,只發(fā)現(xiàn)了一個(gè)哈工大的同義詞庫(kù),滿心歡喜地點(diǎn)進(jìn)去一看,發(fā)現(xiàn)頁(yè)面已經(jīng)不存在了,真是欲哭無(wú)淚!小愛(ài)心想,要不自己制作一個(gè)同義詞庫(kù)?再仔細(xì)一思考其中工作量,算了,還是打消念頭吧,這種方式行不通。
相似度計(jì)算。小愛(ài)查詢到Python中的synonyms庫(kù)提供了計(jì)算兩個(gè)詞語(yǔ)相似度的方法,結(jié)果還較為靠譜,于是就準(zhǔn)備采用此種方式了。
行動(dòng)(Action)
在找了一篇幾百字的文章進(jìn)行測(cè)試之后,小愛(ài)發(fā)現(xiàn)這種方式行得通。于是就正式開(kāi)始運(yùn)用于公司的文本數(shù)據(jù)了。這時(shí),新的問(wèn)題又出現(xiàn)了。
公司的客戶反饋數(shù)據(jù)有數(shù)十上百萬(wàn)條,分詞后的詞語(yǔ)集合在去除停用詞之后也有幾萬(wàn)個(gè),小愛(ài)的代碼在計(jì)算相似度的時(shí)候卡住了。這個(gè)時(shí)候小愛(ài)才醒悟過(guò)來(lái):樣本數(shù)據(jù)分詞的詞語(yǔ)量少,計(jì)算量自然少,但隨著詞語(yǔ)數(shù)量的增加,計(jì)算量也是呈指數(shù)增長(zhǎng)的。
上述就是小編為大家分享的Python中怎么實(shí)現(xiàn)文本分析了,如果剛好有類(lèi)似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。