小編給大家分享一下python中提取關(guān)鍵詞的方法,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!
創(chuàng)新互聯(lián)專注于企業(yè)營銷型網(wǎng)站、網(wǎng)站重做改版、蘇仙網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、H5技術(shù)、商城網(wǎng)站開發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)公司、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性價(jià)比高,為蘇仙等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。
簡單的關(guān)鍵詞提取
文章內(nèi)容關(guān)鍵詞的提取分為三大步:
(1) 分詞
(2) 去停用詞
(3) 關(guān)鍵詞提取
分詞方法有很多,我這里就選擇常用的結(jié)巴jieba分詞;去停用詞,我用了一個(gè)停用詞表。具體代碼如下:
import jieba import jieba.analyse #第一步:分詞,這里使用結(jié)巴分詞全模式 text = '''新聞,也叫消息,是指報(bào)紙、電臺(tái)、電視臺(tái)、互聯(lián)網(wǎng)經(jīng)常使用的記錄社會(huì)、傳播信息、反映時(shí)代的一種文體,\ 具有真實(shí)性、時(shí)效性、簡潔性、可讀性、準(zhǔn)確性的特點(diǎn)。\ 新聞概念有廣義與狹義之分。\ 就其廣義而言,除了發(fā)表于報(bào)刊、廣播、電視上的評(píng)論與專文外的常用文本都屬于新聞之列,包括消息、通訊、特寫、速寫 (有的將速寫納入特寫之列)等等。\ 狹義的新聞則專指消息,消息是用概括的敘述方式,比較簡明扼要的文字,迅速及時(shí)地報(bào)道國內(nèi)外新近發(fā)生的、有價(jià)值的的事實(shí)。\ 新聞也分公眾新聞和小道新聞等。每則新聞在結(jié)構(gòu)上,一般包括標(biāo)題、導(dǎo)語、主體、背景和結(jié)語五部分。\ 前三者是主要部分,后二者是輔助部分。寫法上主要是敘述,有時(shí)兼有議論、描寫、評(píng)論等。 ''' fenci_text = jieba.cut(text) #print("/ ".join(fenci_text)) #第二步:去停用詞 #這里是有一個(gè)文件存放要改的文章,一個(gè)文件存放停用表,然后和停用表里的詞比較,一樣的就刪掉,最后把結(jié)果存放在一個(gè)文件中 stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ]) final = "" for word in fenci_text: if word not in stopwords: if (word != "。" and word != ",") : final = final + " " + word print(final) #第三步:提取關(guān)鍵詞 a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ()) b=jieba.analyse.extract_tags(text, topK = 6, allowPOS = ()) print(a) print(b) #text 為待提取的文本 # topK:返回幾個(gè) TF/IDF 權(quán)重最大的關(guān)鍵詞,默認(rèn)值為20。 # withWeight:是否一并返回關(guān)鍵詞權(quán)重值,默認(rèn)值為False。 # allowPOS:僅包括指定詞性的詞,默認(rèn)值為空,即不進(jìn)行篩選。
運(yùn)行結(jié)果如下:
新聞 也 叫 消息 是 指 報(bào)紙 、 電臺(tái) 、 電視臺(tái) 、 互聯(lián)網(wǎng) 經(jīng)常 使用 的 記錄 社會(huì) 、 傳播 信息 、 反映 時(shí)代 的 一種 文體 具有 真實(shí)性 、 時(shí)效性 、 簡潔性 、 可讀性 、 準(zhǔn)確性 的 特點(diǎn) 新聞 概念 有 廣義 與 狹義 之分 就 其 廣義 而言 除了 發(fā)表 于 報(bào)刊 、 廣播 、 電視 上 的 評(píng)論 與 專文 外 的 常用 文本 都 屬于 新聞 之 列 包括 消息 、 通訊 、 特寫 、 速寫 ( 有 的 將 速寫 納入 特寫 之 列 ) 等等 狹義 的 新聞 則 專指 消息 消息 是 用 概括 的 敘述 方式 比較 簡明扼要 的 文字 迅速 及時(shí) 地 報(bào)道 國內(nèi)外 新近 發(fā)生 的 、 有 價(jià)值 的 的 事實(shí) 新聞 也 分 公眾 新聞 和 小道 新聞 等 每則 新聞 在結(jié)構(gòu)上 一般 包括 標(biāo)題 、 導(dǎo)語 、 主體 、 背景 和 結(jié)語 五 部分 前 三者 是 主要 部分 后 二者 是 輔助 部分 寫法 上 主要 是 敘述 有時(shí) 兼有 議論 、 描寫 、 評(píng)論 等 [('新聞', 0.4804811569680808), ('速寫', 0.2121107125313131), ('消息', 0.20363211136040404), ('特寫', 0.20023623445272729), ('狹義', 0.16168734917858588)] ['新聞', '速寫', '消息', '特寫', '狹義', '廣義']
看完了這篇文章,相信你對(duì)python中提取關(guān)鍵詞的方法有了一定的了解,想了解更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!