python實現(xiàn)關鍵詞提取的示例講解-創(chuàng)新互聯(lián)

新人小菜鳥又來寫博客啦?。?！沒人表示不開心~~(>_<)~~

企業(yè)建站必須是能夠以充分展現(xiàn)企業(yè)形象為主要目的，是企業(yè)文化與產品對外擴展宣傳的重要窗口，一個合格的網站不僅僅能為公司帶來巨大的互聯(lián)網上的收集和信息發(fā)布平臺，成都創(chuàng)新互聯(lián)面向各種領域：花箱等成都網站設計公司、成都營銷網站建設解決方案、網站設計等建站排名服務。

今天我來弄一個簡單的關鍵詞提取的代碼

文章內容關鍵詞的提取分為三大步：

（1）分詞

（2）去停用詞

（3）關鍵詞提取

分詞方法有很多，我這里就選擇常用的結巴jieba分詞；去停用詞，我用了一個停用詞表。

具體代碼如下：

import jieba
import jieba.analyse
#第一步：分詞，這里使用結巴分詞全模式
text = '''新聞，也叫消息，是指報紙、電臺、電視臺、互聯(lián)網經常使用的記錄社會、傳播信息、反映時代的一種文體，具有真實性、時效性、簡潔性、可讀性、準確性的特點。新聞概念有廣義與狹義之分。就其廣義而言，除了發(fā)表于報刊、廣播、電視上的評論與專文外的常用文本都屬于新聞之列，包括消息、通訊、特寫、速寫（有的將速寫納入特寫之列）等等。狹義的新聞則專指消息，消息是用概括的敘述方式，比較簡明扼要的文字，迅速及時地報道國內外新近發(fā)生的、有價值的的事實。新聞也分公眾新聞和小道新聞等。每則新聞在結構上，一般包括標題、導語、主體、背景和結語五部分。前三者是主要部分，后二者是輔助部分。寫法上主要是敘述，有時兼有議論、描寫、評論等。
'''
fenci_text = jieba.cut(text)
#print("/ ".join(fenci_text))
#第二步：去停用詞
#這里是有一個文件存放要改的文章，一個文件存放停用表，然后和停用表里的詞比較，一樣的就刪掉，最后把結果存放在一個文件中
stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])
final = ""
for word in fenci_text:
  if word not in stopwords:
    if (word != "。" and word != "，") :
      final = final + " " + word
print(final)
#第三步：提取關鍵詞
a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
print(a)
#text 為待提取的文本
# topK:返回幾個 TF/IDF 權重大的關鍵詞，默認值為20。
# withWeight:是否一并返回關鍵詞權重值，默認值為False。
# allowPOS:僅包括指定詞性的詞，默認值為空，即不進行篩選。

分享標題：python實現(xiàn)關鍵詞提取的示例講解-創(chuàng)新互聯(lián)
分享網址：http://weahome.cn/article/ejcgs.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

python實現(xiàn)關鍵詞提取的示例講解-創(chuàng)新互聯(lián)

其他資訊

網站制作

企業(yè)服務

網站建設

服務器托管