真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網站制作重慶分公司

Python如何實現(xiàn)Wordcloud生成詞云圖-創(chuàng)新互聯(lián)

小編給大家分享一下Python如何實現(xiàn)Wordcloud生成詞云圖,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!

10年的濱江網站建設經驗,針對設計、前端、開發(fā)、售后、文案、推廣等六對一服務,響應快,48小時及時工作處理。營銷型網站的優(yōu)勢是能夠根據用戶設備顯示端的尺寸不同,自動調整濱江建站的顯示方式,使網站能夠適用不同顯示終端,在瀏覽器中調整網站的寬度,無論在任何一種瀏覽器上瀏覽網站,都能展現(xiàn)優(yōu)雅布局與設計,從而大程度地提升瀏覽體驗。創(chuàng)新互聯(lián)從事“濱江網站設計”,“濱江網站推廣”以來,每個客戶項目都認真落實執(zhí)行。

wordcloud是Python擴展庫中一種將詞語用圖片表達出來的一種形式,通過詞云生成的圖片,我們可以更加直觀的看出某篇文章的故事梗概。

首先貼出一張詞云圖(以哈利波特小說為例):

Python如何實現(xiàn)Wordcloud生成詞云圖

在生成詞云圖之前,首先要做一些準備工作

1.安裝結巴分詞庫

pip install jieba

Python如何實現(xiàn)Wordcloud生成詞云圖

Python中的分詞模塊有很多,他們的功能也都是大同小異,我們安裝的結巴分詞 是當前使用的最多的類型。

下面我來簡單介紹一下結巴分詞的用法

結巴分詞的分詞模式分為三種:

(1)全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題

(2)精確模式:將句子最精確地切開,適合文本分析

(3)搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞

下面用一個簡單的例子來看一下三種模式的分詞區(qū)別:

import jieba
 
 # 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題
 text = "哈利波特是一常優(yōu)秀的文學作品"
 seg_list = jieba.cut(text, cut_all=True)
 print(u"[全模式]: ", "/ ".join(seg_list))
 
 # 精確模式:將句子最精確地切開,適合文本分析
 seg_list = jieba.cut(text, cut_all=False)
 print(u"[精確模式]: ", "/ ".join(seg_list))
 
 # 默認是精確模式
 seg_list = jieba.cut(text)
 print(u"[默認模式]: ", "/ ".join(seg_list))
 
 # 搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞
seg_list = jieba.cut_for_search(text)
print(u"[搜索引擎模式]: ", "/ ".join(seg_list))

下面是對這句話的分詞方式:

Python如何實現(xiàn)Wordcloud生成詞云圖

通過這三種分詞模式可以看出,這些分詞模式并沒有很好的劃分出“哈利波特”這個專有名詞,這是因為在結巴分詞的字典中并沒有記錄這個名詞,所以需要我們手動添加自定義字典

添加自定義字典:找一個方便引用的位置              (下圖的路徑是我安裝的位置),新建文本文檔(后綴名為.txt),將想添加的詞輸入進去(注意輸入格式),保存并退出

Python如何實現(xiàn)Wordcloud生成詞云圖

在上面的代碼中加入自定義字典的路徑,再點擊運行

jieba.load_userdict("/home/jmhao/anaconda3/lib/python3.7/site-packages/jieba/mydict.txt")

分詞結果,可以看出“哈利波特”這個詞已經被識別出來了

Python如何實現(xiàn)Wordcloud生成詞云圖

結巴分詞還有另一個禁用詞的輸出結果

 stopwords = {}.fromkeys(['優(yōu)秀', '文學作品'])
 
 #添加禁用詞之后
 seg_list = jieba.cut(text)
 final = ''
 for seg in seg_list:
   if seg not in stopwords:
       final += seg
 seg_list_new = jieba.cut(final)
 print(u"[切割之后]: ", "/ ".join(seg_list_new))

可以看到輸出結果中并沒有“優(yōu)秀”和“文學作品”兩個詞

Python如何實現(xiàn)Wordcloud生成詞云圖

結巴分詞還有很多比較復雜的操作,具體的可以去官網查看,我就不再過多的贅述了

下面我們正式開始詞云的制作

首先下載模塊,這里我所使用的環(huán)境是Anaconda,由于Anaconda中包含很多常用的擴展包,所以這里只需要下載wordcloud。若使用的環(huán)境不是Anaconda,則另需安裝numpy和PIL模塊

pip install wordcloud

Python如何實現(xiàn)Wordcloud生成詞云圖

然后我們需要找一篇文章并使用結巴分詞將文章分成詞語的形式

# 分詞模塊
 def cut(text):
   # 選擇分詞模式
   word_list = jieba.cut(text,cut_all= True)
   # 分詞后在單獨個體之間加上空格
   result = " ".join(word_list)
   # 返回分詞結果
   return result

這里我在當前文件夾下創(chuàng)建了一個文本文檔“xiaoshuo.txt”,并復制了一章的小說作為詞云的主體文字

使用代碼控制,打開并讀取小說的內容

 #導入文本文件,進行分詞,制作詞云
 with open("xiaoshuo.txt") as fp:
   text = fp.read()
   # 將讀取的中文文檔進行分詞
   text = cut(text)

在網上找到一張白色背景的圖片下載到當前文件夾,作為詞云的背景圖(若不指定圖片,則默認生成矩形詞云)

#設置詞云形狀,若設置了詞云的形狀,生成的詞云與圖片保持一致,后面設置的寬度和高度將默認無效
  mask = np.array(image.open("monkey.jpeg"))

接下來可以根據喜好來定義詞云的顏色、輪廓等參數 下面為常用的參數設置方法

font_path : "字體路徑"詞云的字體樣式,若要輸出中文,則跟隨中文的字體
width =  n畫布寬度,默認為400像素
height =  n畫布高度,默認為400像素
scale = n按比例放大或縮小畫布
min_font_size = n設置最小的字體大小
max_font_size = n設置大的字體大小
stopwords = 'words'設置要屏蔽的詞語
background_color = ''color設置背景板顏色
relative_scaling = n設置字體大小與詞頻的關聯(lián)性
contour_width = n設置輪廓寬度
contour_color = 'color'設置輪廓顏色

完整代碼

#導入詞云庫
 from wordcloud import WordCloud
 #導入圖像處理庫
 import PIL.Image as image
 #導入數據處理庫
 import numpy as np
 #導入結巴分詞庫
 import jieba
 
 # 分詞模塊
 def cut(text):
   # 選擇分詞模式
   word_list = jieba.cut(text,cut_all= True)
   # 分詞后在單獨個體之間加上空格
   result = " ".join(word_list)
   return result
 
 #導入文本文件,進行分詞,制作詞云
 with open("xiaoshuo.txt") as fp:
   text = fp.read()
   # 將讀取的中文文檔進行分詞
   text = cut(text)
   #設置詞云形狀
   mask = np.array(image.open("monkey.jpeg"))
   #自定義詞云
   wordcloud = WordCloud(
     # 遮罩層,除白色背景外,其余圖層全部繪制(之前設置的寬高無效)
     mask=mask,
     #默認黑色背景,更改為白色
     background_color='#FFFFFF',
     #按照比例擴大或縮小畫布
     scale=,
     # 若想生成中文字體,需添加中文字體路徑
     font_path="/usr/share/fonts/bb5828/逐浪雅宋體.otf"
   ).generate(text)
   #返回對象
   image_produce = wordcloud.to_image()
   #保存圖片
   wordcloud.to_file("new_wordcloud.jpg")
   #顯示圖像
   image_produce.show()

注:若想要生成圖片樣式的詞云圖,找到的圖片背景必須為白色,或者使用Photoshop摳圖替換成白色背景,否則生成的詞云為矩形

我的詞云原圖:

Python如何實現(xiàn)Wordcloud生成詞云圖

生成的詞云圖:

Python如何實現(xiàn)Wordcloud生成詞云圖 

看完了這篇文章,相信你對“Python如何實現(xiàn)Wordcloud生成詞云圖”有了一定的了解,如果想了解更多相關知識,歡迎關注創(chuàng)新互聯(lián)成都網站設計公司行業(yè)資訊頻道,感謝各位的閱讀!

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。


當前名稱:Python如何實現(xiàn)Wordcloud生成詞云圖-創(chuàng)新互聯(lián)
分享URL:http://weahome.cn/article/dsjcsd.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部