真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

怎么用用python制作詞云圖

這篇文章主要為大家展示了“怎么用用python制作詞云圖”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“怎么用用python制作詞云圖”這篇文章吧。

成都創(chuàng)新互聯(lián)是一家專業(yè)提供右玉企業(yè)網(wǎng)站建設(shè),專注與網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站建設(shè)、html5、小程序制作等業(yè)務(wù)。10年已為右玉眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站制作公司優(yōu)惠進(jìn)行中。

【示例代碼】

# coding=utf-8
# @Software : PyCharm
import numpy as np
import jieba
from PIL import Image
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt

def draw_word_cloud(word):
   words = jieba.cut(word)
   wordstr = " ".join(words)
   sw = set(STOPWORDS)
   sw.add("ok")
   mask = np.array(Image.open('2.jpg'))
   wc = WordCloud(
       font_path='C:/Windows/Fonts/simhei.ttf',  # 設(shè)置字體格式
       mask=mask,
       max_words=200,
       max_font_size=100,
       stopwords=sw,
       scale=4,
   ).generate(wordstr)

   # 顯示詞云圖
   plt.imshow(wc)
   plt.axis("off")
   plt.show()
   # 保存詞云圖
   wc.to_file('result.jpg')

if __name__ == "__main__":
   with open("test2.txt", "rb") as f:
       word = f.read()
   draw_word_cloud(word)

【效果如下】

怎么用用python制作詞云圖

【知識點(diǎn)】

1、詞云圖 制作前,需要先準(zhǔn)備幾個(gè)東西:

(1)下載python wordcloud庫,也是詞圖庫制作的關(guān)鍵庫。我在下載這個(gè)庫 時(shí),經(jīng)常因?yàn)榫W(wǎng)絡(luò)超時(shí)導(dǎo)致下載失敗,怎么辦呢?多試幾次唄;

(2)numpy庫,用于圖片處理,將圖片讀取后解析成數(shù)組;

(3)如果要對中文句子進(jìn)行分詞,那么需要jieba庫;如果是英文分詞,那可以不下載;

(4)如果要在界面上直接展示詞云圖 ,那么需要matlplotlib來畫圖;

(5)要處理圖片,根據(jù)少不了PIL,畢竟它可是官方的圖像處理庫;

2、接下來,就是準(zhǔn)備要分析的內(nèi)容。示例代碼中的txt內(nèi)容,是我上一篇文章。然后就是詞云圖的形狀。示例代碼中的圖片2.jpg原圖如下:

怎么用用python制作詞云圖

3、準(zhǔn)備工作 做完了,那自然就開始編碼了。

(1)jieba.cut():就是對txt內(nèi)容進(jìn)行分詞了,注意得到的是個(gè)generator,因此需要將其轉(zhuǎn)成字符串;當(dāng)然也可以使用jieba.lcut(),這 樣得到的就是列表了;

(2)STOPWORDS集合的設(shè)置:停用詞有什么呢?主要是對一些你不想要的單詞進(jìn)行過濾,比如“好的”“可以”這 類單詞。另外,在對停用詞進(jìn)行過濾時(shí),有兩種方法,一種是像示例代碼,將stopwords作為wordcloud方法的參數(shù),這樣最簡單;也可以自己寫段代碼,人為過濾停用詞;

(3)將你要的詞云圖形狀圖片打開,并作為參數(shù)傳給wordcloud方法

(4)wordcloud方法各參數(shù)的意義,可以參考其他帖子:

https://blog.csdn.net/kouyi5627/article/details/80530569

里面我想著重講的是regexp參數(shù),即正則表達(dá)式。沒錯(cuò),就是正則表達(dá)式,有了這個(gè)參數(shù),我們可以用正則表達(dá)式規(guī)則進(jìn)一步實(shí)現(xiàn)自己的單詞過濾,比如\d只顯示數(shù)字。我之前遇到過 這 個(gè)坑,下面再講。

另外,scale=4生成的圖片一般是500KB左右,如果不填,默認(rèn)只有10幾KB;

(5)對內(nèi)容進(jìn)行生成詞云圖時(shí),generate方法最簡單,直接將字符串傳進(jìn)來就可以;generate_from_frequencies方法的話,需要傳入字典,并自己統(tǒng)計(jì)好每個(gè)單詞的次數(shù);

(6)界面顯示詞云圖的代碼很簡單,axis("off")是為了不顯示坐標(biāo),這樣更美觀;

(7)即將生成的詞云圖保存到本地,也不多解釋。

綜上,大致就是示例代碼 的流程,是不是蠻簡單的?那自己動(dòng)手來玩一次吧。

4、下面我再講講自己在制作詞云圖遇到的坑。

    一開始我是想對各期雙色球號碼進(jìn)行詞云圖分析的,結(jié)果一直報(bào)錯(cuò),錯(cuò)誤如下:

ValueError: We need at least 1 word to plot a word cloud, got 0.

意思就是說我傳入的wordstr是空的?怎么可能呢,我明明有數(shù)字呀?最后我在wordcloud方法的官方說明中找到了原因:

怎么用用python制作詞云圖

看到?jīng)]?regexp參數(shù)如果不填寫的話,默認(rèn)是會自動(dòng)過濾掉單個(gè)詞的,因此數(shù)字就是因?yàn)檫@個(gè)原因一直被過濾了。怎么解決呢?有兩個(gè)辦法,第一就是傳入regexp參數(shù),比如regexp="\d*";第二種方法就是用

generate_from_frequencies方法,這樣因?yàn)橛忻總€(gè)數(shù)字的頻繁在,就不會自動(dòng)被過濾掉了。從我自己的使用結(jié)果來看,還是用第二種方法的效果好看點(diǎn)。

以上是“怎么用用python制作詞云圖”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


本文名稱:怎么用用python制作詞云圖
網(wǎng)址分享:http://weahome.cn/article/iegphj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部