期末復(fù)習(xí)比較忙過段時間來專門寫scrapy框架使用,今天介紹如何用python生成詞云,雖然網(wǎng)上有很多詞云生成工具,不過自己用python來寫是不是更有成就感。
堅守“ 做人真誠 · 做事靠譜 · 口碑至上 · 高效敬業(yè) ”的價值觀,專業(yè)網(wǎng)站建設(shè)服務(wù)10余年為成都假山制作小微創(chuàng)業(yè)公司專業(yè)提供成都定制網(wǎng)站營銷網(wǎng)站建設(shè)商城網(wǎng)站建設(shè)手機(jī)網(wǎng)站建設(shè)小程序網(wǎng)站建設(shè)網(wǎng)站改版,從內(nèi)容策劃、視覺設(shè)計、底層架構(gòu)、網(wǎng)頁布局、功能開發(fā)迭代于一體的高端網(wǎng)站建設(shè)服務(wù)。
今天要生成的是勵志歌曲的詞云,百度文庫里面找了20來首,如《倔強(qiáng)》,海闊天空是,什么的大家熟悉的。
所要用到的python庫有 jieba(一個中文分詞庫)、wordcould 、matplotlib、PIL、numpy。
首先我們要做的是讀取歌詞。我將歌詞存在了文件目錄下勵志歌曲文本中。
現(xiàn)在來讀取他
12345
#encoding=gbklyric= ''f=open('./勵志歌曲歌詞.txt','r')for i in f:??lyric+=f.read()
加入#encoding=gbk是為了防止后面操作報錯SyntaxError: Non-UTF-8 code starting with '\xc0'
然后我們用jieba分詞來對歌曲做分詞提取出詞頻高的詞
123456
import jieba.analyseresult=jieba.analyse.textrank(lyric,topK=50,withWeight=True)keywords = dict()for i in result:??keywords[i[0]]=i[1]print(keywords)
得到結(jié)果:
然后我們就可以通過wrodcloud等庫來生成詞云了
首先先自己找一張圖片來作為生成詞云的形狀的圖
12345678910111213
from PIL import Image,ImageSequenceimport numpy as npimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,ImageColorGeneratorimage= Image.open('./tim.jpg')graph = np.array(image)wc = WordCloud(font_path='./fonts/simhei.ttf',background_color='White',max_words=50,mask=graph)wc.generate_from_frequencies(keywords)image_color = ImageColorGenerator(graph)plt.imshow(wc)plt.imshow(wc.recolor(color_func=image_color))plt.axis("off")plt.show()
保存生成圖片
1
wc.to_file('dream.png')
完整代碼:
1234567891011121314151617181920212223242526272829
#encoding=gbkimport jieba.analysefrom PIL import Image,ImageSequenceimport numpy as npimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,ImageColorGeneratorlyric= ''f=open('./勵志歌曲歌詞.txt','r')for i in f:??lyric+=f.read()??result=jieba.analyse.textrank(lyric,topK=50,withWeight=True)keywords = dict()for i in result:??keywords[i[0]]=i[1]print(keywords)??image= Image.open('./tim.jpg')graph = np.array(image)wc = WordCloud(font_path='./fonts/simhei.ttf',background_color='White',max_words=50,mask=graph)wc.generate_from_frequencies(keywords)image_color = ImageColorGenerator(graph)plt.imshow(wc)plt.imshow(wc.recolor(color_func=image_color))plt.axis("off")plt.show()wc.to_file('dream.png')
以上這篇python生成詞云的實現(xiàn)方法(推薦)就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
import numpy as np? #數(shù)據(jù)處理
import matplotlib.pyplot as plt? #作圖
from wordcloud import? WordCloud ? #詞云函數(shù)
import jieba? #分割中文的包
from imageio import imread? #讀取圖片? ?....后面還有根據(jù)自己需要安裝包
解決辦法:在open函數(shù)中加上encoding="utf-8"
with open("./xxx.txt",'r',encoding='utf-8')as f:
text=f.read()
f.close()
解決辦法:選擇一個支持中文顯示的字體。如在電腦中C:\Windows\Fonts\選擇有個中文的字體,如,font = r'C:\Windows\Fonts\simfang.ttf',后面再使用WordCloud?的參數(shù)font_path=font。
幾個簡單實例:
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud
text = "square"? #表示內(nèi)容
x, y = np.ogrid[:300, :300]
mask = (x - 150) ** 2 + (y - 150) ** 2 130 ** 2
mask = 255 * mask.astype(int)
wc = WordCloud(background_color="white", repeat=True, mask=mask)
wc.generate(text)
plt.axis("off")
plt.imshow(wc, interpolation="bilinear")
plt.show()
單字內(nèi)容
import os
from os import path
from wordcloud import WordCloud
# get data directory (using getcwd() is needed to support running example in generated IPython notebook)
d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()
# Read the whole text.
text = open(path.join(d, 'constitution.txt')).read()
# Generate a word cloud image
wordcloud = WordCloud().generate(text)
# Display the generated image:
# the matplotlib way:
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
# lower max_font_size
wordcloud = WordCloud(max_font_size=40).generate(text)
plt.figure()
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()
多字的內(nèi)容,內(nèi)容從本地電腦中獲取
from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import os
from wordcloud import WordCloud, STOPWORDS
# get data directory (using getcwd() is needed to support running example in generated IPython notebook)
d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()
# Read the whole text.
text = open(path.join(d, 'alice.txt')).read()
# read the mask image
# taken from
#
alice_mask = np.array(Image.open(path.join(d, "alice_mask.png")))
stopwords = set(STOPWORDS)
stopwords.add("said")
wc = WordCloud(background_color="white", max_words=2000, mask=alice_mask,
? ? ? ? ? stopwords=stopwords, contour_width=3, contour_color='steelblue')
# generate word cloud
wc.generate(text)
# store to file
wc.to_file(path.join(d, "alice.png"))
# show
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.figure()
plt.imshow(alice_mask, cmap=plt.cm.gray, interpolation='bilinear')
plt.axis("off")
plt.show()
使用圖片來做詞云
更多信息可以參看wordcloud官網(wǎng):
上面有更多的例子,上面內(nèi)容也來自于網(wǎng)站整理。
也可參考網(wǎng)站:
如果你之前沒有編程基礎(chǔ),沒關(guān)系。希望你不要限于瀏覽,而是親自動手嘗試一番。到完成的那一步,你不僅可以做出第一張詞云圖,而且這還將是你的第一個有用的編程作品。
1、請確保你的python環(huán)境沒有問題,用的開發(fā)工具是VsCode,首先你要在Python擴(kuò)展中安裝python開發(fā)環(huán)境(當(dāng)然,這不是為你的windows安裝python)。
2、那么你還需要安裝所需要的第三方庫,那么在VSCode中并沒有PyCharm那么專業(yè),這里需要獲得你自己的Python腳本位置。
3、我們可以發(fā)現(xiàn)里面有一個名為pip.exe文件,這個文件就是python官方給我們?nèi)グ惭bpython第三方庫的一個程序,那么我們可以在VsCode的終端中就可以去通過它,這也是我們?yōu)槭裁匆@取python安裝位置的根本原因。
4、python做詞云呢,需要導(dǎo)入的包有wordcloud和PIL,其中PIL(Python Image Library)是python平臺圖像處理標(biāo)準(zhǔn)庫,功能是真的強(qiáng)大。首先需要讀取文件 。
5、如果python引入無誤,并代碼無誤,那么會彈出你生成的圖片,該圖片會儲存在你的系統(tǒng)。
wordcloud庫簡介
python中的word cloud庫是一個用來制作詞云的第三方庫
安裝wordcloud 庫
pip install wordcloud123
使用w = wordcloud.WordCloud() 創(chuàng)建一個詞云對象
2.WordCloud() 參數(shù)介紹
3.實現(xiàn)效果
4.問題
并沒有按照詞云的樣式展示,這里需要使用 jieba庫進(jìn)行分詞
安裝jieba庫
pip install jieba
5.使用jieba庫進(jìn)行分詞
6.效果
將txt文本中的內(nèi)容生成詞云
獲取文件中的內(nèi)容
f = open('./xxx.txt', 'r', encoding='utf-8')
text = f.read()
說明
encoding=‘utf-8’ 這個參數(shù)表示 讀取的內(nèi)容以utf-8的編碼方式讀取文件
如果沒有這個參數(shù),會出現(xiàn)如下的報錯信息