1、首先,定義一個(gè)變量,保存要統(tǒng)計(jì)的英文文章。
站在用戶的角度思考問題,與客戶深入溝通,找到鄉(xiāng)寧網(wǎng)站設(shè)計(jì)與鄉(xiāng)寧網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類型包括:成都網(wǎng)站建設(shè)、網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、域名注冊(cè)、虛擬主機(jī)、企業(yè)郵箱。業(yè)務(wù)覆蓋鄉(xiāng)寧地區(qū)。
2、接著,定義兩個(gè)數(shù)組,保存文章中的單詞,以及各單詞的詞頻。
3、從文章中分割出所有的單詞,保存在數(shù)組中。
4、然后,計(jì)算文章中單詞的總數(shù),保存在變量中。
5、用for循環(huán),統(tǒng)計(jì)文章中各單詞的詞頻。
6、最后,輸出文章中各單詞的詞頻。
7、運(yùn)行程序,電腦會(huì)自動(dòng)統(tǒng)計(jì)輸入文章中各單詞的詞頻。
1、全局變量在函數(shù)中使用時(shí)需要加入global聲明
2、獲取網(wǎng)頁內(nèi)容存入文件時(shí)的編碼為ascii進(jìn)行正則匹配時(shí)需要decode為GB2312,當(dāng)匹配到的中文寫入文件時(shí)需要encode成GB2312寫入文件。
3、中文字符匹配過濾正則表達(dá)式為ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分組
4、KEY,Value值可以使用dict存儲(chǔ),排序后可以使用list存儲(chǔ)
5、字符串處理使用split分割,然后使用index截取字符串,判斷哪些是名詞和動(dòng)詞
6、命令行使用需要導(dǎo)入os,os.system(cmd)
#!?python3
#?-*-?coding:?utf-8?-*-
import?os,?codecs
import?jieba
from?collections?import?Counter
def?get_words(txt):
seg_list?=?jieba.cut(txt)
c?=?Counter()
for?x?in?seg_list:
if?len(x)1?and?x?!=?'\r\n':
c[x]?+=?1
print('常用詞頻度統(tǒng)計(jì)結(jié)果')
for?(k,v)?in?c.most_common(100):
print('%s%s?%s??%d'?%?('??'*(5-len(k)),?k,?'*'*int(v/3),?v))
if?__name__?==?'__main__':
with?codecs.open('19d.txt',?'r',?'utf8')?as?f:
txt?=?f.read()
get_words(txt)