真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

python求詞頻的函數(shù) python如何做詞頻統(tǒng)計(jì)

如何用python統(tǒng)計(jì)一個(gè)txt文件中各個(gè)單詞出現(xiàn)的次數(shù)

1、首先,定義一個(gè)變量,保存要統(tǒng)計(jì)的英文文章。

站在用戶的角度思考問題,與客戶深入溝通,找到鄉(xiāng)寧網(wǎng)站設(shè)計(jì)與鄉(xiāng)寧網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類型包括:成都網(wǎng)站建設(shè)、網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、域名注冊(cè)、虛擬主機(jī)、企業(yè)郵箱。業(yè)務(wù)覆蓋鄉(xiāng)寧地區(qū)。

2、接著,定義兩個(gè)數(shù)組,保存文章中的單詞,以及各單詞的詞頻。

3、從文章中分割出所有的單詞,保存在數(shù)組中。

4、然后,計(jì)算文章中單詞的總數(shù),保存在變量中。

5、用for循環(huán),統(tǒng)計(jì)文章中各單詞的詞頻。

6、最后,輸出文章中各單詞的詞頻。

7、運(yùn)行程序,電腦會(huì)自動(dòng)統(tǒng)計(jì)輸入文章中各單詞的詞頻。

如何用python對(duì)文章中文分詞并統(tǒng)計(jì)詞頻

1、全局變量在函數(shù)中使用時(shí)需要加入global聲明

2、獲取網(wǎng)頁內(nèi)容存入文件時(shí)的編碼為ascii進(jìn)行正則匹配時(shí)需要decode為GB2312,當(dāng)匹配到的中文寫入文件時(shí)需要encode成GB2312寫入文件。

3、中文字符匹配過濾正則表達(dá)式為ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分組

4、KEY,Value值可以使用dict存儲(chǔ),排序后可以使用list存儲(chǔ)

5、字符串處理使用split分割,然后使用index截取字符串,判斷哪些是名詞和動(dòng)詞

6、命令行使用需要導(dǎo)入os,os.system(cmd)

如何用python和jieba分詞,統(tǒng)計(jì)詞頻?

#!?python3

#?-*-?coding:?utf-8?-*-

import?os,?codecs

import?jieba

from?collections?import?Counter

def?get_words(txt):

seg_list?=?jieba.cut(txt)

c?=?Counter()

for?x?in?seg_list:

if?len(x)1?and?x?!=?'\r\n':

c[x]?+=?1

print('常用詞頻度統(tǒng)計(jì)結(jié)果')

for?(k,v)?in?c.most_common(100):

print('%s%s?%s??%d'?%?('??'*(5-len(k)),?k,?'*'*int(v/3),?v))

if?__name__?==?'__main__':

with?codecs.open('19d.txt',?'r',?'utf8')?as?f:

txt?=?f.read()

get_words(txt)


新聞標(biāo)題:python求詞頻的函數(shù) python如何做詞頻統(tǒng)計(jì)
新聞來源:http://weahome.cn/article/dogojeh.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部