Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識別

這篇文章主要講解了“Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識別”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識別”吧！

興山網(wǎng)站制作公司哪家好，找創(chuàng)新互聯(lián)！從網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、響應(yīng)式網(wǎng)站開發(fā)等網(wǎng)站項目制作，到程序開發(fā)，運營維護(hù)。創(chuàng)新互聯(lián)成立于2013年到現(xiàn)在10年的時間，我們擁有了豐富的建站經(jīng)驗和運維經(jīng)驗，來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)。

一、引子

現(xiàn)在的很多手機管理軟件都有垃圾短信攔截的功能，很智能很貼心是不是
嗯~ o(￣▽￣)o
對于經(jīng)常被垃圾短信騷擾的人來說，很是有用。(??????)??
但是很多的攔截軟件在攔截到垃圾短信之后……又發(fā)個通知提示攔截到了垃圾短信╮（﹀_﹀）╭
好奇心害死貓，你告訴了我你攔截到了垃圾短信，我當(dāng)然想知道你攔截的是什么垃圾短信了╮（╯＿╰）╭

二、分類與垃圾短信識別

機器學(xué)習(xí)按性質(zhì)來看，可以分為三大類：

分類(監(jiān)督)
回歸(監(jiān)督)
聚類(半監(jiān)督)
垃圾短信通常用已標(biāo)記的短信數(shù)據(jù)，對未知的短信進(jìn)行判斷，其屬于機器學(xué)習(xí)中的分類性質(zhì)。
在Python中有很多機器學(xué)習(xí)的模塊，比如Sklearn、Tensorflow、Caffe等，可以很方便地調(diào)用一些機器學(xué)習(xí)的算法。

三、垃圾短信識別

嗯，直接上手干……(￣_,￣ )
80w訓(xùn)練數(shù)據(jù)集和20w測試數(shù)據(jù)集均來源于github上的一位小哥哥，在此謝過d=====(￣▽￣*)b

1、數(shù)據(jù)處理

嗯，先看看數(shù)據(jù)長啥樣：

import pandas as pd
data = pd.read_csv(r"H:\RubbishMessage\data\80w.txt",encoding='utf-8',sep='    ',header=None)
data.head()

Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識別

最后一列為短信的內(nèi)容，倒數(shù)第二列則是短信的類型，0表示正常短信，1表示垃圾短信。
然后，我們對短信內(nèi)容按照不同的類型（正常短信和垃圾短信）進(jìn)行分割和分詞：

# 垃圾短信import jieba
spam = data[data[1] == 1]
spam[2] = spam[2].map(lambda x:' '.join(jieba.cut(x)))
spam.head()
# 正常短信
normal = data[data[1] == 0]
normal[2] = normal[2].map(lambda x:' '.join(jieba.cut(x)))
normal.head()

Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識別

分別將不同類型分詞后的短信保存為不同的文件：

spam.to_csv('soam.csv',encoding='utf-8',header=False,index=False,columns=[2])
normal.to_csv('normal.csv',encoding='utf-8',header=False,index=False,columns=[2])

2、模型選擇和訓(xùn)練

在此我們沒有選擇Sklearn或是其他的深度學(xué)習(xí)庫，而是選用NLTK自然語言處理庫來進(jìn)行貝葉斯分類。
導(dǎo)入模塊：

import nltk.classify.util
from nltk.classify import NaiveBayesClassifier
from nltk.corpus import PlaintextCorpusReaderimport random

加載剛剛導(dǎo)出的短信文件：

加載短信語料庫
message_corpus = PlaintextCorpusReader('./',['soam.csv','normal.csv'])
all_message = message_corpus.words()

定義一個特征函數(shù)，用于生成特征：

def massage_feature(word,num_letter=1):
    return {'feature':word[-num_letter:]}

對短信特征進(jìn)行標(biāo)記提取：

labels_name = ([(massage,'垃圾') for massage in message_corpus.words('soam.csv')]+[(massage,'正常') for massage in message_corpus.words('normal.csv')])
random.seed(7)
random.shuffle(labels_name)

訓(xùn)練并預(yù)測模型

from nltk.classify import accuracy as nltk_accuracy
featuresets = [(massage_feature(n),massage) for (n,massage) in labels_name]
train_set,test_set = featuresets[2000:],featuresets[:2000]
classifier = NaiveBayesClassifier.train(train_set)

最后，咱們看看預(yù)測的準(zhǔn)確率怎么樣：

print('結(jié)果準(zhǔn)確率：',str(100*nltk_accuracy(classifier,test_set))+str('%'))

Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識別

感謝各位的閱讀，以上就是“Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識別”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識別這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián)，小編將為大家推送更多相關(guān)知識點的文章，歡迎關(guān)注！

網(wǎng)頁名稱：Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識別
鏈接URL：http://weahome.cn/article/jhddei.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識別

一、引子

二、分類與垃圾短信識別

三、垃圾短信識別

1、數(shù)據(jù)處理

2、模型選擇和訓(xùn)練

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識別

一、引子

二、分類與垃圾短信識別

三、垃圾短信識別

1、數(shù)據(jù)處理

2、模型選擇和訓(xùn)練

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

一、引子

二、分類與垃圾短信識別

三、垃圾短信識別