大數(shù)據(jù)中Smartbi怎樣解決垃圾短信帶來(lái)的困擾,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來(lái)學(xué)習(xí)下,希望你能有所收獲。
創(chuàng)新互聯(lián)專注于桃源網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠(chéng)為您提供桃源營(yíng)銷型網(wǎng)站建設(shè),桃源網(wǎng)站制作、桃源網(wǎng)頁(yè)設(shè)計(jì)、桃源網(wǎng)站官網(wǎng)定制、小程序定制開發(fā)服務(wù),打造桃源網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供桃源網(wǎng)站排名全網(wǎng)營(yíng)銷落地服務(wù)。
截至2020年12月,我國(guó)手機(jī)網(wǎng)民規(guī)模達(dá)9.86億。移動(dòng)互聯(lián)網(wǎng)時(shí)代,個(gè)人信息和用戶數(shù)據(jù)成為重要的商業(yè)資源。一些企業(yè)和個(gè)人為牟取經(jīng)濟(jì)利益,導(dǎo)致垃圾短信頻發(fā),讓人們不勝其擾。保護(hù)私生活安寧已經(jīng)成為一項(xiàng)迫切需要解決的社會(huì)問題。
垃圾短信
垃圾短信是指未經(jīng)用戶同意向用戶發(fā)送的用戶不愿意收到的短信息,或用戶不能根據(jù)自己的意愿拒絕接收的短信息,主要包含以下屬性:(一)未經(jīng)用戶同意向用戶發(fā)送的商業(yè)類、廣告類等短信息; (二)其他違反行業(yè)自律性規(guī)范的短信息。
垃圾短信泛濫,已經(jīng)嚴(yán)重影響到人們正常生活、運(yùn)營(yíng)商形象乃至社會(huì)穩(wěn)定。如偽基站可以給三公里內(nèi)10萬(wàn)手機(jī)發(fā)信?,F(xiàn)用戶可以使用手機(jī)管家進(jìn)行攔截此類短信。
用戶迫切的需要一種快速、有效的垃圾短信識(shí)別方法。通過垃圾短信的精準(zhǔn)識(shí)別,以完善用戶的通訊環(huán)境,為有關(guān)部門提供有效依據(jù),維護(hù)運(yùn)營(yíng)商利益。數(shù)據(jù)挖掘平臺(tái)Smartbi也不甘示弱,為了能盡快解決垃圾短信的問題,Smartbi利用Smartbi Mining進(jìn)行建模,使用隨機(jī)森林文本分類算法建立合理的短信識(shí)別模型,對(duì)垃圾短信進(jìn)行識(shí)別,解決運(yùn)營(yíng)商和手機(jī)用戶的困擾。
Smartbi mining數(shù)據(jù)挖掘平臺(tái)將操作分為四個(gè)步驟:
1. 數(shù)據(jù)獲取,獲取所需數(shù)據(jù)集;
2. 數(shù)據(jù)預(yù)處理,對(duì)數(shù)據(jù)進(jìn)行文本中文分詞、停用詞過濾處理等;
3. 模型構(gòu)建與評(píng)價(jià),構(gòu)建隨機(jī)森林模型,并建立評(píng)價(jià)指標(biāo)精確率、召回率、F1值對(duì)模型分類效果進(jìn)行評(píng)價(jià)。
4. 分析結(jié)果,總結(jié)和建議。
1數(shù)據(jù)獲取
目前,某運(yùn)營(yíng)商已經(jīng)積累了大量的垃圾短信數(shù)據(jù)。經(jīng)過加工處理數(shù)據(jù)如圖3-2所示。本案例收集了295755條短信文本數(shù)據(jù),字段說(shuō)明見表3-1。
表3-1 字段說(shuō)明
圖3-2 數(shù)據(jù)集
為了方便識(shí)別字段含義,這里接入一個(gè)元數(shù)據(jù)編輯節(jié)點(diǎn)取別名,如圖3-3所示。
圖3-3 元數(shù)據(jù)編輯
2 數(shù)據(jù)預(yù)處理
2.1、分詞
中文分詞是指將一整段文字切分為具有最小語(yǔ)義的詞條信息,即以詞作為基本單元,使用計(jì)算機(jī)自動(dòng)對(duì)中文文本進(jìn)行詞語(yǔ)的切分,將文本數(shù)據(jù)轉(zhuǎn)化為機(jī)器可識(shí)別的形式。英文單詞之間是由空格作為分界符的,中文則是由字為基本書寫單位,詞語(yǔ)之間沒有明顯的區(qū)分符,因此,中文分詞是中文信息處理的基礎(chǔ)與關(guān)鍵。分詞結(jié)果的準(zhǔn)確性,對(duì)后續(xù)文本挖掘有著重要影響。如在進(jìn)行特征的選擇時(shí),不同的分詞效果將影響詞語(yǔ)在文本中的重要性,從而影響特征的選擇。
這里接入一個(gè)分詞節(jié)點(diǎn)將text列進(jìn)行分詞,_c2_seg為分詞后的字符串型結(jié)果,_c2_seg_words為分詞后的WrappedArray類型結(jié)果,分詞輸出結(jié)果如圖3-4所示。
2.3、TF-IDF
由于文本數(shù)據(jù)無(wú)法直接用于建模,因此需要將文本表示成計(jì)算機(jī)能夠直接處理的形式,即文本數(shù)字化。TF-IDF算法即將文本數(shù)據(jù)進(jìn)行數(shù)值化。TF意思是詞頻,IDF意思是逆文本頻率指數(shù),用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF值越高,說(shuō)明該詞越重要。
我們接入TF-IDF算法進(jìn)行抽取變換,輸出結(jié)果如圖3-6所示。
3 構(gòu)建模型
本案例采用隨機(jī)森林算法模型,通過特征選擇_c2_seg_words_filtered_idf列,目標(biāo)標(biāo)簽為target,整體模型訓(xùn)練預(yù)測(cè)如圖3-8所示。
圖3-8 構(gòu)建模型
4 模型評(píng)價(jià)
通過評(píng)估節(jié)點(diǎn)接入,如圖3-8所示,評(píng)估結(jié)果如圖3-10所示。
分析結(jié)果得出F1分?jǐn)?shù)達(dá)到0.91,說(shuō)明該模型效果比較不錯(cuò)的。
該模型能較好地識(shí)別出垃圾短信,有效進(jìn)行垃圾短信過濾,解決運(yùn)營(yíng)商及用戶的困擾。
Smartbi數(shù)據(jù)挖掘平臺(tái)這個(gè)案例運(yùn)用短信數(shù)據(jù),對(duì)垃圾短信進(jìn)行識(shí)別。主要實(shí)現(xiàn)了垃圾短信的精確識(shí)別,通過獲得以上挖掘結(jié)果,為相關(guān)運(yùn)營(yíng)商提供一種解決垃圾短信過濾問題的方案。
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對(duì)創(chuàng)新互聯(lián)的支持。