這期內(nèi)容當(dāng)中小編將會給大家?guī)碛嘘P(guān)TF-IDF如何提取文本特征詞,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
我們一直強調(diào)網(wǎng)站設(shè)計制作、做網(wǎng)站對于企業(yè)的重要性,如果您也覺得重要,那么就需要我們慎重對待,選擇一個安全靠譜的網(wǎng)站建設(shè)公司,企業(yè)網(wǎng)站我們建議是要么不做,要么就做好,讓網(wǎng)站能真正成為企業(yè)發(fā)展過程中的有力推手。專業(yè)網(wǎng)絡(luò)公司不一定是大公司,成都創(chuàng)新互聯(lián)公司作為專業(yè)的網(wǎng)絡(luò)公司選擇我們就是放心。
01
—
TF-IDF主要做什么?
文本分類中大都用到TF-IDF技術(shù),比如扔給我們1篇新浪網(wǎng)推送的消息,讓機器判斷下屬于新聞類,還是財經(jīng)類,還是體育類,還是娛樂類;再比如,今日頭條推送的1篇消息,如何提取出里面的關(guān)鍵詞匯,以此推薦給符合我們胃口的文章。
02
—
TF-IDF主要思想
TF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率 TF 高,并且在其他文章中很少出現(xiàn)(IDF值大),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。
03
—
TF-IDF全稱叫什么?
TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF意思是詞頻(Term Frequency),IDF意思是逆向文件頻率(Inverse Document Frequency)。
04
—
為什么叫逆向文件頻率?
TF-IDF中詞頻的描述TF,我們好理解,不就是一篇文章中一個詞在我們的語料庫中出現(xiàn)的次數(shù)嗎,但是逆向文件頻率,該怎么理解?
拿我們的母語來說,比如,“的”,“我們”,類似的這種詞語,大家覺得會對我們判斷這篇文章是體育類,還是娛樂類的文章作用大嗎?盡管它們的TF很大,但是實質(zhì)對我們的分類沒有幫助,所以,此時自然要想到對TF加一個權(quán)重影響因子:IDF,逆向文件頻率,比如,一篇文章中如果出現(xiàn)了 “貝葉斯”這個詞語,那么,我們?nèi)フZ料庫,發(fā)現(xiàn)現(xiàn)有的1億個網(wǎng)頁中,有500個網(wǎng)頁,出現(xiàn)了這個貝葉斯分類,而“的”這個詞,有1億個都出現(xiàn)了,這個時候,我們希望“貝葉斯”比“的”IDF要大,即權(quán)重要大,IDF的計算公式最終的確實現(xiàn)了這個效果,這個在下文中我們可以看出來。
05
—
TF,IDF的數(shù)學(xué)公式
一篇網(wǎng)頁中的總詞語數(shù)是100個,而詞語“貝葉斯”出現(xiàn)了3次,那么“貝葉斯”一詞在該文件中的詞頻就是 3/100=0.03,
對應(yīng)的數(shù)學(xué)公式:
以上公式的字符含義,i是語料庫中第i個單詞,j是當(dāng)前的這篇網(wǎng)頁的編號。
分析語料庫的1億個網(wǎng)頁時,發(fā)現(xiàn)有500個網(wǎng)頁含有“貝葉斯”,所以貝葉斯這個詞的IDF計算公式:
i依然是語料庫中的第i個詞(貝葉斯),D是語料庫中所有的網(wǎng)頁個數(shù),分母的集合表示,貝葉斯出現(xiàn)在1億個網(wǎng)頁中的個數(shù),如上所述為500個網(wǎng)頁。最后,再取對數(shù),可以得出貝葉斯的IDF比“的”的IDF大。
06
—
Get together
這個公式實現(xiàn)的效果:
某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。
過濾掉常見的詞語,比如“的”,“我們”,“吃”。
最終:提取了一篇文章中重要的詞語。
上述就是小編為大家分享的TF-IDF如何提取文本特征詞了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。