真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

web中文本數(shù)據(jù)清洗流程的示例分析-創(chuàng)新互聯(lián)

這篇文章主要介紹web中文本數(shù)據(jù)清洗流程的示例分析,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

創(chuàng)新互聯(lián)專注于阿里地區(qū)企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè)公司,商城網(wǎng)站建設(shè)。阿里地區(qū)網(wǎng)站建設(shè)公司,為阿里地區(qū)等地區(qū)提供建站服務(wù)。全流程定制網(wǎng)站,專業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務(wù)

今天,超過80%的數(shù)據(jù)是非結(jié)構(gòu)化的。文本數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析前的必經(jīng)之路。大多數(shù)可用的文本數(shù)據(jù)本質(zhì)上是高度非結(jié)構(gòu)化和嘈雜的,需要更好的見解或建立更好的算法來處理數(shù)據(jù)。

我們知道,社交媒體數(shù)據(jù)是高度非結(jié)構(gòu)化的,因其非正式的交流,存在包括拼寫錯誤、語法不好、俚語的使用、諸如URL、停用詞、表達(dá)式等不必要內(nèi)容。

一個典型的商業(yè)問題,假設(shè)你感興趣的是:這是iPhone在粉絲中更受歡迎的特點(diǎn)。下面你已經(jīng)提取了與iPhone相關(guān)的消費(fèi)者意見的一條推特:

下面對這條推特做文本預(yù)處理:

1、去掉HTML 字符:

從Web獲得的數(shù)據(jù)通常包含許多HTML實(shí)體,如lt;& gt;& &;它嵌入到原始數(shù)據(jù)中。因此,必須擺脫這些實(shí)體。一種方法是通過使用特定的正則表達(dá)式直接刪除它們。另一種方法是使用適當(dāng)?shù)陌湍K(例如Python的HTMLPARSER),它可以將這些實(shí)體轉(zhuǎn)換成標(biāo)準(zhǔn)的HTML標(biāo)記。例如:& lt;轉(zhuǎn)換為“<”,轉(zhuǎn)換為“&”。

web中文本數(shù)據(jù)清洗流程的示例分析

2、解碼數(shù)據(jù):

這是將信息從復(fù)雜符號轉(zhuǎn)換為簡單易懂字符的過程。文本數(shù)據(jù)可能會受到不同形式的解碼,如“拉丁語”、“UTF8”等。因此,為了更好地分析,有必要保持完整的數(shù)據(jù)以標(biāo)準(zhǔn)的編碼格式。UTF-8編碼被廣泛接受并推薦使用。

web中文本數(shù)據(jù)清洗流程的示例分析

3、撇號查找:為了避免文本中的任何詞義消歧,建議在文章中保持適當(dāng)?shù)慕Y(jié)構(gòu),并遵守上下文無關(guān)文法的規(guī)則。當(dāng)使用撇號時(shí),消歧的機(jī)會增加。

For example “it’s is a contraction for it is or it has”.

所有撇號都應(yīng)該轉(zhuǎn)換成標(biāo)準(zhǔn)詞典。可以使用所有可能的關(guān)鍵字的查找表來消除歧義。

web中文本數(shù)據(jù)清洗流程的示例分析

4、停用詞的去除:當(dāng)數(shù)據(jù)分析需要在字級上進(jìn)行數(shù)據(jù)驅(qū)動時(shí),應(yīng)刪除通常出現(xiàn)的單詞(停用詞)。通過創(chuàng)建的一個長長的停止詞列表,或者可以使用預(yù)定義的語言特定的庫。

5、刪除標(biāo)點(diǎn)符號:所有的標(biāo)點(diǎn)符號應(yīng)根據(jù)優(yōu)先級來處理。例如:“,”,“,”,“?”“重要標(biāo)點(diǎn)應(yīng)該保留,而其他標(biāo)點(diǎn)需要刪除。

6、刪除表達(dá)式:文本數(shù)據(jù)(通常是語音轉(zhuǎn)錄)可能包含人類的表達(dá),如[笑],[哭],[觀眾暫停]。這些表達(dá)式通常與語音內(nèi)容無關(guān),因此需要刪除。在這種情況下,簡單正則表達(dá)式可能是有用的。

7、分裂的附加詞:人在社交論壇中的生成文本數(shù)據(jù),本質(zhì)上是完全非正式的。大多數(shù)推文伴隨著多個附加詞,例如RayyDay. PrimeCythOrth.等,這些實(shí)體可以用簡單的規(guī)則和正則表達(dá)式分裂成它們的正常形式.

8、俚語查找:同樣,社交媒體包括大多數(shù)俚語詞匯。這些詞應(yīng)該轉(zhuǎn)換成標(biāo)準(zhǔn)詞來制作自由文本。像LUV這樣的詞將被轉(zhuǎn)換成愛,Helo到Hello。撇號查找的類似方法可以用來將俚語轉(zhuǎn)換成標(biāo)準(zhǔn)詞。網(wǎng)上有大量的信息源,它提供了所有可能的俚語的列表,可以用它們作為查找字典來進(jìn)行轉(zhuǎn)換。

9、規(guī)范詞:有時(shí)詞的格式不正確。例如:“I looooveee you” 應(yīng)為 “I love you”。簡單的規(guī)則和正則表達(dá)式可以幫助解決這些情況。

10、刪除URL:應(yīng)刪除文本數(shù)據(jù)中的URL和超鏈接,如評論、評論和推文。

以上是“web中文本數(shù)據(jù)清洗流程的示例分析”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)網(wǎng)站制作公司行業(yè)資訊頻道!


分享題目:web中文本數(shù)據(jù)清洗流程的示例分析-創(chuàng)新互聯(lián)
網(wǎng)站路徑:http://weahome.cn/article/jiigj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部