這篇文章將為大家詳細(xì)講解有關(guān)怎么在Python中利用get_text()方法從html中提取文本,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。
站在用戶的角度思考問(wèn)題,與客戶深入溝通,找到江安網(wǎng)站設(shè)計(jì)與江安網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類型包括:網(wǎng)站設(shè)計(jì)制作、網(wǎng)站設(shè)計(jì)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、國(guó)際域名空間、網(wǎng)絡(luò)空間、企業(yè)郵箱。業(yè)務(wù)覆蓋江安地區(qū)。如下所示:
比如這兒有這么一大段帶html的字串,想要從中提取文本,首先發(fā)現(xiàn)這是一個(gè)textarea
我們使用beautifulsoup
def get_content(url): resp = urllib.request.urlopen(url) html = resp.read() bs = BeautifulSoup(html, "html.parser") return bs.textarea.get_text()
首先用那段html字符串初始化beautifulsoup對(duì)象
然后bs.textarea返回找到的第一個(gè)textarea,找到后使用get_text()清空所有html標(biāo)簽元素
之后就會(huì)返回干凈的文字
關(guān)于怎么在Python中利用get_text()方法從html中提取文本就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。