真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

在xpath中text()和string(.)的區(qū)別有哪些

這篇文章將為大家詳細講解有關在xpath中text()和string(.)的區(qū)別有哪些,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

公司主營業(yè)務:成都網(wǎng)站制作、網(wǎng)站設計、移動網(wǎng)站開發(fā)等業(yè)務。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競爭能力。成都創(chuàng)新互聯(lián)是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴謹、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領域給我們帶來的挑戰(zhàn),讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。成都創(chuàng)新互聯(lián)推出宛城免費做網(wǎng)站回饋大家。

我們在進行爬蟲時候,經(jīng)常會遇到如下這樣的頁面:

你好,北京

在日常抓取的時候,遇到更多的情況是抓取中的你好,這時使用xpath("http://div/em/text()")就可以提取到。

現(xiàn)在我們考慮下面兩種抓取需求:

需求1:我們想要提取“,北京”的時候,這個時候該用text(),還是string(.)?

需求2:提取 “你好,北京”呢?

我們先使用lxml庫對頁面進行一下初始化(如果你用的是scrapy的xpath選擇器,也可以按照以下步驟運行):

from lxml import etree

with open('foo.html', 'r') as f:

content = f.read().encode('utf8')

page = etree.HTML(content)

這里我們先看一下需求1的解法,也就是提取“,北京”:

re = page.xpath("http://div/text()")

這里re得到的是一個數(shù)組:

這是因為在頁面中標簽

和之間是有換行符號的,因此使用"http://div/text()"后會忽略掉你好,而剩下"\n",“,北京\n”兩個元素。

我們?nèi)e的第二個元素,然后去掉結(jié)尾的換行符"\n"(如果你使用的是scrapy的xpath,這里re得到的可能不是一個數(shù)組):

re = re[1].strip()

這個時候得到的re就是我們需要的",北京"了。

現(xiàn)在看一下第二個需求:提取"你好,北京":

這里就要求里面的文本也要提取出來了,這時候我們使用string:

re = page.xpath("http://div")[0].xpath("string(.)")

這時來看下re的值(同樣如果你使用的是scrapy的選擇器,scrapy_selector.xpath("http://div")返回的結(jié)果可能不是一個數(shù)組,不過你只要取到結(jié)果然后再使用.xpath("string(.)")即可。):

在xpath中text()和string(.)的區(qū)別有哪些

得到的一整串文本" \n 你好,北京\n "。

看來使用"string(.)"后,xpath會把里的內(nèi)容也直接提取出來,而不像上面中"text()"那樣把都去掉后,再分割成一個數(shù)組。這里注意使用string()時候要把string(.)放在一個xpath中,而不是寫成"http://div/string(.)"這樣,否則會抓取不到。

然后,同樣的再去除一下兩邊多余的空格和換行符

re = re.strip()

這個時候re得到就是”你好,北京“啦。

總結(jié):無錫人流醫(yī)院 http://www.0510bhyy.com/

通過上述的實驗,我們發(fā)現(xiàn)xpath里面text()只會取當層節(jié)點的文本并按照當層的tag進行分割,組成列表。而string(.)會把當層節(jié)點以及當層節(jié)點以下的所有文本都提取出來,放在一個字符串變量中。

實例代碼:

test.py:

# coding=utf-8

from lxml import etree

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

class Test(object):

def __init__(self):

with open('foo.html', 'r') as f:

content = f.read().encode('utf8')

self.page = etree.HTML(content)

print self.page

def xpath_text(self):

re = self.page.xpath("http://div/text()")

print re

re = re[1].strip()

print re

return re

def xpath_string(self):

re = self.page.xpath("http://div")[0].xpath("string(.)")

print re

# 替換換行符等

re = re.strip(re)

print re

return re

if __name__ == "__main__":

t = Test()

assert t.xpath_text() == u",北京"

assert t.xpath_string() == u"你好,北京"

foo.html:

你好,北京

關于“在xpath中text()和string(.)的區(qū)別有哪些”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。


網(wǎng)頁標題:在xpath中text()和string(.)的區(qū)別有哪些
分享鏈接:http://weahome.cn/article/gjhcpi.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部