上一節(jié),我們詳述了lxml.html的各種操作,接下來我們熟練掌握一下XPath,就可以熟練的提取網(wǎng)頁內(nèi)容了。
創(chuàng)新互聯(lián)公司專注于龍湖企業(yè)網(wǎng)站建設(shè),自適應(yīng)網(wǎng)站建設(shè),商城建設(shè)。龍湖網(wǎng)站建設(shè)公司,為龍湖等地區(qū)提供建站服務(wù)。全流程定制網(wǎng)站建設(shè),專業(yè)設(shè)計,全程項目跟蹤,創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務(wù)XPath的全稱是 XML Path Language,即XML 路徑語言,是一種在XML(HTML)文檔中查找信息的語言。它有4點特性:
我們從網(wǎng)頁中提取數(shù)據(jù),主要應(yīng)用前兩點。
使用XPath我們可以很容易定位到網(wǎng)頁中的節(jié)點,也就是找到我們關(guān)心的數(shù)據(jù)。這些路徑跟電腦目錄、網(wǎng)址的路徑很相似,通過
/
來表示路徑的深度。
頭內(nèi)建了100多個函數(shù),當(dāng)然我們提取數(shù)據(jù)用到的有限,也就不用記住全部100多個函數(shù)了。
XPath中的核心就是節(jié)點(Node),定義了7種不同類型的節(jié)點: 元素(Element)、屬性(Attribute)、文本(Text)、命名空間(Namespace)、處理指令(processing-instruction)、注釋(Comment)和文檔節(jié)點(Document nodes)
這些節(jié)點組成一棵節(jié)點樹,樹的根節(jié)點被稱為文檔節(jié)點。
其中注釋就是html里面的注釋:``
而命名空間、處理指令和網(wǎng)頁數(shù)據(jù)提取基本沒關(guān)系,這里就不再詳述。
下面我們以一個簡單的html文檔為例,來解釋不同的節(jié)點及其關(guān)系。
ABC
這段html中的節(jié)點有:
- python
id="menu"
節(jié)點間的關(guān)系完全照搬人類傳宗接代的輩分關(guān)系,但只是直系關(guān)系,沒有叔叔、大伯之類的旁系關(guān)系。
還是以上面的html文檔為例來說明節(jié)點關(guān)系:
每個元素節(jié)點(Element)及其屬性都有一個父節(jié)點。
比如,body的父是html,而body是div、ul 的父親。
每個元素節(jié)點可以有零個、一個或多個子。
比如,body有兩個子:div,ul,而ul也有兩個子:兩個li。
同輩有相同的父輩節(jié)點。
比如,div和ul是同輩。
某節(jié)點的父輩及其以上輩分的節(jié)點。
比如,li的父輩有:ul、div、body、html
某節(jié)點的子及其子孫節(jié)點。
比如,body的后代有:div、ul、li。
選取節(jié)點,也就是通過路徑表達(dá)來實現(xiàn)。這是我們在網(wǎng)頁提取數(shù)據(jù)時的關(guān)鍵, 要熟練掌握 。
下表是比較有用的路徑表達(dá)式:
表達(dá)式 | 說明 |
---|---|
nodename | 選取當(dāng)前節(jié)點的名為nodename的所有子節(jié)點。 |
/ | 從根節(jié)點選取,在路徑中間時表示一級路徑 |
// | 從當(dāng)前節(jié)點開始選擇文檔中的節(jié)點,可以是多級路徑 |
. | 從當(dāng)前節(jié)點開始選取 |
.. | 從父節(jié)點開始選取 |
@ | 按屬性選取 |
接下來通過具體的示例來加深對路徑表達(dá)的理解:
路徑表達(dá)式 | 解釋 |
|
---|---|---|
/html/body/ul/li | 從根節(jié)點開始依照路徑選取li元素。返回多個。 | |
//ul/li[1] | 還是選取li元素,但是路徑多級跳躍到ul/li。[1]表示只取第一個li。 | |
//li[last()] | 還是選取li,但路徑更跳躍。[last()]表示取最后一個li元素。 | |
//li[@class] | 選取根節(jié)點的名為li且有class屬性的所有后代。 | |
//li[@class=”item”] | 選擇根節(jié)點的名為li且class屬性為item的所有后代。 | |
//body/*/li | 選取body的名為li的孫子節(jié)點。
*
是通配符,表示任何節(jié)點。
| |
//li[@*] | 選取所有帶屬性的li元素。 | |
//body/div ` | ` //body/ul | 選取body的所有div和ul元素。 |
body/div | 相對路徑,選取當(dāng)前節(jié)點的body元素的子元素div。絕對路徑以 / 開始。 |
Xpath的函數(shù)很多,涉及到錯誤、數(shù)值、字符串、時間等等,然而我們從網(wǎng)頁中提取數(shù)據(jù)的時候只會用到很少的一部分。其中最重要的就是字符串相關(guān)的函數(shù),比如contains()函數(shù)。
如果字符串a(chǎn)包含字符串b,則返回true,否則返回false。
比如: contains(‘猿人學(xué)Python’, ‘Python’),返回true
那么它用在什么時候呢?我們知道,一個html標(biāo)簽的class是可以有多個屬性值的,比如:
...
這段html中div有三個class值,第一個表面它是一條發(fā)布的消息,后面兩個是對格式做了更多的設(shè)置。如果我們想提取網(wǎng)頁中所有發(fā)布的消息,只需要匹配到
post-item
即可,這時候就可以用上contains了:
doc.xpath('//div[contains(@class, "post-item")]')
跟contains()類似的字符串匹配的函數(shù)還有:
然而,在lxml的xpath中使用ends-with(), matches() 會報錯
In [232]: doc.xpath('//ul[ends-with(@id, "u")]') --------------------------------------------------------------------------- XPathEvalError Traceback (most recent call last)in () ----> 1 doc.xpath('//ul[ends-with(@id, "u")]') src/lxml/etree.pyx in lxml.etree._Element.xpath() src/lxml/xpath.pxi in lxml.etree.XPathElementEvaluator.__call__() src/lxml/xpath.pxi in lxml.etree._XPathEvaluatorBase._handle_result() XPathEvalError: Unregistered function
lxml 竟然不支持ends-with(), matches()函數(shù)
到lxml官方網(wǎng)站去看看,原來它說了只支持 XPath 1.0:
lxml supports XPath 1.0, XSLT 1.0 and the EXSLT extensions through libxml2 and libxslt in a standards compliant way.
接著又在Wikipedia上找到Xpath 2.0 和 1.0 的差異對比,果然ends-with(), matches() 只屬于2.0。下圖中,粗體部分是1.0包含的,其它是2.0也有的:
XPath 2.0 和 1.0 的差異
好了,Xpath在網(wǎng)頁內(nèi)容提取中要用到的部分已經(jīng)講完了