Python中XML和XPATH指的是什么

這篇文章將為大家詳細講解有關(guān)Python中XML和XPATH指的是什么，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

創(chuàng)新互聯(lián)建站是一家專注于成都做網(wǎng)站、成都網(wǎng)站建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)與策劃設(shè)計,巍山網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)建站做網(wǎng)站,專注于網(wǎng)站建設(shè)十余年,網(wǎng)設(shè)計領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:巍山等地區(qū)。巍山做網(wǎng)站價格咨詢:028-86922220

XML和XPATH

用正則處理HTML文檔很麻煩，我們可以先將HTML文件轉(zhuǎn)換成XML文檔，然后用XPath查找HTML節(jié)點或元素。

XML 指可擴展標(biāo)記語言（EXtensible Markup Language）

XML 是一種標(biāo)記語言，很類似 HTML

XML 的設(shè)計宗旨是傳輸數(shù)據(jù)，而非顯示數(shù)據(jù)

XML 的標(biāo)簽需要我們自行定義。

XML 被設(shè)計為具有自我描述性。

XML 是 W3C 的推薦標(biāo)準(zhǔn)

XML和HTML區(qū)別

HTML DOM 模型示例

HTML DOM 定義了訪問和操作 HTML 文檔的標(biāo)準(zhǔn)方法，以樹結(jié)構(gòu)方式表達 HTML 文檔。

Python中XML和XPATH指的是什么

XPATH

XPath (XML Path Language) 是一門在XML文檔中查找信息的語言，可用來在 XML 文檔中對元素和屬性進行遍歷。

chrome插件XPATH HelPer

Firefox插件XPATH Checker

XPATH語法

最常用的路徑表達式：

Python中XML和XPATH指的是什么

謂語

謂語用來查找某個特定的節(jié)點或者包含某個指定的值的節(jié)點，被嵌在方括號中。

在下面的表格中，我們列出了帶有謂語的一些路徑表達式，以及表達式的結(jié)果：

Python中XML和XPATH指的是什么

選取位置節(jié)點

Python中XML和XPATH指的是什么

選取若干路徑

Python中XML和XPATH指的是什么

LXML庫

安裝：pip install lxml

lxml 是一個HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 數(shù)據(jù)。

lxml和正則一樣，也是用 C 實現(xiàn)的，是一款高性能的 Python HTML/XML 解析器，可以利用XPath語法，來快速的定位特定元素以及節(jié)點信息。

簡單使用方法

#!/usr/bin/env python
# -*- coding:utf-8 -*-
from lxml import etree
text = '''
    
        11
        22
        33
        44
    
'''
#利用etree.HTML，將字符串解析為HTML文檔
html = etree.HTML(text)
# 按字符串序列化HTML文檔
result = etree.tostring(html)
print(result)

結(jié)果：

Python中XML和XPATH指的是什么

爬取美女吧圖片

1.先找到每個帖子列表的url集合

Python中XML和XPATH指的是什么

2.再找到每個帖子里面的每個圖片的的完整url鏈接

Python中XML和XPATH指的是什么

3.要用到 lxml 模塊去解析html

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib
import urllib2
from lxml import etree
def loadPage(url):
    """
        作用：根據(jù)url發(fā)送請求，獲取服務(wù)器響應(yīng)文件
        url: 需要爬取的url地址
    """
    request = urllib2.Request(url)
    html = urllib2.urlopen(request).read()
    # 解析HTML文檔為HTML DOM模型
    content = etree.HTML(html)
    # 返回所有匹配成功的列表集合
    link_list = content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')
    for link in link_list:
        fulllink = "http://tieba.baidu.com" + link
        # 組合為每個帖子的鏈接
        #print link
        loadImage(fulllink)
# 取出每個帖子里的每個圖片連接
def loadImage(link):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
         Chrome/60.0.3112.101 Safari/537.36'}
    request = urllib2.Request(link, headers = headers)
    html = urllib2.urlopen(request).read()
    # 解析
    content = etree.HTML(html)
    # 取出帖子里每層層主發(fā)送的圖片連接集合
    link_list = content.xpath('//img[@class="BDE_Image"]/@src')
    # 取出每個圖片的連接
    for link in link_list:
        # print link
        writeImage(link)
def writeImage(link):
    """
        作用：將html內(nèi)容寫入到本地
        link：圖片連接
    """
    #print "正在保存 " + filename
    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
     Chrome/54.0.2840.99 Safari/537.36"}
    # 文件寫入
    request = urllib2.Request(link, headers = headers)
    # 圖片原始數(shù)據(jù)
    image = urllib2.urlopen(request).read()
    # 取出連接后10位做為文件名
    filename = link[-10:]
    # 寫入到本地磁盤文件內(nèi)
    with open(filename, "wb") as f:
        f.write(image)
    print "已經(jīng)成功下載 "+ filename
def tiebaSpider(url, beginPage, endPage):
    """
        作用：貼吧爬蟲調(diào)度器，負責(zé)組合處理每個頁面的url
        url : 貼吧url的前部分
        beginPage : 起始頁
        endPage : 結(jié)束頁
    """
    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50
        #filename = "第" + str(page) + "頁.html"
        fullurl = url + "&pn=" + str(pn)
        #print fullurl
        loadPage(fullurl)
        #print html
        print "謝謝使用"
if __name__ == "__main__":
    kw = raw_input("請輸入需要爬取的貼吧名:")
    beginPage = int(raw_input("請輸入起始頁："))
    endPage = int(raw_input("請輸入結(jié)束頁："))
    url = "http://tieba.baidu.com/f?"
    key = urllib.urlencode({"kw": kw})
    fullurl = url + key
    tiebaSpider(fullurl, beginPage, endPage)

4.爬取的圖片全部保存到了電腦里面

Python中XML和XPATH指的是什么

關(guān)于Python中XML和XPATH指的是什么就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學(xué)到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

網(wǎng)站欄目：Python中XML和XPATH指的是什么
分享網(wǎng)址：http://weahome.cn/article/psogpi.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python中XML和XPATH指的是什么

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管