我一般都是通過xpath解析DOM樹的時候會使用lxml的etree,可以很方便的從html源碼中得到自己想要的內容。
從網站建設到定制行業(yè)解決方案,為提供成都網站制作、網站建設、外貿網站建設服務體系,各種行業(yè)企業(yè)客戶提供網站建設解決方案,助力業(yè)務快速發(fā)展。創(chuàng)新互聯(lián)將不斷加快創(chuàng)新步伐,提供優(yōu)質的建站服務。這里主要介紹一下我常用到的兩個方法,分別是etree.HTML()和etree.tostrint()。
1.etree.HTML()
etree.HTML()可以用來解析字符串格式的HTML文檔對象,將傳進去的字符串轉變成_Element對象。作為_Element對象,可以方便的使用getparent()、remove()、xpath()等方法。
如果想通過xpath獲取html源碼中的內容,就要先將html源碼轉換成_Element對象,然后再使用xpath()方法進行解析。例如,這里有一段最簡單的html源碼:"
# encoding=utf8 from lxml import etree html = 'This is a test
' # 將html轉換成_Element對象 _element = etree.HTML(html) # 通過xpath表達式獲取h2標簽中的文本 text = _element.xpath('//h2/text()') print 'result is: ', text