接上文,可以不用一個網(wǎng)址一個網(wǎng)址的輸入了,能抓取頁面
創(chuàng)新互聯(lián)專注于肥鄉(xiāng)網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗。 熱誠為您提供肥鄉(xiāng)營銷型網(wǎng)站建設(shè),肥鄉(xiāng)網(wǎng)站制作、肥鄉(xiāng)網(wǎng)頁設(shè)計、肥鄉(xiāng)網(wǎng)站官網(wǎng)定制、微信小程序服務(wù),打造肥鄉(xiāng)網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供肥鄉(xiāng)網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。http://www.yw11.com/namelist.php
上列出的所有名字大全,不必再像上一個程序一樣一個網(wǎng)址一個網(wǎng)址的輸入了。嘿嘿。
#coding=utf-8 import urllib2 import re from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding('utf-8') def getHtml(url): page=urllib2.urlopen(url) html=page.read() return html def getAllUrl(url): html=getHtml(url) soup=BeautifulSoup(html,'html.parser') ul=soup.find_all('ul',attrs={'class':'e3'})[0] a=ul.find_all('a') # for i in a: # urls=i['href'] # print urls # print "一共有"+str(len(a)) return a url='http://www.yw11.com/namelist.php' user_agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/600.7.12 (KHTML, like Gecko) Version/8.0.7 Safari/600.7.12' headers={"User-Agent":user_agent} urls=getAllUrl(url) f=open('name.txt','a') for index in range(len(urls)): lianjie=urls[index]['href'] mingzi=urls[index].text print "正在抓取姓"+mingzi +"的名字......" request=urllib2.Request(lianjie,headers=headers) html=getHtml(request) soup=BeautifulSoup(html,'html.parser') divs=soup.find_all('div',attrs={"class":"listbox1_text"})[0] ul=divs.find_all('ul')[0] lis=ul.find_all('li') for index in range(len(lis)): name=lis[index].text.lstrip()#左對齊 f.write(name) f.write('\r\n') print "抓取了"+(str(index)+1)+"個"+mingzi+"名字" f.close() f=open('name.txt','r') lines=f.readlines() print "當(dāng)前一共有"+str(len(lines)) f.close()
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。