分析
使用CrawlSpider結合LinkExtractor和Rule爬取網(wǎng)頁信息
LinkExtractor用于定義鏈接提取規(guī)則,一般使用allow參數(shù)即可
LinkExtractor(allow=(), # 使用正則定義提取規(guī)則 deny=(), # 排除規(guī)則 allow_domains=(), # 限定域名范圍 deny_domains=(), # 排除域名范圍 restrict_xpaths=(), # 使用xpath定義提取隊則 tags=('a', 'area'), attrs=('href',), canonicalize=False, unique=True, process_value=None, deny_extensions=None, restrict_css=(), # 使用css選擇器定義提取規(guī)則 strip=True):
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。