java爬取網(wǎng)頁代碼 java爬取整個網(wǎng)站圖片

java jsoup怎樣爬取特定網(wǎng)頁內(nèi)的數(shù)據(jù)

1、Jsoup簡述

讓客戶滿意是我們工作的目標，不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶，將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴，公司提供的服務項目有：域名注冊、雅安服務器托管、營銷軟件、網(wǎng)站建設、察哈爾右翼前網(wǎng)站維護、網(wǎng)站推廣。

Java中支持的爬蟲框架有很多，比如WebMagic、Spider、Jsoup等。

Jsoup擁有十分方便的api來處理html文檔，比如參考了DOM對象的文檔遍歷方法，參考了CSS選擇器的用法等等，因此我們可以使用Jsoup快速地掌握爬取頁面數(shù)據(jù)的技巧。

2、快速開始

1)分析HTML頁面，明確哪些數(shù)據(jù)是需要抓取的

2)使用HttpClient讀取HTML頁面

HttpClient是一個處理Http協(xié)議數(shù)據(jù)的工具，使用它可以將HTML頁面作為輸入流讀進java程序中.

3)使用Jsoup解析html字符串

通過引入Jsoup工具，直接調(diào)用parse方法來解析一個描述html頁面內(nèi)容的字符串來獲得一個Document對象。該Document對象以操作DOM樹的方式來獲得html頁面上指定的內(nèi)容。

3、保存爬取的頁面數(shù)據(jù)

1)保存普通數(shù)據(jù)到數(shù)據(jù)庫中

將爬取的數(shù)據(jù)封裝進實體Bean中，并存到數(shù)據(jù)庫內(nèi)。

2)保存圖片到服務器上

直接通過下載圖片的方式將圖片保存到服務器本地。

Java網(wǎng)絡爬蟲怎么實現(xiàn)？

網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成。\x0d\x0a傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統(tǒng)的一定停止條件。對于垂直搜索來說，聚焦爬蟲，即有針對性地爬取特定主題網(wǎng)頁的爬蟲，更為適合。\x0d\x0a\x0d\x0a以下是一個使用java實現(xiàn)的簡單爬蟲核心代碼：\x0d\x0apublic void crawl() throws Throwable { \x0d\x0a while (continueCrawling()) { \x0d\x0a CrawlerUrl url = getNextUrl(); //獲取待爬取隊列中的下一個URL \x0d\x0a if (url != null) { \x0d\x0a printCrawlInfo(); \x0d\x0a String content = getContent(url); //獲取URL的文本信息 \x0d\x0a \x0d\x0a //聚焦爬蟲只爬取與主題內(nèi)容相關(guān)的網(wǎng)頁，這里采用正則匹配簡單處理 \x0d\x0a if (isContentRelevant(content, this.regexpSearchPattern)) { \x0d\x0a saveContent(url, content); //保存網(wǎng)頁至本地 \x0d\x0a \x0d\x0a //獲取網(wǎng)頁內(nèi)容中的鏈接，并放入待爬取隊列中 \x0d\x0a Collection urlStrings = extractUrls(content, url); \x0d\x0a addUrlsToUrlQueue(url, urlStrings); \x0d\x0a } else { \x0d\x0a System.out.println(url + " is not relevant ignoring ..."); \x0d\x0a } \x0d\x0a \x0d\x0a //延時防止被對方屏蔽 \x0d\x0a Thread.sleep(this.delayBetweenUrls); \x0d\x0a } \x0d\x0a } \x0d\x0a closeOutputStream(); \x0d\x0a}\x0d\x0aprivate CrawlerUrl getNextUrl() throws Throwable { \x0d\x0a CrawlerUrl nextUrl = null; \x0d\x0a while ((nextUrl == null) (!urlQueue.isEmpty())) { \x0d\x0a CrawlerUrl crawlerUrl = this.urlQueue.remove(); \x0d\x0a //doWeHavePermissionToVisit：是否有權(quán)限訪問該URL，友好的爬蟲會根據(jù)網(wǎng)站提供的"Robot.txt"中配置的規(guī)則進行爬取 \x0d\x0a //isUrlAlreadyVisited：URL是否訪問過，大型的搜索引擎往往采用BloomFilter進行排重，這里簡單使用HashMap \x0d\x0a //isDepthAcceptable：是否達到指定的深度上限。爬蟲一般采取廣度優(yōu)先的方式。一些網(wǎng)站會構(gòu)建爬蟲陷阱（自動生成一些無效鏈接使爬蟲陷入死循環(huán)），采用深度限制加以避免 \x0d\x0a if (doWeHavePermissionToVisit(crawlerUrl) \x0d\x0a (!isUrlAlreadyVisited(crawlerUrl)) \x0d\x0a isDepthAcceptable(crawlerUrl)) { \x0d\x0a nextUrl = crawlerUrl; \x0d\x0a // System.out.println("Next url to be visited is " + nextUrl); \x0d\x0a } \x0d\x0a } \x0d\x0a return nextUrl; \x0d\x0a}\x0d\x0aprivate String getContent(CrawlerUrl url) throws Throwable { \x0d\x0a //HttpClient4.1的調(diào)用與之前的方式不同 \x0d\x0a HttpClient client = new DefaultHttpClient(); \x0d\x0a HttpGet httpGet = new HttpGet(url.getUrlString()); \x0d\x0a StringBuffer strBuf = new StringBuffer(); \x0d\x0a HttpResponse response = client.execute(httpGet); \x0d\x0a if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) { \x0d\x0a HttpEntity entity = response.getEntity(); \x0d\x0a if (entity != null) { \x0d\x0a BufferedReader reader = new BufferedReader( \x0d\x0a new InputStreamReader(entity.getContent(), "UTF-8")); \x0d\x0a String line = null; \x0d\x0a if (entity.getContentLength() 0) { \x0d\x0a strBuf = new StringBuffer((int) entity.getContentLength()); \x0d\x0a while ((line = reader.readLine()) != null) { \x0d\x0a strBuf.append(line); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a if (entity != null) { \x0d\x0a nsumeContent(); \x0d\x0a } \x0d\x0a } \x0d\x0a //將url標記為已訪問 \x0d\x0a markUrlAsVisited(url); \x0d\x0a return strBuf.toString(); \x0d\x0a}\x0d\x0apublic static boolean isContentRelevant(String content, \x0d\x0aPattern regexpPattern) { \x0d\x0a boolean retValue = false; \x0d\x0a if (content != null) { \x0d\x0a //是否符合正則表達式的條件 \x0d\x0a Matcher m = regexpPattern.matcher(content.toLowerCase()); \x0d\x0a retValue = m.find(); \x0d\x0a } \x0d\x0a return retValue; \x0d\x0a}\x0d\x0apublic List extractUrls(String text, CrawlerUrl crawlerUrl) { \x0d\x0a Map urlMap = new HashMap(); \x0d\x0a extractHttpUrls(urlMap, text); \x0d\x0a extractRelativeUrls(urlMap, text, crawlerUrl); \x0d\x0a return new ArrayList(urlMap.keySet()); \x0d\x0a} \x0d\x0aprivate void extractHttpUrls(Map urlMap, String text) { \x0d\x0a Matcher m = (text); \x0d\x0a while (m.find()) { \x0d\x0a String url = m.group(); \x0d\x0a String[] terms = url.split("a href=\""); \x0d\x0a for (String term : terms) { \x0d\x0a // System.out.println("Term = " + term); \x0d\x0a if (term.startsWith("http")) { \x0d\x0a int index = term.indexOf("\""); \x0d\x0a if (index 0) { \x0d\x0a term = term.substring(0, index); \x0d\x0a } \x0d\x0a urlMap.put(term, term); \x0d\x0a System.out.println("Hyperlink: " + term); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a} \x0d\x0aprivate void extractRelativeUrls(Map urlMap, String text, \x0d\x0a CrawlerUrl crawlerUrl) { \x0d\x0a Matcher m = relativeRegexp.matcher(text); \x0d\x0a URL textURL = crawlerUrl.getURL(); \x0d\x0a String host = textURL.getHost(); \x0d\x0a while (m.find()) { \x0d\x0a String url = m.group(); \x0d\x0a String[] terms = url.split("a href=\""); \x0d\x0a for (String term : terms) { \x0d\x0a if (term.startsWith("/")) { \x0d\x0a int index = term.indexOf("\""); \x0d\x0a if (index 0) { \x0d\x0a term = term.substring(0, index); \x0d\x0a } \x0d\x0a String s = //" + host + term; \x0d\x0a urlMap.put(s, s); \x0d\x0a System.out.println("Relative url: " + s); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a \x0d\x0a}\x0d\x0apublic static void main(String[] args) { \x0d\x0a try { \x0d\x0a String url = ""; \x0d\x0a Queue urlQueue = new LinkedList(); \x0d\x0a String regexp = "java"; \x0d\x0a urlQueue.add(new CrawlerUrl(url, 0)); \x0d\x0a NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L, \x0d\x0a regexp); \x0d\x0a // boolean allowCrawl = crawler.areWeAllowedToVisit(url); \x0d\x0a // System.out.println("Allowed to crawl: " + url + " " + \x0d\x0a // allowCrawl); \x0d\x0a crawler.crawl(); \x0d\x0a } catch (Throwable t) { \x0d\x0a System.out.println(t.toString()); \x0d\x0a t.printStackTrace(); \x0d\x0a } \x0d\x0a}

如何用JAVA爬取AJAX加載后的頁面

普通的爬取是抓不了js的之后的數(shù)據(jù)的可以用phantomjs或者htmlUnit實現(xiàn)

附上phantomjs示列代碼

package cn.wang.utils;

import java.util.Random;

import com.gargoylesoftware.htmlunit.BrowserVersion;

import com.gargoylesoftware.htmlunit.CookieManager;

import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;

import com.gargoylesoftware.htmlunit.WebClient;

public class htmlUnitUtils {

static WebClient webClient = null;

static Random random = new Random();

static{

//1.創(chuàng)建對象

webClient = new WebClient(BrowserVersion.CHROME);

//2.設置參數(shù)

//啟動js

webClient.getOptions().setJavaScriptEnabled(true);

//關(guān)閉css渲染

webClient.getOptions().setCssEnabled(false);

//啟動重定向

webClient.getOptions().setRedirectEnabled(true);

//設置連接超時時間，這里是10S。如果為0，則無限期等待

webClient.getOptions().setTimeout(1000 * 15);

//啟動cookie管理

webClient.setCookieManager(new CookieManager());

//啟動ajax代理

webClient.setAjaxController(new NicelyResynchronizingAjaxController());

//js運行時錯誤，是否拋出異常

webClient.getOptions().setThrowExceptionOnScriptError(false);

//設置瀏覽器請求信息

webClient.addRequestHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");

webClient.addRequestHeader("Accept-Encoding", "gzip, deflate");

webClient.addRequestHeader("Accept-Language", "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2");

webClient.addRequestHeader("Connection", "keep-alive");

webClient.addRequestHeader("Upgrade-Insecure-Requests", "1");

}

public static void runJs(String url){

try {

webClient.addRequestHeader("User-Agent", Constant.useragents[random.nextInt(Constant.useragents.length)]);

//等待js渲染執(zhí)行 waitime等待時間(ms)

webClient.waitForBackgroundJavaScript(1000 * 10);

//3.獲取頁面

webClient.getPage(url);

} catch (Exception e) {

e.printStackTrace();

} finally {

if(webClient != null){

webClient.close();

}

public static void main(String[] args) {

runJs("");

System.setProperty("phantomjs.binary.path", "D:\\works\\tool\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe");

}

java爬蟲抓取指定數(shù)據(jù)

根據(jù)java網(wǎng)絡編程相關(guān)的內(nèi)容，使用jdk提供的相關(guān)類可以得到url對應網(wǎng)頁的html頁面代碼。

針對得到的html代碼，通過使用正則表達式即可得到我們想要的內(nèi)容。

比如，我們?nèi)绻氲玫揭粋€網(wǎng)頁上所有包括“java”關(guān)鍵字的文本內(nèi)容，就可以逐行對網(wǎng)頁代碼進行正則表達式的匹配。最后達到去除html標簽和不相關(guān)的內(nèi)容，只得到包括“java”這個關(guān)鍵字的內(nèi)容的效果。

從網(wǎng)頁上爬取圖片的流程和爬取內(nèi)容的流程基本相同，但是爬取圖片的步驟會多一步。

需要先用img標簽的正則表達式匹配獲取到img標簽，再用src屬性的正則表達式獲取這個img標簽中的src屬性的圖片url，然后再通過緩沖輸入流對象讀取到這個圖片url的圖片信息，配合文件輸出流將讀到的圖片信息寫入到本地即可。

網(wǎng)頁題目：java爬取網(wǎng)頁代碼 java爬取整個網(wǎng)站圖片
網(wǎng)頁網(wǎng)址：http://weahome.cn/article/ddcessh.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

java爬取網(wǎng)頁代碼 java爬取整個網(wǎng)站圖片

java jsoup怎樣爬取特定網(wǎng)頁內(nèi)的數(shù)據(jù)

Java網(wǎng)絡爬蟲怎么實現(xiàn)？

如何用JAVA爬取AJAX加載后的頁面

java爬蟲抓取指定數(shù)據(jù)

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設

服務器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

java爬取網(wǎng)頁代碼 java爬取整個網(wǎng)站圖片

java jsoup怎樣爬取特定網(wǎng)頁內(nèi)的數(shù)據(jù)

Java網(wǎng)絡爬蟲怎么實現(xiàn)？

如何用JAVA爬取AJAX加載后的頁面

java爬蟲抓取指定數(shù)據(jù)

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設

服務器托管

Java網(wǎng)絡爬蟲怎么實現(xiàn)？