本篇文章給大家分享的是有關(guān)利用Java爬蟲怎么實(shí)現(xiàn)一個(gè)解析功能,小編覺得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說(shuō),跟著小編一起來(lái)看看吧。
讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來(lái)自于我們對(duì)這個(gè)行業(yè)的熱愛。我們立志把好的技術(shù)通過(guò)有效、簡(jiǎn)單的方式提供給客戶,將通過(guò)不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴,公司提供的服務(wù)項(xiàng)目有:域名注冊(cè)、虛擬主機(jī)、營(yíng)銷軟件、網(wǎng)站建設(shè)、行唐網(wǎng)站維護(hù)、網(wǎng)站推廣。1、springboot項(xiàng)目,引入jsoup
org.jsoup jsoup 1.10.2
2、準(zhǔn)備解析對(duì)象
Content.java package com.asia.pojo; import lombok.AllArgsConstructor; import lombok.Data; import lombok.NoArgsConstructor; @Data @NoArgsConstructor @AllArgsConstructor public class Content { private String title; private String img; private String price; }
3、爬蟲工具類
HtmlParseUtil.java package com.asia.utils; import java.net.URL; import java.net.URLDecoder; import java.util.ArrayList; import java.util.List; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import com.asia.pojo.Content; public class HtmlParseUtil { public static void main(String[] args) throws Exception { new HtmlParseUtil().parseJD("西瓜").forEach(System.out::println); } public ListparseJD(String keywords) throws Exception { String url = "/tupian/20230522/Search // 解析網(wǎng)頁(yè).(Jsoup返回Document就是瀏覽器的Document對(duì)象) Document document = Jsoup.parse((new URL(url)), 30000); Element element = document.getElementById("J_goodsList"); Elements elements = element.getElementsByTag("li"); List list = new ArrayList (); for (Element el : elements) { String src = el.getElementsByTag("img").eq(0).attr("data-lazy-img"); String price = el.getElementsByClass("p-price").eq(0).text(); String name = el.getElementsByClass("p-name").eq(0).text(); list.add(new Content(name, src, price)); } return list; } }
以上就是利用Java爬蟲怎么實(shí)現(xiàn)一個(gè)解析功能,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。