上周從零學(xué)習(xí)了golang,語法簡(jiǎn)單關(guān)鍵字少,寫個(gè)爬蟲熟悉一下語法結(jié)構(gòu)。
創(chuàng)新互聯(lián)建站聯(lián)系電話:13518219792,為您提供成都網(wǎng)站建設(shè)網(wǎng)頁設(shè)計(jì)及定制高端網(wǎng)站建設(shè)服務(wù),創(chuàng)新互聯(lián)建站網(wǎng)頁制作領(lǐng)域10多年,包括發(fā)電機(jī)維修等多個(gè)領(lǐng)域擁有多年建站經(jīng)驗(yàn),選擇創(chuàng)新互聯(lián)建站,為企業(yè)錦上添花。
首先選用了原生的net/http包,基本上涵蓋了所有的get/post請(qǐng)求,各種參數(shù)都可以設(shè)置,網(wǎng)上google到html頁面解析goquery神器,很輕松就可以解決頁面解析問題。
首先就寫了個(gè)爬取匯率的爬蟲。然后重寫之前php的一個(gè)請(qǐng)求類,請(qǐng)求類的邏輯有點(diǎn)混亂不清晰,往往把兩個(gè)不同的功能合并到一起寫,粒度大,后來發(fā)現(xiàn)了一個(gè)好用的框架——colly,之后再試試好不好用
Windows 10 Golang
依賴包:goquery
較常用的方法有Find和Each
爬取中國(guó)銀行的匯率牌價(jià)表,golang依賴net/http包和goquery包
唯一的難點(diǎn)是對(duì)于goquery方法的使用,需要閱讀官方文檔:
使用原生的net/http包基本上可以解決大多數(shù)的網(wǎng)頁請(qǐng)求,使用goquery可以解決頁面解析問題
可以利用golang的協(xié)程特性進(jìn)行異步多協(xié)程爬取
增加安全性可以通過幾個(gè)方面進(jìn)行改進(jìn):
1.首先可以限制爬蟲的爬取速度
2.每次對(duì)網(wǎng)頁的請(qǐng)求都隨機(jī)選用一個(gè)客戶端
3.選用IP代理池,防止IP誤封(及限制ip訪問次數(shù))
構(gòu)造請(qǐng)求代理ip網(wǎng)站的鏈接→獲取網(wǎng)頁內(nèi)容→ 提取網(wǎng)頁中IP地址和端口號(hào)→驗(yàn)證IP的有效性并存儲(chǔ)
輕量級(jí)反爬蟲方案
淺談JSP
golang帶json的Http請(qǐng)求
Get/Post
HTTP請(qǐng)求中的Form Data和Request Payload的區(qū)別
HTTP Json請(qǐng)求
net/http:
golang HTTP操作
python建立爬蟲代理ip池
爬蟲黑科技之讓你的爬蟲程序更像人類用戶的行為
特點(diǎn):事件監(jiān)聽,通過callback執(zhí)行事件處理
基于colly開發(fā)的web管理界面
先配置Header最長(zhǎng)讀取時(shí)間、req最長(zhǎng)讀取時(shí)間、req最大讀取長(zhǎng)度默認(rèn)6M。
RFC7230禁止\r\n參數(shù),Url中只允許包含英文字母(a-zA-Z)、數(shù)字(0-9)、-_.~4個(gè)特殊字符以及所有保留字符。但go net/http包放寬了這個(gè)要求。
先構(gòu)建newTextprotoReader,由于緩沖區(qū)是對(duì)象復(fù)用的,用完后要defer put。共完以以下解析任務(wù):
TextprotoReader數(shù)據(jù)結(jié)構(gòu),將字節(jié)碼Reader轉(zhuǎn)成文本Reader。
第一步,從第一行解析出method uri prototype。
第二步解析URL。url.URL數(shù)據(jù)結(jié)構(gòu):
解析Scheme,協(xié)議前綴(小寫)。有查詢參數(shù)?,則配置url.ForceQuery url.RawQuery。有認(rèn)證信息///...//,則解析url.User url.Host。最后配置url.Path和url.RawPath,如果Path==RawPath,則RawPath=""。
第三步解析MIMEHeader。
第四步readTransfer。重新配置如下參數(shù):RequestMethod ProtoMajor ProtoMinor Header Trailer ContentLength Close。對(duì)于Body,如果encodings支持chunked,讀取流用chunkedReader包裹。默認(rèn)情況用LimitedReader,無body賦空的struct{}。
以下情況返回非空err,示得到正確的請(qǐng)求:
最后配置req.ctx req.RemoteAddr req.TLS body.doEarlyClose = true。
構(gòu)建Response:
其中closeNotifyCh必須在構(gòu)建時(shí)初始化,沒有content所以先置contentLength為-1。
配置w.cw并被w.w包裹。w.cw緩沖默認(rèn)大小2M。
獲取Request可能出現(xiàn)如下錯(cuò)誤:
先上響應(yīng)數(shù)據(jù)結(jié)構(gòu):
response字段可以分類為:大對(duì)象、緩沖、KV對(duì)或bool型的狀態(tài)參數(shù)。
大對(duì)象有:
狀態(tài)字段:
chunkWriter數(shù)據(jù)結(jié)構(gòu):
chunkWriter包裹了Response,功能之一是完成Header設(shè)置,包括Content-Type Content-Length chunk-header。bufio.Writer是chunkWriter是緩沖包裹。
handler將響應(yīng)寫入到response.w。
調(diào)用w.w.Flush()將w寫入到cw,注意到Flush()操作,如果未刷空緩存并報(bào)錯(cuò),觸發(fā)拷貝操作。報(bào)錯(cuò)不會(huì)退回已寫出的數(shù)據(jù)。
進(jìn)而調(diào)用cw.Write(),根據(jù)cw.chunking參數(shù)。
putBufioWriter(w.w)清空resp.w緩沖,如果池化放回sync.pool。
根據(jù)chunkWriter的定義,w.cw.close()負(fù)責(zé)cw的結(jié)束工作:寫入換行符和resp.trailers數(shù)據(jù)。
最后刷新TCP緩沖w.conn.bufw.Flush(),完成響應(yīng)包發(fā)送。并正確關(guān)閉request。
TL;DR 在使用 Golang 編寫 TCP/UDP socket 的時(shí)候,第一步做的就是地址解析。
該函數(shù)返回的地址包含的信息如下:
TCPAddr 里, IP 既可以是 IPv4 地址,也可以是 IPv6 地址。 Port 就是端口了。 Zone 是 IPv6 本地地址所在的區(qū)域。
從返回結(jié)果看該函數(shù)的參數(shù), network 指 address 的網(wǎng)絡(luò)類型; address 指要解析的地址,會(huì)從中解析出我們想要的 IP , Port 和 Zone 。
從源碼中可以看出,參數(shù) network 只能是如下四個(gè)值,否則會(huì)得到一個(gè)錯(cuò)誤。
解析過程跟 ResolveTCPAddr 的一樣,不過得到的是 *UDPAddr 。
UDPAddr 包含的信息如下:
Golang如何解析Html代碼
用Golang的朋友都知道如果我們要從HTML中提取一些內(nèi)容、比如title或者是h2在或者是一些其他的HTML的內(nèi)容、在Golang里面我們?nèi)绻约簩懘a來提取還是相當(dāng)?shù)穆闊┑模?/p>
由于我之前在寫Pyhon的爬蟲的時(shí)候也需要解析HTML標(biāo)簽;所以用過PyQuery和BS4.這次在用Golang寫爬蟲的時(shí)候就留意了一下是否有Golang版本的Query。github是個(gè)好地方;上面很找到很多開源的代碼可以用;包括GoQuery。
所以這次會(huì)介紹一下如何用GoQuery來解析HTML元素。
導(dǎo)入Goquery模塊
package mainimport ( "fmt" "github.com/opesun/goquery")其實(shí)還有一個(gè)github.com/PuerkitoBio/goquery的goquery模塊、但是配置環(huán)境經(jīng)常出差就沒有選擇
Goquery的各種用法
goquery有Jquery的大部分特性;如果你熟悉Jquery的話用Goquery就很簡(jiǎn)單了
解析HTML的title
var url = ""p, err := goquery.ParseUrl(url)if err != nil { panic(err)} else { pTitle := p.Find("title").Text()//直接提取title的內(nèi)容 fmt.Println(pTitle)}
命令行下運(yùn)行g(shù)o run page.go之后得到輸出
“Smart Testing | 專注于軟件測(cè)試領(lǐng)域的技術(shù)討論和研究、關(guān)注IT互聯(lián)網(wǎng)、WordPress技巧的個(gè)人博客”
解析HTML內(nèi)容
如果要得到HTML的內(nèi)容就更簡(jiǎn)單了fmt.Println(p.Html())//.Html()得到html內(nèi)容
獲取h2/h1之類的標(biāo)簽內(nèi)容
class := p.Find("h2").Text()fmt.Println(class, "/n")
我們可以使用Find()來查找需呀哦的標(biāo)簽;并且用.Text()來顯示標(biāo)簽的內(nèi)容
解析提取class的內(nèi)容
如果要解析class的內(nèi)容;需要在Find(".")加一個(gè).
下面我們要提取class”entry-title”里面、后面的”href”的URL地址
由于超過1條內(nèi)容所以不能用Text()來打印結(jié)果;需要用for來循環(huán)一下;
t := p.Find(".entry-title a")for i := 0; i t.Length(); i++ {d := t.Eq(i).Attr("href")fmt.Println(d)}
輸出結(jié)果如下
其實(shí)就是首頁里面的4篇文章的地址
如果想得到html里面所有的herf
fmt.Println(p.Find("").Attrs("href"))
用上面一行代碼就可以得到HTML里面全部的href內(nèi)容了
判斷元素是否存在
如果想要判斷一個(gè)元素是否在HTML里面;可以使用下面的代碼fmt.Println(p.Find("div").HasClass("entry-content"))
判斷div下面有沒有“entry-content”的class元素;有返還true;沒有返回false