如何模擬HTTP請(qǐng)求實(shí)現(xiàn)網(wǎng)頁自動(dòng)操作和數(shù)據(jù)采集?針對(duì)這個(gè)問題,今天小編總結(jié)這篇代碼與解析相結(jié)合的文章,希望大家根據(jù)這篇文章可以有所收獲。
茂南網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)建站!從網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、響應(yīng)式網(wǎng)站建設(shè)等網(wǎng)站項(xiàng)目制作,到程序開發(fā),運(yùn)營維護(hù)。創(chuàng)新互聯(lián)建站從2013年成立到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)建站。
前言
網(wǎng)頁可分為信息提供和業(yè)務(wù)操作類,信息提供如新聞、股票行情之類的網(wǎng)站。業(yè)務(wù)操作如網(wǎng)上營業(yè)廳、OA之類的。當(dāng)然,也有很多網(wǎng)站同時(shí)具有這兩種性質(zhì),像微博、豆瓣、淘寶這類網(wǎng)站,既提供信息,也實(shí)現(xiàn)某些業(yè)務(wù)。
普通上網(wǎng)方式一般都是手動(dòng)操作(這個(gè)不需要解釋:D)。但有時(shí)候人工手動(dòng)操作的方式可能就無法勝任了,如爬取網(wǎng)絡(luò)上大量數(shù)據(jù),實(shí)時(shí)監(jiān)測(cè)某個(gè)頁面的變化,批量操作業(yè)務(wù)(如批量發(fā)微博,批量淘寶購物)、刷單等。由于操作量大,而且都是重復(fù)的操作,人工操作效率低下,且易出錯(cuò)。這時(shí)候就可以使用軟件來自動(dòng)操作了。
本人開發(fā)過多個(gè)這類軟件,有網(wǎng)絡(luò)爬蟲、自動(dòng)批量操作業(yè)務(wù)這類的。其中使用到的一個(gè)核心功能就是模擬HTTP請(qǐng)求。當(dāng)然,有時(shí)會(huì)使用HTTPS協(xié)議,而且網(wǎng)站一般需要登陸后才能進(jìn)一步操作,還有最重要的一點(diǎn)就是弄清楚網(wǎng)站的業(yè)務(wù)流程,即知道為了實(shí)現(xiàn)某個(gè)操作該在什么時(shí)候向哪個(gè)頁面以什么方式提交什么數(shù)據(jù),最后,要提取數(shù)據(jù)或知道操作結(jié)果,就還需要解析HTML。本文將一一闡述。
本文使用C#語言來展示代碼,當(dāng)然也可以用其它語言實(shí)現(xiàn),原理是一樣的。以登陸京東為實(shí)例。
模擬HTTP請(qǐng)求
C#模擬HTTP請(qǐng)求需要使用到如下類:
?WebRequest
?HttpWebRequest
?HttpWebResponse
?Stream
先創(chuàng)建一個(gè)請(qǐng)求對(duì)象(HttpWebRequest),設(shè)置相關(guān)的Headers信息后發(fā)送請(qǐng)求(如果是POST,還要把表單數(shù)據(jù)寫入網(wǎng)絡(luò)流),如果目標(biāo)地址可訪問,會(huì)得到一個(gè)響應(yīng)對(duì)象(HttpWebResponse),從相應(yīng)對(duì)象的網(wǎng)絡(luò)流中就可讀出返回結(jié)果。
示例代碼如下:
String contentType = "application/x-www-form-urlencoded"; String accept = "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/x-silverlight, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, application/x-ms-application, application/x-ms-xbap, application/vnd.ms-xpsdocument, application/xaml+xml, application/x-silverlight-2-b1, */*"; String userAgent = "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36"; public String Get(String url, String encode = DEFAULT_ENCODE) { HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest; InitHttpWebRequestHeaders(request); request.Method = "GET"; var html = ReadHtml(request, encode); return html; } public String Post(String url, String param, String encode = DEFAULT_ENCODE) { Encoding encoding = System.Text.Encoding.UTF8; byte[] data = encoding.GetBytes(param); HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest; InitHttpWebRequestHeaders(request); request.Method = "POST"; request.ContentLength = data.Length; var outstream = request.GetRequestStream(); outstream.Write(data, 0, data.Length); var html = ReadHtml(request, encode); return html; } private void InitHttpWebRequestHeaders(HttpWebRequest request) { request.ContentType = contentType; request.Accept = accept; request.UserAgent = userAgent; } private String ReadHtml(HttpWebRequest request, String encode) { HttpWebResponse response = request.GetResponse() as HttpWebResponse; Stream stream = response.GetResponseStream(); StreamReader reader = new StreamReader(stream, Encoding.GetEncoding(encode)); String content = reader.ReadToEnd(); reader.Close(); stream.Close(); return content; }
可以看出,Get和Post方法的代碼大部分都相似,所以代碼進(jìn)行了封裝,提取了相同代碼作為新的函數(shù)。
HTTPS請(qǐng)求
當(dāng)網(wǎng)站使用https協(xié)議時(shí),以上代碼就可能會(huì)出現(xiàn)以下錯(cuò)誤:
The underlying connection was closed: Could not establish trust relationship for
原因是證書錯(cuò)誤,用瀏覽器打開會(huì)出現(xiàn)如下頁面:
當(dāng)點(diǎn)擊繼續(xù)前往xxx.xx(不安全)時(shí),就可繼續(xù)打開網(wǎng)頁。在程序中,也只要模擬這一步就可以繼續(xù)了。C#中只需設(shè)置ServicePointManager.ServerCertificateValidationCallback代理,在代理方法中直接返回true就行了。
private HttpWebRequest CreateHttpWebRequest(String url) { HttpWebRequest request; if (IsHttpsProtocol(url)) { ServicePointManager.ServerCertificateValidationCallback = new RemoteCertificateValidationCallback(CheckValidationResult); request = WebRequest.Create(url) as HttpWebRequest; request.ProtocolVersion = HttpVersion.Version10; } else { request = WebRequest.Create(url) as HttpWebRequest; } return request; } private HttpWebRequest CreateHttpWebRequest(String url) { HttpWebRequest request; if (IsHttpsProtocol(url)) { ServicePointManager.ServerCertificateValidationCallback = new RemoteCertificateValidationCallback(CheckValidationResult); request = WebRequest.Create(url) as HttpWebRequest; request.ProtocolVersion = HttpVersion.Version10; } else { request = WebRequest.Create(url) as HttpWebRequest; } return request; }
這樣,就可正常訪問https網(wǎng)站了。
記錄Cookies實(shí)現(xiàn)身份認(rèn)證
有些網(wǎng)站需要登錄才能執(zhí)行下一步操作,比如在京東購物需要先登錄。網(wǎng)站服務(wù)器使用session來記錄客戶端用戶,每一個(gè)session對(duì)應(yīng)一個(gè)用戶,而前面的代碼每次創(chuàng)建一個(gè)請(qǐng)求都會(huì)重新建立一個(gè)session。即使登錄成功,在執(zhí)行下一步操作由于新創(chuàng)建了一個(gè)連接,登錄也是無效的。這時(shí)就得想辦法讓服務(wù)器認(rèn)為這一系列的請(qǐng)求來自同一個(gè)session。
客戶端只有Cookies,為了在下次請(qǐng)求的時(shí)候讓服務(wù)器知道該客戶端對(duì)應(yīng)哪個(gè)session,Cookies中會(huì)有一個(gè)記錄session ID的記錄。所以,只要Cookies相同,對(duì)服務(wù)器來說就是同一個(gè)用戶。
這時(shí)需要使用到CookieContainer,顧名思義,這就是一個(gè)Cookies容器。HttpWebRequest有一個(gè)CookieContainer屬性。只要把每次請(qǐng)求的Cookies都記錄在CookieContainer,下次請(qǐng)求時(shí)設(shè)置HttpWebRequest的CookieContainer屬性,由于Cookies相同,對(duì)于服務(wù)器來說就是同一個(gè)用戶了。
public String Get(String url, String encode = DEFAULT_ENCODE) { HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest; InitHttpWebRequestHeaders(request); request.Method = "GET"; request.CookieContainer = cookieContainer; HttpWebResponse response = request.GetResponse() as HttpWebResponse; foreach (Cookie c in response.Cookies) { cookieContainer.Add(c); } }
分析調(diào)試網(wǎng)站
以上就實(shí)現(xiàn)了模擬HTTP請(qǐng)求,當(dāng)然,最重要的還是分析站。一般的情況都是沒有文檔、找不到網(wǎng)站開發(fā)人員,從一個(gè)黑盒子開始探索。分析工具有很多,推薦使用Chrome+插件Advanced Rest Client,Chrome的開發(fā)者工具能讓我們知道打開一個(gè)網(wǎng)頁時(shí)后臺(tái)做了哪些操作與請(qǐng)求,Advanced Rest Client可模擬發(fā)送請(qǐng)求。
比如在登錄京東時(shí),會(huì)提交如下數(shù)據(jù):
我們還能看到京東的密碼居然是明文傳輸,安全性很讓人擔(dān)心??!
還能看到返回的數(shù)據(jù):
返回的是JSON數(shù)據(jù),不過\u8d26這些是什么?其實(shí)這是Unicode編碼,使用Unicode編碼轉(zhuǎn)換工具,即可轉(zhuǎn)換成可讀的文字,比如這次返回的結(jié)果是:賬戶名與密碼不匹配,請(qǐng)重新輸入。
解析HTML
HTTP請(qǐng)求獲得的數(shù)據(jù)一般是HTML格式,有時(shí)也可能是Json或XML。需要解析才能提取有用數(shù)據(jù)。解析HTML的組件有:
?HTML Parser。多個(gè)平臺(tái)可用,如Java/C#/Python。很久沒用了。
?HtmlAgilityPack。通過通過XPath來解析HMTL。
以上就是模擬HTTP請(qǐng)求實(shí)現(xiàn)網(wǎng)頁自動(dòng)操作和數(shù)據(jù)采集的具體操作,代碼詳細(xì)清楚,如果在日常工作遇到這個(gè)問題,希望你能通過這篇文章解決問題。如果想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!