本篇內(nèi)容主要講解“基于ASP.NET網(wǎng)頁如何實(shí)現(xiàn)C#數(shù)據(jù)采集”,感興趣的朋友不妨來看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“基于ASP.NET網(wǎng)頁如何實(shí)現(xiàn)C#數(shù)據(jù)采集”吧!
成都創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),隴西企業(yè)網(wǎng)站建設(shè),隴西品牌網(wǎng)站建設(shè),網(wǎng)站定制,隴西網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,隴西網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力。可充分滿足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長(zhǎng)自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。
C#數(shù)據(jù)采集大體可以分為兩部曲:
一部曲:
因?yàn)橐杉瘎e人網(wǎng)頁上的內(nèi)容,所有我們先要得到要采集網(wǎng)頁上的html代碼,獲取html代碼還是比較簡(jiǎn)單。利用WebClient的DownloadData(url)得帶byte數(shù)組,然后在轉(zhuǎn)換成string字符串。
具體代碼如下:
//////獲取網(wǎng)頁源代碼 /// ///URL路徑 /// 編碼方式 publicstringGetHTML(stringurl,stringencoding) { WebClientweb=newWebClient(); byte[]buffer=web.DownloadData(url); returnEncoding.GetEncoding(encoding).GetString(buffer); }
二部曲:
現(xiàn)在我們得到了目標(biāo)網(wǎng)頁的html代碼,那么我們就開始時(shí)得扣取我們想要的數(shù)據(jù)??廴?shù)據(jù)無疑就要用到強(qiáng)大的正則表達(dá)式了。利用正則表達(dá)式的匹配來獲取我們要的內(nèi)容,這里可以過濾掉制定的html代碼,剩下的就是內(nèi)容了。
C#數(shù)據(jù)采集具體代碼如下:
Htmlhtml=newHtml(); //得到指定頁面的html代碼,***個(gè)參數(shù)為url(貌似都知道),第二個(gè)是目標(biāo)網(wǎng)頁的編碼集 stringhtmlCode=html.GetHTML("http://gvod.tom59.cn/List.asp?ClassId=3","gb2312"); //正則表達(dá)式 Regexregexarticles=newRegex("\\d+)\"\\s+target=\"_blank\">(? "); //所有匹配表達(dá)式的內(nèi)容 MatchCollectionmarticles=regexarticles.Matches(htmlCode); ///遍歷匹配內(nèi)容 foreach(Matchminmarticles) { Console.Write("標(biāo)題:"+m.Groups["title"].Value+"\n"); Console.Write("id:"+m.Groups["id"].Value+"\n"); Console.Write("\n"); }.+) .*
到此,相信大家對(duì)“基于ASP.NET網(wǎng)頁如何實(shí)現(xiàn)C#數(shù)據(jù)采集”有了更深的了解,不妨來實(shí)際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!