真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

如何利用正則表達式抓取博客園列表數(shù)據(jù)

這篇文章主要為大家展示了“如何利用正則表達式抓取博客園列表數(shù)據(jù)”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學習一下“如何利用正則表達式抓取博客園列表數(shù)據(jù)”這篇文章吧。

站在用戶的角度思考問題,與客戶深入溝通,找到岱山網(wǎng)站設(shè)計與岱山網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:網(wǎng)站建設(shè)、成都網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、域名與空間、網(wǎng)站空間、企業(yè)郵箱。業(yè)務覆蓋岱山地區(qū)。

在抓取博客園數(shù)據(jù)的時候采用了正則表達式,所以有不熟悉正則表達式的朋友可以參考相關(guān)資料,其實很容易掌握,就是在具體的實例中會花些時間。

現(xiàn)在我就來把我抓取博客園數(shù)據(jù)的過程敘述一下,如果有朋友有更好的意見,歡迎提出來。

要使用正則表達式抓取數(shù)據(jù),首先就要創(chuàng)建一個正則表達式進行匹配,我推薦使用regulator,這個正則表達式工具,我們可以先使用這個工具把我們要使用的正則表達式拼接出來,然后在程序中使用。

我發(fā)現(xiàn)博客園的首頁列表可以通過http://www.cnblogs.com/p1,p2...這種方式來直接訪問,這樣我們就可以直接通過url獲取數(shù)據(jù),而不用模擬數(shù)據(jù)點擊事件來虛擬的點擊下一頁的那個按鈕獲取數(shù)據(jù),更加方便。因為我的目的就是抓取一些數(shù)據(jù),所以就簡單點。

1.首先就是要寫對應的sql Helper類,相信這是很多程序員都會掌握的,無非就是增刪改查的操作。在創(chuàng)建好了sqlhelper類之后,我們就可以開始進行抓取數(shù)據(jù)的邏輯處理。

2.創(chuàng)建BlogRegexController

public class BlogRegexController : Controller
   {
     public void ExecuteRegex()
     {
       string strBaseUrl = "http://www.cnblogs.com/p"; //定義博客園可以訪問的列表數(shù)據(jù)的基地址
       for (int i = ; i <= ; i++)//因為博客園首頁列表最大只有頁,所以我們這個循環(huán)就執(zhí)行次
       {
         string strUrl = strBaseUrl + i.ToString();
         BlogRege blogRegex = new BlogRege(); //定義的具體的Regex類 抓取博客園地址
         string result = blogRegex.SendUrl(strUrl);
         blogRegex.AnalysisHtml(result);
 
         Response.Write("獲取成功");
       }
     }
 
     //
     // GET: /BlogRegex/
 
     public ActionResult Index()
     {
       ExecuteRegex();
       return View();
     }
 
   }

在controller中的ExecuteRegex()方法就是執(zhí)行抓取博客園列表數(shù)據(jù)的功臣。

3.首先就是其中定義的BlogRege類,他負責抓取博客園列表數(shù)據(jù)并將其插入到數(shù)據(jù)庫中

public class BlogRege
   {   //負責把數(shù)據(jù)插入到數(shù)據(jù)庫中 使用到的是sqlhelper類
     public void Insert(string title, string content,string linkurl, int categoryID = )
     {
       SqlHelper helper = new SqlHelper();
       helper.Insert(title, content, categoryID,linkurl);
     }
     /// 
     /// 通過Url地址獲取具體網(wǎng)頁內(nèi)容 發(fā)起一個請求獲得html內(nèi)容
     /// 
     /// 
     /// 
     public string SendUrl(string strUrl)
     {
       try
       {
         WebRequest webRequest = WebRequest.Create(strUrl);
         WebResponse webResponse = webRequest.GetResponse();
         StreamReader reader = new StreamReader(webResponse.GetResponseStream());
         string result = reader.ReadToEnd();
         return result;
       }
       catch (Exception ex)
       {
         throw ex;
       }
     }
     /// 
     /// 分析Html 解析出里面具體的數(shù)據(jù)
     /// 
     /// 
     public void AnalysisHtml(string htmlContent)
     {//這個就是我在regulator正則表達式工具中拼接獲取到的正則表達式 還有一點請注意就是轉(zhuǎn)義字符的問題
       string strPattern = "\\s*.*\\s*.*\\s*.*\\s*.*\\s*.*\\s*.*\\s*.*\\s*\\s*.*)\"\\s*target=\"_blank\">(?.*)</a>.*\\s*<p\\s*class=\"post_item_summary\">\\s*(?<content>.*)\\s*</p>";
       Regex regex = new Regex(strPattern, RegexOptions.IgnoreCase | RegexOptions.Multiline | RegexOptions.CultureInvariant);
       if (regex.IsMatch(htmlContent))
       {
         MatchCollection matchCollection = regex.Matches(htmlContent);
         foreach (Match match in matchCollection)
         {
           string title = match.Groups[].Value;//獲取到的是列表數(shù)據(jù)的標題
           string content = match.Groups[].Value;//獲取到的是內(nèi)容
           string linkurl=match.Groups[].Value;//獲取到的是鏈接到的地址
          Insert(title, content,linkurl);//執(zhí)行插入到數(shù)據(jù)庫的操作
         }
       }
     }
   }</pre><p>4.通過上面的代碼我們可以很輕松的從博客園中獲取我們用來測試的數(shù)據(jù),方便快捷,而且真實,比我們手動輸入的速度要快很多。</p><p>正則表達式其實不應該算是一種語言,只能算是一種語法,因為任何的語言包括C#,javascript等語言都對正則表達式有很好的支持,只是他們的使用語法稍有不同,其實只要我們可以正確的拼接出正則表達式,那么我們抓取任何網(wǎng)站的內(nèi)容都可以很輕松的做到。前一段我試著抓取了淘寶的數(shù)據(jù),一共抓取了有幾百萬條,我想應該還有很多沒有抓取到,不得不佩服淘寶,數(shù)據(jù)量太大。</p><p>回到我們使用的C#語言上,其實對正則表達式也有著非常好的支持,Regex就是用來對正則表達式進行操作的類,所有的對正則表達式的操作都在這個類中。</p><p>如果你對正則表達式還不是太熟悉,網(wǎng)上有一篇正則表達式30分鐘入門教程,大家可以參考一下,寫的很不錯。再加上使用一個正則表達式工具,相信可以抓取到任何你想的內(nèi)容。</p><p>在拼接正則表達式的時候,可能會花費很長時間,畢竟要分析html結(jié)構(gòu),從中抓取內(nèi)容。希望大家可以沉住氣,因為只要正則表達式拼接正確,那么一定可以抓取正確的內(nèi)容。</p><p>為了避免大家說只說不做,那么我就把我抓取的博客園首頁內(nèi)容秀一下,因為博客園首頁數(shù)據(jù)會有更新,所以大家可以看到這些數(shù)據(jù)都是在博客園中順序存在的。</p><p><img src="/upload/otherpic74/26682.png" alt="如何利用正則表達式抓取博客園列表數(shù)據(jù)"></p><p>博客園每頁列表是20條,一共200頁,所以一共是4000條。數(shù)據(jù)抓取正確。</p><p>以上是“如何利用正則表達式抓取博客園列表數(shù)據(jù)”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學習更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!</p>            
            
                        <br>
            網(wǎng)頁題目:如何利用正則表達式抓取博客園列表數(shù)據(jù)            <br>
            路徑分享:<a href="http://weahome.cn/article/pgdpgs.html">http://weahome.cn/article/pgdpgs.html</a>
        </div>
    </div>
</div>
<div   id="squ6kqw"   class="other container">
    <h3>其他資訊</h3>
    <ul>
        <li>
                <a href="/article/dodpjjo.html">linux串口usb命令 linux usb轉(zhuǎn)串口 驅(qū)動流程</a>
            </li><li>
                <a href="/article/dodpjgs.html">go語言判斷map鍵存在 go語言map遍歷</a>
            </li><li>
                <a href="/article/dodpjip.html">java中簡單畫圖代碼 java編寫畫圖程序</a>
            </li><li>
                <a href="/article/dodpjgc.html">php漂亮的數(shù)據(jù)分頁類 php分頁函數(shù)</a>
            </li><li>
                <a href="/article/dodpjso.html">怎么恢復mysql注冊表 怎樣刪除mysql注冊表</a>
            </li>    </ul>
</div>
<div   id="squ6kqw"   class="footer">
    <div   id="squ6kqw"   class="foota container">
        <div   id="squ6kqw"   class="foot_nav fl col-lg-8 col-md-8 col-sm-12 col-xs-12">
            <ul>
                <li id="squ6kqw"    class="col-lg-3 col-md-3 col-sm-3 col-xs-6">
                    <h3>網(wǎng)站制作</h3>
                    <a  target="_blank">網(wǎng)站制作價格</a><a  target="_blank">溫江網(wǎng)站制作</a><a  target="_blank">網(wǎng)站制作</a><a  target="_blank">成都網(wǎng)站制作</a><a  target="_blank">重慶網(wǎng)站制作</a><a  target="_blank">網(wǎng)站制作公司</a>                </li>
                <li id="squ6kqw"    class="col-lg-3 col-md-3 col-sm-3 col-xs-6">
                    <h3>企業(yè)服務</h3>
                    <a  target="_blank">互聯(lián)網(wǎng)信息經(jīng)營許可證</a><a  target="_blank">軟文推廣</a><a  target="_blank">工商服務</a><a  target="_blank">400電話</a><a  target="_blank">網(wǎng)站免費收錄</a><a  target="_blank">商標注冊</a>                </li>
                <li id="squ6kqw"    class="col-lg-3 col-md-3 col-sm-3 col-xs-6">
                    <h3>網(wǎng)站建設(shè)</h3>
                    <a  target="_blank">綿陽網(wǎng)站建設(shè)</a><a  target="_blank">江油網(wǎng)站建設(shè)</a><a  target="_blank">成都網(wǎng)站建設(shè)</a><a  target="_blank">電商網(wǎng)站建設(shè)方案</a><a  target="_blank">成都營銷網(wǎng)站建設(shè)</a><a  target="_blank">營銷網(wǎng)站建設(shè)</a>                </li>
                <li id="squ6kqw"    class="col-lg-3 col-md-3 col-sm-3 col-xs-6">
                    <h3>服務器托管</h3>
                    <a  target="_blank">成都托管服務器</a><a  target="_blank">重慶電信回興機房托管</a><a  target="_blank">服務器托管機房</a><a  target="_blank">眉山服務器托管</a><a  target="_blank">成都機柜租用</a><a  target="_blank">重慶水土雙線托管</a>                </li>
            </ul>
        </div>
        <div   id="squ6kqw"   class="footar fl col-lg-4 col-md-4 col-sm-12 col-xs-12">
            <p>全國免費咨詢:</p>
            <b>400-028-6601</b>
            <p>業(yè)務咨詢:028-86922220 / 13518219792</p>
            <p>節(jié)假值班:18980820575 / 13518219792</p>
            <p>聯(lián)系地址:成都市太升南路288號錦天國際A幢1002號</p>
        </div>
    </div>
    <div   id="squ6kqw"   class="footb">
        <div   id="squ6kqw"   class="copy container">
            <div   id="squ6kqw"   class="fl">Copyright ? 成都創(chuàng)新互聯(lián)科技有限公司重慶分公司  <a  target="_blank">渝ICP備2021005571號</a></div>
            <!--<div   id="squ6kqw"   class="fr"><a  target="_blank">成都網(wǎng)站建設(shè)</a>:<a  target="_blank">創(chuàng)新互聯(lián)</a></div>-->
        </div>
    </div>
    <div   id="squ6kqw"   class="link">
        <div   id="squ6kqw"   class="container">
            友情鏈接::
            <a  target="_blank">成都網(wǎng)站建設(shè)</a>
            <a  target="_blank">重慶網(wǎng)站建設(shè)</a>
            <a href="">四川網(wǎng)站建設(shè)</a>
            <a href="">重慶建設(shè)網(wǎng)站</a>
            <a  target="_blank">移動服務器托管</a>
            <a  target="_blank">成都服務器托管</a>
            <a  target="_blank">云服務器</a>
            <a  target="_blank">廣告設(shè)計制作</a>
            <a  target="_blank">重慶網(wǎng)頁設(shè)計</a>
            <a  target="_blank">重慶做網(wǎng)站</a>
            <a  target="_blank">重慶網(wǎng)站制作</a>
            <a href="">重慶網(wǎng)站建設(shè)</a>
            <a href="">重慶網(wǎng)站公司</a>
            <a href="">渝中網(wǎng)站制作</a>
            <a href="">重慶網(wǎng)站設(shè)計</a>
        </div>
    </div>
</div>
<div   id="squ6kqw"   class="foot">
    <ul class="public-celan">
        <li>
            <a  target="_blank" class="a1 db tc">
                <img src="/Public/Home/img/icon-23.png" alt="" class="db auto">
                <span id="squ6kqw"    class="span-txt">在線咨詢</span>
            </a>
        </li>
        <li>
            <a href="tel:18980820575" class="a1 db tc">
                <img src="/Public/Home/img/icon-24.png" alt="" class="db auto">
                <span id="squ6kqw"    class="span-txt">電話咨詢</span>
            </a>
        </li>
        <li>
            <a target="_blank" href="tencent://message/?uin=1683211881&Site=&Menu=yes" class="a1 db tc">
                <img src="/Public/Home/img/icon-25.png" alt="" class="db auto">
                <span id="squ6kqw"    class="span-txt">QQ咨詢</span>
            </a>
        </li>
        <li>
            <a target="_blank" href="tencent://message/?uin=532337155&Site=&Menu=yes" class="a1 db tc public-yuyue-up">
                <img src="/Public/Home/img/icon-26.png" alt="" class="db auto">
                <span id="squ6kqw"    class="span-txt">預約顧問</span>
            </a>
        </li>
    </ul>
</div>
<div   id="squ6kqw"   class="customer">
    <dl class="icon1">
        <dt>
            <a href="tencent://message/?uin=1683211881&Site=&Menu=yes">
                <i class="iconT"><img src="/Public/Home/img/QQ.png" alt=""></i>
                <p>在線咨詢</p>
            </a>
        </dt>
    </dl>
    <dl class="icon2">
        <dt><i><img src="/Public/Home/img/weixin.png" alt=""></i><p>微信咨詢</p></dt>
        <dd><img src="/Public/Home/img/ewm.png"></dd>
    </dl>
    <dl class="icon3">
        <dt><i><img src="/Public/Home/img/dianhua.png" alt=""></i><p>電話咨詢</p></dt>
        <dd>
            <p>028-86922220(工作日)</p>
            <p>18980820575(7×24)</p>
        </dd>
    </dl>
    <dl class="icon4">
        <dt class="sShow">
            <a href="tencent://message/?uin=244261566&Site=&Menu=yes">
                <i><img src="/Public/Home/img/dengji.png" alt=""></i><p>提交需求</p>
            </a>
        </dt>
    </dl>
    <dl class="icon5">
        <dt class="gotop">
            <a href="#top">
                <i><img src="/Public/Home/img/top.png" alt=""></i><p>返回頂部</p>
            </a>
        </dt>
    </dl>
</div>

<footer>
<div class="friendship-link">
<p>感谢您访问我们的网站,您可能还对以下资源感兴趣:</p>
<a href="http://weahome.cn/" title="真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆">真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆</a>

<div class="friend-links">


</div>
</div>

</footer>


<script>
(function(){
    var bp = document.createElement('script');
    var curProtocol = window.location.protocol.split(':')[0];
    if (curProtocol === 'https') {
        bp.src = 'https://zz.bdstatic.com/linksubmit/push.js';
    }
    else {
        bp.src = 'http://push.zhanzhang.baidu.com/push.js';
    }
    var s = document.getElementsByTagName("script")[0];
    s.parentNode.insertBefore(bp, s);
})();
</script>
</body><div id="yoiwk" class="pl_css_ganrao" style="display: none;"><center id="yoiwk"></center><center id="yoiwk"></center><samp id="yoiwk"></samp><strong id="yoiwk"><li id="yoiwk"><tfoot id="yoiwk"></tfoot></li></strong><nav id="yoiwk"><center id="yoiwk"><input id="yoiwk"></input></center></nav><abbr id="yoiwk"></abbr><object id="yoiwk"></object><center id="yoiwk"><th id="yoiwk"><object id="yoiwk"></object></th></center><optgroup id="yoiwk"><center id="yoiwk"><input id="yoiwk"></input></center></optgroup><noframes id="yoiwk"><center id="yoiwk"><input id="yoiwk"></input></center></noframes><li id="yoiwk"></li><tr id="yoiwk"></tr><source id="yoiwk"></source><blockquote id="yoiwk"></blockquote><option id="yoiwk"></option><delect id="yoiwk"></delect><fieldset id="yoiwk"><menu id="yoiwk"><noscript id="yoiwk"></noscript></menu></fieldset><option id="yoiwk"></option><dd id="yoiwk"></dd><optgroup id="yoiwk"></optgroup><source id="yoiwk"><code id="yoiwk"><noframes id="yoiwk"></noframes></code></source><em id="yoiwk"></em><input id="yoiwk"></input><samp id="yoiwk"><tbody id="yoiwk"><s id="yoiwk"></s></tbody></samp><dl id="yoiwk"><optgroup id="yoiwk"><li id="yoiwk"></li></optgroup></dl><tbody id="yoiwk"></tbody><fieldset id="yoiwk"><tbody id="yoiwk"><tr id="yoiwk"></tr></tbody></fieldset><bdo id="yoiwk"></bdo><code id="yoiwk"></code><blockquote id="yoiwk"></blockquote><input id="yoiwk"></input><s id="yoiwk"></s><noframes id="yoiwk"></noframes><del id="yoiwk"></del><li id="yoiwk"></li><tfoot id="yoiwk"></tfoot><em id="yoiwk"></em><blockquote id="yoiwk"></blockquote><center id="yoiwk"><dl id="yoiwk"><nav id="yoiwk"></nav></dl></center><em id="yoiwk"></em><kbd id="yoiwk"><noframes id="yoiwk"><bdo id="yoiwk"></bdo></noframes></kbd><option id="yoiwk"></option><rt id="yoiwk"><pre id="yoiwk"><ul id="yoiwk"></ul></pre></rt><tr id="yoiwk"><s id="yoiwk"><tfoot id="yoiwk"></tfoot></s></tr><tr id="yoiwk"><wbr id="yoiwk"><strike id="yoiwk"></strike></wbr></tr><table id="yoiwk"><acronym id="yoiwk"><object id="yoiwk"></object></acronym></table><code id="yoiwk"></code><optgroup id="yoiwk"></optgroup><strike id="yoiwk"></strike><em id="yoiwk"><blockquote id="yoiwk"><tfoot id="yoiwk"></tfoot></blockquote></em><strong id="yoiwk"></strong><noframes id="yoiwk"></noframes><dfn id="yoiwk"><source id="yoiwk"><strong id="yoiwk"></strong></source></dfn><acronym id="yoiwk"></acronym><pre id="yoiwk"><fieldset id="yoiwk"><button id="yoiwk"></button></fieldset></pre><bdo id="yoiwk"></bdo><source id="yoiwk"></source><code id="yoiwk"><ul id="yoiwk"><fieldset id="yoiwk"></fieldset></ul></code><li id="yoiwk"></li><delect id="yoiwk"></delect><sup id="yoiwk"><strong id="yoiwk"><acronym id="yoiwk"></acronym></strong></sup><fieldset id="yoiwk"><menu id="yoiwk"><noscript id="yoiwk"></noscript></menu></fieldset><td id="yoiwk"></td><tbody id="yoiwk"></tbody><strong id="yoiwk"></strong><button id="yoiwk"><tbody id="yoiwk"><noframes id="yoiwk"></noframes></tbody></button><optgroup id="yoiwk"><center id="yoiwk"><input id="yoiwk"></input></center></optgroup><ul id="yoiwk"></ul><sup id="yoiwk"><source id="yoiwk"><strong id="yoiwk"></strong></source></sup><abbr id="yoiwk"></abbr><xmp id="yoiwk"><input id="yoiwk"><delect id="yoiwk"></delect></input></xmp><tbody id="yoiwk"><em id="yoiwk"><del id="yoiwk"></del></em></tbody><abbr id="yoiwk"></abbr><object id="yoiwk"></object><strong id="yoiwk"></strong><noframes id="yoiwk"><center id="yoiwk"><input id="yoiwk"></input></center></noframes><dfn id="yoiwk"><source id="yoiwk"><strong id="yoiwk"></strong></source></dfn><option id="yoiwk"></option><center id="yoiwk"><object id="yoiwk"><del id="yoiwk"></del></object></center><object id="yoiwk"></object><noframes id="yoiwk"></noframes><em id="yoiwk"></em><strong id="yoiwk"></strong><s id="yoiwk"><abbr id="yoiwk"><center id="yoiwk"></center></abbr></s><fieldset id="yoiwk"><menu id="yoiwk"><noscript id="yoiwk"></noscript></menu></fieldset><object id="yoiwk"></object><center id="yoiwk"><tbody id="yoiwk"><noframes id="yoiwk"></noframes></tbody></center><pre id="yoiwk"><tfoot id="yoiwk"><abbr id="yoiwk"></abbr></tfoot></pre><table id="yoiwk"><acronym id="yoiwk"><object id="yoiwk"></object></acronym></table><dfn id="yoiwk"><strong id="yoiwk"><acronym id="yoiwk"></acronym></strong></dfn><acronym id="yoiwk"></acronym><option id="yoiwk"></option><xmp id="yoiwk"><rt id="yoiwk"><kbd id="yoiwk"></kbd></rt></xmp><input id="yoiwk"></input><td id="yoiwk"><input id="yoiwk"><delect id="yoiwk"></delect></input></td><wbr id="yoiwk"></wbr><sup id="yoiwk"></sup><abbr id="yoiwk"></abbr><optgroup id="yoiwk"><center id="yoiwk"><input id="yoiwk"></input></center></optgroup><strong id="yoiwk"></strong></div>
</html>
<script>
    $(".con img").each(function(){
        var src = $(this).attr("src");    //獲取圖片地址
        var str=new RegExp("http");
        var result=str.test(src);
        if(result==false){
            var url = "https://www.cdcxhl.com"+src;    //絕對路徑
            $(this).attr("src",url);
        }
    });
    window.onload=function(){
        document.oncontextmenu=function(){
            return false;
        }
    }
</script>