VBA 從天涯論壇的帖子中提取正文Sub 天涯貼子簡(jiǎn)單抓取()
Dim cnt As Integer
arr = Array("評(píng)論", "舉報(bào)", "樓主", "作者", "草稿", "熱貼", "論壇", "注冊(cè)", "廣告", "推薦") '屏蔽詞匯
For y = 1 To 2
Set ie = CreateObject("internetexplorer.application")
With ie
.Navigate "http://bbs.tianya.cn/post-free-5758447-" & y & ".shtml" '5758447-1.shtml ,5758447-2.shtml等
' .Visible = True
Do Until ie.ReadyState = 4
DoEvents
Loop
For x = 0 To .Document.All.tags("div").Length - 1 '正文是在div中,div集合長(zhǎng)度
ss = .Document.All.tags("div")(x).innertext '正文內(nèi)容
len_ss = Len(ss) '正文長(zhǎng)度
If len_ss < 100 Then '正文長(zhǎng)度太短,直接跳到下一個(gè)div
GoTo 100
Else
For Each keys In arr
If InStr(ss, keys) > 0 Then GoTo 100 '如有屏蔽的詞語出現(xiàn),直接跳到下一個(gè)div
Next
cnt = cnt + 1
Debug.Print cnt & ":" & .Document.All.tags("div")(x).innertext '輸出合乎要求的div
End If
100
Next x
End With
Next y
ie.Quit
Set ie = Nothing
End Sub
創(chuàng)新互聯(lián)建站專業(yè)IDC數(shù)據(jù)服務(wù)器托管提供商,專業(yè)提供成都服務(wù)器托管,服務(wù)器租用,
服務(wù)器托管德陽,
服務(wù)器托管德陽,成都多線服務(wù)器托管等服務(wù)器托管服務(wù)。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
標(biāo)題名稱:天涯社區(qū)論壇貼子粗加工-創(chuàng)新互聯(lián)
鏈接分享:
http://weahome.cn/article/dpeihs.html