網(wǎng)頁源碼
創(chuàng)新互聯(lián)主要從事成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營(yíng)銷網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)新寧,10余年網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專業(yè),歡迎來電咨詢建站服務(wù):13518219792
打開網(wǎng)頁,按快捷鍵【Ctrl+U】打開源碼頁面
HTML
HTML 是整個(gè)網(wǎng)頁的結(jié)構(gòu),相當(dāng)于整個(gè)網(wǎng)站的框架。帶“<”、“>”符號(hào)的都是屬于 HTML 的標(biāo)簽,并且標(biāo)簽都是成對(duì)出現(xiàn)的
常見的標(biāo)簽如下:
.. 表示標(biāo)記中間的元素是網(wǎng)頁
.. 表示用戶可見的內(nèi)容
.. 表示框架
..
表示段落
.. 表示列表
..表示圖片
..
表示標(biāo)題
..表示超鏈接
HTML
html示例
本地超鏈接可以為相對(duì)路徑,也可以為絕對(duì)路徑。
圖片的地址可以為相對(duì)路徑,也可以為絕對(duì)路徑。
這是HTML測(cè)試頁面的主題
這是標(biāo)題
這是正文
- 這是一個(gè)列表
- 這是一個(gè)網(wǎng)絡(luò)超鏈接
- 這是一個(gè)本地超鏈接
- 下面這個(gè)是一張圖片
輸入代碼后,保存記事本,然后修改文件名和后綴名為"HTML.html",效果如下:
爬蟲的合法性
每一個(gè)網(wǎng)站都有一個(gè)名為 robots.txt 的文檔,當(dāng)然也有部分網(wǎng)站沒有設(shè)定 robots.txt。對(duì)于沒有設(shè)定 robots.txt 的網(wǎng)站可以通過網(wǎng)絡(luò)爬蟲獲取沒有口令加密的數(shù)據(jù),也就是該網(wǎng)站所有頁面數(shù)據(jù)都可以爬取。如果網(wǎng)站有 robots.txt 文檔,就要判斷是否有禁止訪客獲取的數(shù)據(jù)。
允許部分爬蟲訪問它的部分路徑,而對(duì)于沒有得到允許的,則全部禁止爬取