/*
利用wget 指令和隊(duì)列 模擬實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲
利用自己的站點(diǎn)wzsts.host3v.com測(cè)試了一下
有一點(diǎn)錯(cuò)誤
文件運(yùn)行后拿到index.html
對(duì)于連接僅僅可以拿到 html 和htm 結(jié)尾的 而.com的沒有考慮(設(shè)計(jì)文件可能多)
一次測(cè)試后了解到如下問題:
1.文件應(yīng)該有樹形話還原網(wǎng)站目錄
2.文本記錄的連接應(yīng)該分類化
項(xiàng)目運(yùn)行需要 su 根權(quán)限進(jìn)行
因?yàn)閙v命令
本項(xiàng)目僅僅適合在linux下運(yùn)行
本項(xiàng)目給真真的linux 爬蟲做鋪墊
*/
#include
using namespace std;
#include
#include
#include
string s("index.html");
queueq;
//略去一段
int main()
{
//index.html
system("wget wzsts.host3v.com");
ofstream out("out.txt");
string mv("mv ");
string html(" html");
q.push(s);
while(!q.empty())
{
out<
分享題目:利用wget和隊(duì)列模擬網(wǎng)絡(luò)爬蟲(不帶判重程序)
URL標(biāo)題:http://weahome.cn/article/jojsjh.html