今天就跟大家聊聊有關(guān)怎么在hadoop中實(shí)現(xiàn)一個(gè)java爬蟲,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
成都創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比江口網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式江口網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋江口地區(qū)。費(fèi)用合理售后完善,10年實(shí)體公司更值得信賴。需要用到
Cygwin:一個(gè)在windows平臺(tái)上運(yùn)行的類UNIX模擬環(huán)境,直接網(wǎng)上搜索下載,并且安裝;
Hadoop:配置Hadoop環(huán)境,實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFS,用來將收集的數(shù)據(jù)直接上傳保存到HDFS,然后用MapReduce分析;
Eclipse:編寫代碼,需要導(dǎo)入hadoop的jar包,以可以創(chuàng)建MapReduce項(xiàng)目;
Jsoup:html的解析jar包,結(jié)合正則表達(dá)式能更好的解析網(wǎng)頁源碼;
----->
目錄:
1、配置Cygwin
2、配置Hadoop黃靜
3、Eclipse開發(fā)環(huán)境搭建
4、網(wǎng)絡(luò)數(shù)據(jù)爬取(jsoup)
-------->
1、安裝配置Cygwin
從官方網(wǎng)站下載Cygwin 安裝文件,地址:https://cygwin.com/install.html
下載運(yùn)行后進(jìn)入安裝界面。
安裝時(shí)直接從網(wǎng)絡(luò)鏡像中下載擴(kuò)展包,至少需要選擇ssh和ssl支持包
安裝后進(jìn)入cygwin控制臺(tái)界面,
運(yùn)行ssh-host-config命令,安裝SSH
輸入:no,yes,ntsec,no,no
注意:win7下需要改為yes,yes,ntsec,no,yes,輸入密碼并確認(rèn)這個(gè)步驟
完成后會(huì)在windows操作系統(tǒng)中配置好一個(gè)Cygwin sshd服務(wù),啟動(dòng)該服務(wù)即可。
然后要配置ssh免密碼登陸
重新運(yùn)行cygwin。
執(zhí)行ssh localhost,會(huì)要求使用密碼進(jìn)行登陸。
使用ssh-keygen命令來生成一個(gè)ssh密鑰,一直回車結(jié)束即可。
生成后進(jìn)入.ssh目錄,使用命令:cp id_rsa.pub authorized_keys 命令來配置密鑰。
之后使用exit退出即可。
重新進(jìn)入系統(tǒng)后,通過ssh localhost就可以直接進(jìn)入系統(tǒng),不需要再輸入密碼了。
2、配置Hadoop環(huán)境
修改hadoop-env.sh文件,加入JDK安裝目錄的JAVA_HOME位置設(shè)置。
# The java implementation to use. Required. export JAVA_HOME=/cygdrive/c/Java/jdk1.7.0_67