真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

怎么在hadoop中實(shí)現(xiàn)一個(gè)java爬蟲-創(chuàng)新互聯(lián)

今天就跟大家聊聊有關(guān)怎么在hadoop中實(shí)現(xiàn)一個(gè)java爬蟲,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。

成都創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比江口網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式江口網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋江口地區(qū)。費(fèi)用合理售后完善,10年實(shí)體公司更值得信賴。

需要用到

Cygwin:一個(gè)在windows平臺(tái)上運(yùn)行的類UNIX模擬環(huán)境,直接網(wǎng)上搜索下載,并且安裝;

Hadoop:配置Hadoop環(huán)境,實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFS,用來將收集的數(shù)據(jù)直接上傳保存到HDFS,然后用MapReduce分析;

Eclipse:編寫代碼,需要導(dǎo)入hadoop的jar包,以可以創(chuàng)建MapReduce項(xiàng)目;

Jsoup:html的解析jar包,結(jié)合正則表達(dá)式能更好的解析網(wǎng)頁源碼;

----->

目錄:

1、配置Cygwin

2、配置Hadoop黃靜

3、Eclipse開發(fā)環(huán)境搭建

4、網(wǎng)絡(luò)數(shù)據(jù)爬取(jsoup)

-------->

1、安裝配置Cygwin

從官方網(wǎng)站下載Cygwin 安裝文件,地址:https://cygwin.com/install.html

下載運(yùn)行后進(jìn)入安裝界面。

安裝時(shí)直接從網(wǎng)絡(luò)鏡像中下載擴(kuò)展包,至少需要選擇ssh和ssl支持包

安裝后進(jìn)入cygwin控制臺(tái)界面,

運(yùn)行ssh-host-config命令,安裝SSH

輸入:no,yes,ntsec,no,no

注意:win7下需要改為yes,yes,ntsec,no,yes,輸入密碼并確認(rèn)這個(gè)步驟

完成后會(huì)在windows操作系統(tǒng)中配置好一個(gè)Cygwin sshd服務(wù),啟動(dòng)該服務(wù)即可。

怎么在hadoop中實(shí)現(xiàn)一個(gè)java爬蟲

然后要配置ssh免密碼登陸

重新運(yùn)行cygwin。

執(zhí)行ssh localhost,會(huì)要求使用密碼進(jìn)行登陸。

使用ssh-keygen命令來生成一個(gè)ssh密鑰,一直回車結(jié)束即可。

生成后進(jìn)入.ssh目錄,使用命令:cp id_rsa.pub authorized_keys 命令來配置密鑰。

之后使用exit退出即可。

重新進(jìn)入系統(tǒng)后,通過ssh localhost就可以直接進(jìn)入系統(tǒng),不需要再輸入密碼了。

2、配置Hadoop環(huán)境

修改hadoop-env.sh文件,加入JDK安裝目錄的JAVA_HOME位置設(shè)置。

# The java implementation to use. Required.

export JAVA_HOME=/cygdrive/c/Java/jdk1.7.0_67 



分享題目:怎么在hadoop中實(shí)現(xiàn)一個(gè)java爬蟲-創(chuàng)新互聯(lián)
地址分享:http://weahome.cn/article/pcjgj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部