真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點

本篇內(nèi)容介紹了“Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠?qū)W有所成!

公司主營業(yè)務(wù):網(wǎng)站設(shè)計、做網(wǎng)站、移動網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競爭能力。創(chuàng)新互聯(lián)是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴謹、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn),讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯(lián)推出潯陽免費做網(wǎng)站回饋大家。

網(wǎng)絡(luò)爬蟲架構(gòu)在Nutch+Hadoop之上,是一個典型的分布式離線批量處理架構(gòu),有非常優(yōu)異的吞吐量和抓取性能并提供了大量的配置定制選項。由于網(wǎng)絡(luò)爬蟲只負責網(wǎng)絡(luò)資源的抓取,所以,需要一個分布式搜索引擎,用來對網(wǎng)絡(luò)爬蟲抓取到的網(wǎng)絡(luò)資源進行實時的索引和搜索。

搜 索引擎架構(gòu)在ElasticSearch之上,是一個典型的分布式在線實時交互查詢架構(gòu),無單點故障,高伸縮、高可用。對大量信息的索引與搜索都可以在近 乎實時的情況下完成,能夠快速實時搜索數(shù)十億的文件以及PB級的數(shù)據(jù),同時提供了全方面的選項,可以對該引擎的幾乎每個方面進行定制。支持RESTful 的API,可以使用JSON通過HTTP調(diào)用它的各種功能,包括搜索、分析與監(jiān)控。此外,還為Java、PHP、Perl、Python以及Ruby等各 種語言提供了原生的客戶端類庫。

網(wǎng)絡(luò)爬蟲通過將抓取到的數(shù)據(jù)進行結(jié)構(gòu)化提取之后提交給搜索引擎進行索引,以供查詢分析使用。由于搜索引擎的設(shè)計目標在于近乎實時的復(fù)雜的交互式查詢,所以搜索引擎并不保存索引網(wǎng)頁的原始內(nèi)容,因此,需要一個近乎實時的分布式數(shù)據(jù)庫來存儲網(wǎng)頁的原始內(nèi)容。

分布式數(shù)據(jù)庫架構(gòu)在Hbase+Hadoop之上,是一個典型的分布式在線實時隨機讀寫架構(gòu)。極強的水平伸縮性,支持數(shù)十億的行和數(shù)百萬的列,能夠?qū)W(wǎng)絡(luò)爬蟲提交的數(shù)據(jù)進行實時寫入,并能配合搜索引擎,根據(jù)搜索結(jié)果實時獲取數(shù)據(jù)。

網(wǎng) 絡(luò)爬蟲、分布式數(shù)據(jù)庫、搜索引擎均運行在普通商業(yè)硬件構(gòu)成的集群上。集群采用分布式架構(gòu),能擴展到成千上萬臺機器,具有容錯機制,部分機器節(jié)點發(fā)生故障不 會造成數(shù)據(jù)丟失也不會導(dǎo)致計算任務(wù)失敗。不但高可用,當節(jié)點發(fā)生故障時能迅速進行故障轉(zhuǎn)移,而且高伸縮,只需要簡單地增加機器就能水平線性伸縮、提升數(shù)據(jù) 存儲容量和計算速度。

網(wǎng)絡(luò)爬蟲、分布式數(shù)據(jù)庫、搜索引擎之間的關(guān)系:

1、網(wǎng)絡(luò)爬蟲將抓取到的HTML頁面解析完成之后,把解析出的數(shù)據(jù)加入緩沖區(qū)隊列,由其他兩個線程負責處理數(shù)據(jù),一個線程負責將數(shù)據(jù)保存到分布式數(shù)據(jù)庫,一個線程負責將數(shù)據(jù)提交到搜索引擎進行索引。

2、搜索引擎處理用戶的搜索條件,并將搜索結(jié)果返回給用戶,如果用戶查看網(wǎng)頁快照,則從分布式數(shù)據(jù)庫中獲取網(wǎng)頁的原始內(nèi)容。

整體架構(gòu)如下圖所示:

Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點
 

爬蟲集群、分布式數(shù)據(jù)庫集群、搜索引擎集群在物理部署上,可以部署到同一個硬件集群上,也可以分開部署,形成1-3個硬件集群。

網(wǎng)絡(luò)爬蟲集群有一個專門的網(wǎng)絡(luò)爬蟲配置管理系統(tǒng)來負責爬蟲的配置和管理,如下圖所示:

 
Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點
 

搜 索引擎通過分片(shard)和副本(replica)實現(xiàn)了高性能、高伸縮和高可用。分片技術(shù)為大規(guī)模并行索引和搜索提供了支持,極大地提高了索引和搜 索的性能,極大地提高了水平擴展能力;副本技術(shù)為數(shù)據(jù)提供冗余,部分機器故障不影響系統(tǒng)的正常使用,保證了系統(tǒng)的持續(xù)高可用。

有2個分片和3份副本的索引結(jié)構(gòu)如下所示:

 
Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點
 

一個完整的索引被切分為0和1兩個獨立部分,每一部分都有2個副本,即下面的灰色部分。

在 生產(chǎn)環(huán)境中,隨著數(shù)據(jù)規(guī)模的增大,只需簡單地增加硬件機器節(jié)點即可,搜索引擎會自動地調(diào)整分片數(shù)以適應(yīng)硬件的增加,當部分節(jié)點退役的時候,搜索引擎也會自 動調(diào)整分片數(shù)以適應(yīng)硬件的減少,同時可以根據(jù)硬件的可靠性水平及存儲容量的變化隨時更改副本數(shù),這一切都是動態(tài)的,不需要重啟集群,這也是高可用的重要保 障。

“Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!


本文標題:Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點
網(wǎng)頁路徑:http://weahome.cn/article/pishhp.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部