真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Prime_DSC_MentionCalcSpark性能調(diào)優(yōu)

Prime_DSC_MentionCalcSpark系統(tǒng)簡(jiǎn)介

創(chuàng)新互聯(lián)公司始終堅(jiān)持【策劃先行,效果至上】的經(jīng)營(yíng)理念,通過(guò)多達(dá)十多年累計(jì)超上千家客戶的網(wǎng)站建設(shè)總結(jié)了一套系統(tǒng)有效的全網(wǎng)營(yíng)銷推廣解決方案,現(xiàn)已廣泛運(yùn)用于各行各業(yè)的客戶,其中包括:成都混凝土泵車等企業(yè),備受客戶稱譽(yù)。

實(shí)現(xiàn)功能 : 根據(jù)條件(siteId, startTime, endTime, campaignId, folder)從HBase數(shù)據(jù)源中讀取文本數(shù)據(jù)作為輸入,把提交的關(guān)鍵詞作為條件,輸出在文本中關(guān)鍵詞提及的次數(shù)

存在問(wèn)題 : 對(duì)于大數(shù)據(jù)量的計(jì)算時(shí)間較長(zhǎng).

解決思路 : 

  1. 把HBase結(jié)果反射成TweetBean修改成TweetBean的setXXX的方式構(gòu)造TweetBean

    1. 當(dāng)有5W條數(shù)據(jù),通過(guò)反射轉(zhuǎn)成TweetBean需要60s,通過(guò)TweetBean的setXX的方法需要20s

  2. 把讀取HBase的所有字段改成讀取HBase的需要的字段

    1. 當(dāng)有5W條數(shù)據(jù),讀取所有字段時(shí)需要60s,讀取需要的字段需要25s

  3. 從UC取DC數(shù)據(jù)時(shí),不使用map函數(shù),替換成mapPartition函數(shù),這樣使用可以從HBase批量取數(shù)據(jù),僅需要一次HBase連接即可

  4. 存儲(chǔ)計(jì)算結(jié)果,使用foreachPartition函數(shù). 當(dāng)遍歷Iterator時(shí)不是每次在循環(huán)里面都存儲(chǔ)計(jì)算結(jié)果,而是在循環(huán)外面維護(hù)隊(duì)列,批量存儲(chǔ)結(jié)果

  5. 根據(jù)Spark集群資源,合理利用Spark集群的資源,如資源越多,集群計(jì)算能力越強(qiáng).而比較合理的機(jī)器資源和任務(wù)并行度的關(guān)系是 : 任務(wù)數(shù) = 機(jī)器CPU核數(shù) * (2 或者 3), 所以設(shè)置RDD的分區(qū)數(shù)為集群CPU核數(shù) * 2

  6. 從HBase讀取數(shù)據(jù)的并行度跟表的region數(shù)相關(guān).默認(rèn)情況下,建表時(shí)只有一個(gè)region,而當(dāng)region越來(lái)越大時(shí),需要split成兩個(gè)region,region越多split的閾值越大,導(dǎo)致很多數(shù)據(jù)都存在一個(gè)region中.此時(shí)如果需要查詢一張表,假設(shè)該表有5個(gè)region,則會(huì)有5個(gè)線程同時(shí)查詢5個(gè)region的數(shù)據(jù),但是如果其中一個(gè)region很大,是其他region的10倍,則該region的讀取是其他region讀取性能的10倍,導(dǎo)致整個(gè)任務(wù)的delay. 解決該問(wèn)題的方法可以先通過(guò)預(yù)分區(qū)和對(duì)rowkey使用hash/MD5等算法使數(shù)據(jù)均勻的分布在各個(gè)region,這樣在讀取數(shù)據(jù)時(shí)可以根據(jù)數(shù)據(jù)均勻分配而更好的并發(fā)讀取數(shù)據(jù).


標(biāo)題名稱:Prime_DSC_MentionCalcSpark性能調(diào)優(yōu)
瀏覽路徑:http://weahome.cn/article/jgjsei.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部