真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

TOPK使用思路是什么

TOP K使用思路是什么,相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。

在網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計中從網(wǎng)站色彩、結(jié)構(gòu)布局、欄目設(shè)置、關(guān)鍵詞群組等細微處著手,突出企業(yè)的產(chǎn)品/服務(wù)/品牌,幫助企業(yè)鎖定精準用戶,提高在線咨詢和轉(zhuǎn)化,使成都網(wǎng)站營銷成為有效果、有回報的無錫營銷推廣。成都創(chuàng)新互聯(lián)公司專業(yè)成都網(wǎng)站建設(shè)十多年了,客戶滿意度97.8%,歡迎成都創(chuàng)新互聯(lián)客戶聯(lián)系。

TOP K

通用思路:

1、使用Hash取模的方法將大文件劃分成若干小文件;

2、使用HashMap或者字典樹(trie樹)對小文件進行詞頻統(tǒng)計;

3、對小文件按照詞頻進行排序(堆排序等),取每個小文件的前N個;

4、將小文件的結(jié)果歸并排序,再對歸并后的文件取前N個。

有1億個浮點數(shù),如果找出期中最大的10000個?

對于第三部,首先讀入前10000個數(shù)來創(chuàng)建大小為10000的最小堆,建堆的時間復雜度為O(mlogm)(m為數(shù)組的大小即為10000),然后遍歷后續(xù)的數(shù)字,并于堆頂(最小)數(shù)字進行比較。如果比最小的數(shù)小,則繼續(xù)讀取后續(xù)數(shù)字;如果比堆頂數(shù)字大,則替換堆頂元素并重新調(diào)整堆為最小堆。整個過程直至1億個數(shù)全部遍歷完為止。然后按照中序遍歷的方式輸出當前堆中的所有10000個數(shù)字。

有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個詞。

順序讀文件中,對于每個詞x,取hash(x)%5000,然后按照該值存到5000個小文件(記為x0,x1,...x4999)中。這樣每個文件大概是200k左右。
如果其中的有的文件超過了1M大小,還可以按照類似的方法繼續(xù)往下分,直到分解得到的小文件的大小都不超過1M。 對每個小文件,統(tǒng)計每個文件中出現(xiàn)的詞以及相應的頻率(可以采用trie樹/hash_map等),并取出出現(xiàn)頻率最大的100個詞(可以用含100個結(jié)點的最小堆),并把100個詞及相應的頻率存入文件,這樣又得到了5000個文件。下一步就是把這5000個文件進行歸并(類似與歸并排序)的過程了。

給40億個不重復的unsigned int的整數(shù),沒排過序的,然后再給一個數(shù),如何快速判斷這個數(shù)是否在那40億個數(shù)當中?

申請512MB的內(nèi)存,一個bit位代表一個unsigned int值。讀入40億個數(shù),設(shè)置相應的bit位,讀入要查詢的數(shù),查看相應bit位是否為1,為1表示存在,為0表示不存在。

已知某個文件內(nèi)包含一些電話號碼,每個號碼為8位數(shù)字,統(tǒng)計不同號碼的個數(shù)。

8位整數(shù)可以表示的最大十進制數(shù)值為99999999。如果每個數(shù)字對應于位圖中一個bit位,那么存儲8位整數(shù)大約需要99MB。因為1B=8bit,所以99Mbit折合成內(nèi)存為99/8=12.375MB的內(nèi)存,即可以只用12.375MB的內(nèi)存表示所有的8位數(shù)電話號碼的內(nèi)容。

給定a、b兩個文件,各存放50億個url,每個url各占64字節(jié),內(nèi)存限制是4G,讓你找出a、b文件共同的url?

如果使用布隆過濾器,那么問題就很好辦了,4G的內(nèi)存足以容納300多億的bit,所以足夠處理了,先將a文件中的url都放入布隆過濾器,之后遍歷b文件,對每個url都詢問布隆過濾器看其是否已經(jīng)存在,如果存在,則此條URL輸入結(jié)果文件。

看完上述內(nèi)容,你們掌握TOP K使用思路是什么的方法了嗎?如果還想學到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!


網(wǎng)站題目:TOPK使用思路是什么
文章地址:http://weahome.cn/article/iesdhi.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部