包含java協(xié)同過濾代碼實(shí)現(xiàn)的詞條

java,我有一個(gè)數(shù)據(jù)庫表userid,bookid,score,用這個(gè)表用協(xié)同過濾算法找到愛好相似的用戶?

//?皮爾遜相關(guān)系數(shù)分析

員工經(jīng)過長期磨合與沉淀，具備了協(xié)作精神，得以通過團(tuán)隊(duì)的力量開發(fā)出優(yōu)質(zhì)的產(chǎn)品。成都創(chuàng)新互聯(lián)公司堅(jiān)持“專注、創(chuàng)新、易用”的產(chǎn)品理念，因?yàn)椤皩Ｗ⑺詫I(yè)、創(chuàng)新互聯(lián)網(wǎng)站所以易用所以簡單”。公司專注于為企業(yè)提供網(wǎng)站建設(shè)、做網(wǎng)站、微信公眾號開發(fā)、電商網(wǎng)站開發(fā)，微信小程序定制開發(fā)，軟件按需求定制開發(fā)等一站式互聯(lián)網(wǎng)企業(yè)服務(wù)。

//?介于?-1?到?1?之間。相關(guān)系數(shù)越接近與1，說明兩個(gè)人越相似。

//你先參考下這個(gè)雖然里面只有Python的代碼：?

//我用java去做一下試試

import?java.util.*;

public?class?Test?{

public?static?void?main(String[]?args)?{

MapString,HashMapString,Double?cri?=?new?HashMapString,?HashMapString,?Double();

//模擬數(shù)據(jù)庫中的數(shù)據(jù)，實(shí)際運(yùn)用時(shí)請靈活變動

getData(cri);

System.out.println(cri.get("Gene").get("Lady?in?the?Water"));

//獲得評價(jià)值

System.out.println(getSim(cri,"Gene","Lisa"));

}

//模擬數(shù)據(jù)庫中的數(shù)據(jù)

public?static?void?getData(MapString,?HashMapString,?Double?cri){

HashMapString,Double?temp?=?new?HashMapString,?Double();

temp.put("Lady?in?the?Water",2.5);

temp.put("Snakes?on?a?Plane",3.5);

temp.put("Just?My?Luck",3.0);

temp.put("Superman?Returns",3.5);

temp.put("You,Me?and?Dupree",2.5);

temp.put("The?Night?Listener",3.0);

cri.put("Lisa",temp);

HashMapString,Double?temp1?=?new?HashMapString,?Double();

temp1.put("Lady?in?the?Water",3.0);

temp1.put("Snakes?on?a?Plane",3.5);

temp1.put("Just?My?Luck",1.5);

temp1.put("Superman?Returns",5.0);

temp1.put("You,Me?and?Dupree",3.5);

temp1.put("The?Night?Listener",3.0);

cri.put("Gene",temp1);

}

public?static?double?getSim(MapString,?HashMapString,?Double?cri,?String?p1,?String?p2){

HashMapString,Double?p1m?=?cri.get(p1);

HashMapString,Double?p2m?=?cri.get(p2);

ListString?simBook?=?new?ArrayListString();

for?(Map.EntryString,?Double?entry?:?p1m.entrySet())?{

if?(p2m.containsKey(entry.getKey())){

simBook.add(entry.getKey());

}

//判斷相同元素的個(gè)數(shù)

if?(simBook.size()?==?0){

return?1;

}

//對所有偏好求和

double?sum1?=?0d,sum2?=?0d;

//求平方和

double?sum1Sq?=?0d,sum2Sq?=?0d;

//求乘積和

double?pSum?=?0d;

for?(String?s?:?simBook)?{

sum1?+=?p1m.get(s);

sum2?+=?p2m.get(s);

sum1Sq?+=?Math.pow(p1m.get(s),2);

sum2Sq?+=?Math.pow(p2m.get(s),2);

pSum?+=?p1m.get(s)*p2m.get(s);

}

//計(jì)算皮爾遜評價(jià)值

double?num?=?pSum?-?(sum1*sum2/simBook.size());

double?den?=?Math.sqrt((sum1Sq-Math.pow(sum1,2)/simBook.size())*(sum2Sq-Math.pow(sum2,2)/simBook.size()));

if?(den?==?0){

return?0;

}

return?num/den;

}

協(xié)同過濾java用什么實(shí)現(xiàn)

眾所周知，java在處理數(shù)據(jù)量比較大的時(shí)候，加載到內(nèi)存必然會導(dǎo)致內(nèi)存溢出，而在一些數(shù)據(jù)處理中我們不得不去處理海量數(shù)據(jù)，在做數(shù)據(jù)處理中，我們常見的手段是分解，壓縮，并行，臨時(shí)文件等方法;例如，我們要將數(shù)據(jù)庫(不論是什么數(shù)據(jù)庫)的數(shù)據(jù)導(dǎo)出到一個(gè)文件，一般是Excel或文本格式的CSV;對于Excel來講，對于POI和JXL的接口，你很多時(shí)候沒有法去控制內(nèi)存什么時(shí)候向磁盤寫入，很惡心，而且這些API在內(nèi)存構(gòu)造的對象大小將比數(shù)據(jù)原有的大小要大很多倍數(shù)，所以你不得不去拆分Excel，還好，POI開始意識到這個(gè)問題，在3.8.4的版本后，開始提供cache的行數(shù)，提供了SXSSFWorkbook的接口，可以設(shè)置在內(nèi)存中的行數(shù)，不過可惜的是，他當(dāng)你超過這個(gè)行數(shù)，每添加一行，它就將相對行數(shù)前面的一行寫入磁盤(如你設(shè)置2000行的話，當(dāng)你寫第20001行的時(shí)候，他會將第一行寫入磁盤)，其實(shí)這個(gè)時(shí)候他些的臨時(shí)文件，以至于不消耗內(nèi)存，不過這樣你會發(fā)現(xiàn)，刷磁盤的頻率會非常高，我們的確不想這樣，因?yàn)槲覀兿胱屗_(dá)到一個(gè)范圍一次性將數(shù)據(jù)刷如磁盤，比如一次刷1M之類的做法，可惜現(xiàn)在還沒有這種API，很痛苦，我自己做過測試，通過寫小的Excel比使用目前提供刷磁盤的API來寫大文件，效率要高一些，而且這樣如果訪問的人稍微多一些磁盤IO可能會扛不住，因?yàn)镮O資源是非常有限的，所以還是拆文件才是上策;而當(dāng)我們寫CSV，也就是文本類型的文件，我們很多時(shí)候是可以自己控制的，不過你不要用CSV自己提供的API，也是不太可控的，CSV本身就是文本文件，你按照文本格式寫入即可被CSV識別出來;如何寫入呢？下面來說說。。。在處理數(shù)據(jù)層面，如從數(shù)據(jù)庫中讀取數(shù)據(jù)，生成本地文件，寫代碼為了方便，我們未必要1M怎么來處理，這個(gè)交給底層的驅(qū)動程序去拆分，對于我們的程序來講我們認(rèn)為它是連續(xù)寫即可;我們比如想將一個(gè)1000W數(shù)據(jù)的數(shù)據(jù)庫表，導(dǎo)出到文件;此時(shí)，你要么進(jìn)行分頁，oracle當(dāng)然用三層包裝即可，mysql用limit，不過分頁每次都會新的查詢，而且隨著翻頁，會越來越慢，其實(shí)我們想拿到一個(gè)句柄，然后向下游動，編譯一部分?jǐn)?shù)據(jù)(如10000行)將寫文件一次(寫文件細(xì)節(jié)不多說了，這個(gè)是最基本的)，需要注意的時(shí)候每次buffer的數(shù)據(jù)，在用outputstream寫入的時(shí)候，最好flush一下，將緩沖區(qū)清空下;接下來，執(zhí)行一個(gè)沒有where條件的SQL，會不會將內(nèi)存撐爆？是的，這個(gè)問題我們值得去思考下，通過API發(fā)現(xiàn)可以對SQL進(jìn)行一些操作，例如，通過：PreparedStatementstatement=connection.prepareStatement(sql)，這是默認(rèn)得到的預(yù)編譯，還可以通過設(shè)置：PreparedStatementstatement=connection.prepareStatement(sql，ResultSet.TYPE_FORWARD_ONLY，ResultSet.CONCUR_READ_ONLY);來設(shè)置游標(biāo)的方式，以至于游標(biāo)不是將數(shù)據(jù)直接cache到本地內(nèi)存，然后通過設(shè)置statement.setFetchSize(200);設(shè)置游標(biāo)每次遍歷的大小;OK，這個(gè)其實(shí)我用過，oracle用了和沒用沒區(qū)別，因?yàn)閛racle的jdbcAPI默認(rèn)就是不會將數(shù)據(jù)cache到j(luò)ava的內(nèi)存中的，而mysql里頭設(shè)置根本無效，我上面說了一堆廢話，呵呵，我只是想說，java提供的標(biāo)準(zhǔn)API也未必有效，很多時(shí)候要看廠商的實(shí)現(xiàn)機(jī)制，還有這個(gè)設(shè)置是很多網(wǎng)上說有效的，但是這純屬抄襲;對于oracle上面說了不用關(guān)心，他本身就不是cache到內(nèi)存，所以java內(nèi)存不會導(dǎo)致什么問題，如果是mysql，首先必須使用5以上的版本，然后在連接參數(shù)上加上useCursorFetch=true這個(gè)參數(shù)，至于游標(biāo)大小可以通過連接參數(shù)上加上：defaultFetchSize=1000來設(shè)置，例如：jdbc：mysql：//xxx.xxx.xxx.xxx：3306/abc？zeroDateTimeconvertToNulluseCursorFetch=truedefaultFetchSize=1000上次被這個(gè)問題糾結(jié)了很久(mysql的數(shù)據(jù)老導(dǎo)致程序內(nèi)存膨脹，并行2個(gè)直接系統(tǒng)就宕了)，還去看了很多源碼才發(fā)現(xiàn)奇跡竟然在這里，最后經(jīng)過mysql文檔的確認(rèn)，然后進(jìn)行測試，并行多個(gè)，而且數(shù)據(jù)量都是500W以上的，都不會導(dǎo)致內(nèi)存膨脹，GC一切正常，這個(gè)問題終于完結(jié)了。我們再聊聊其他的，數(shù)據(jù)拆分和合并，當(dāng)數(shù)據(jù)文件多的時(shí)候我們想合并，當(dāng)文件太大想要拆分，合并和拆分的過程也會遇到類似的問題，還好，這個(gè)在我們可控制的范圍內(nèi)，如果文件中的數(shù)據(jù)最終是可以組織的，那么在拆分和合并的時(shí)候，此時(shí)就不要按照數(shù)據(jù)邏輯行數(shù)來做了，因?yàn)樾袛?shù)最終你需要解釋數(shù)據(jù)本身來判定，但是只是做拆分是沒有必要的，你需要的是做二進(jìn)制處理，在這個(gè)二進(jìn)制處理過程，你要注意了，和平時(shí)read文件不要使用一樣的方式，平時(shí)大多對一個(gè)文件讀取只是用一次read操作，如果對于大文件內(nèi)存肯定直接掛掉了，不用多說，你此時(shí)因該每次讀取一個(gè)可控范圍的數(shù)據(jù)，read方法提供了重載的offset和length的范圍，這個(gè)在循環(huán)過程中自己可以計(jì)算出來，寫入大文件和上面一樣，不要讀取到一定程序就要通過寫入流flush到磁盤;其實(shí)對于小數(shù)據(jù)量的處理在現(xiàn)代的NIO技術(shù)的中也有用到，例如多個(gè)終端同時(shí)請求一個(gè)大文件下載，例如視頻下載吧，在常規(guī)的情況下，如果用java的容器來處理，一般會發(fā)生兩種情況：其一為內(nèi)存溢出，因?yàn)槊總€(gè)請求都要加載一個(gè)文件大小的內(nèi)存甚至于，因?yàn)閖ava包裝的時(shí)候會產(chǎn)生很多其他的內(nèi)存開銷，如果使用二進(jìn)制會產(chǎn)生得少一些，而且在經(jīng)過輸入輸出流的過程中還會經(jīng)歷幾次內(nèi)存拷貝，當(dāng)然如果有你類似nginx之類的中間件，那么你可以通過send_file模式發(fā)送出去，但是如果你要用程序來處理的時(shí)候，內(nèi)存除非你足夠大，但是java內(nèi)存再大也會有GC的時(shí)候，如果你內(nèi)存真的很大，GC的時(shí)候死定了，當(dāng)然這個(gè)地方也可以考慮自己通過直接內(nèi)存的調(diào)用和釋放來實(shí)現(xiàn)，不過要求剩余的物理內(nèi)存也足夠大才行，那么足夠大是多大呢？這個(gè)不好說，要看文件本身的大小和訪問的頻率;其二為假如內(nèi)存足夠大，無限制大，那么此時(shí)的限制就是線程，傳統(tǒng)的IO模型是線程是一個(gè)請求一個(gè)線程，這個(gè)線程從主線程從線程池中分配后，就開始工作，經(jīng)過你的Context包裝、Filter、攔截器、業(yè)務(wù)代碼各個(gè)層次和業(yè)務(wù)邏輯、訪問數(shù)據(jù)庫、訪問文件、渲染結(jié)果等等，其實(shí)整個(gè)過程線程都是被掛住的，所以這部分資源非常有限，而且如果是大文件操作是屬于IO密集型的操作，大量的CPU時(shí)間是空余的，方法最直接當(dāng)然是增加線程數(shù)來控制，當(dāng)然內(nèi)存足夠大也有足夠的空間來申請線程池，不過一般來講一個(gè)進(jìn)程的線程池一般會受到限制也不建議太多的，而在有限的系統(tǒng)資源下，要提高性能，我們開始有了newIO技術(shù)，也就是NIO技術(shù)，新版的里面又有了AIO技術(shù)，NIO只能算是異步IO，但是在中間讀寫過程仍然是阻塞的(也就是在真正的讀寫過程，但是不會去關(guān)心中途的響應(yīng))，還未做到真正的異步IO，在監(jiān)聽connect的時(shí)候他是不需要很多線程參與的，有單獨(dú)的線程去處理，連接也又傳統(tǒng)的socket變成了selector，對于不需要進(jìn)行數(shù)據(jù)處理的是無需分配線程處理的;而AIO通過了一種所謂的回調(diào)注冊來完成，當(dāng)然還需要OS的支持，當(dāng)會掉的時(shí)候會去分配線程，目前還不是很成熟，性能最多和NIO吃平，不過隨著技術(shù)發(fā)展，AIO必然會超越NIO，目前谷歌V8虛擬機(jī)引擎所驅(qū)動的node.js就是類似的模式，有關(guān)這種技術(shù)不是本文的說明重點(diǎn);將上面兩者結(jié)合起來就是要解決大文件，還要并行度，最土的方法是將文件每次請求的大小降低到一定程度，如8K(這個(gè)大小是經(jīng)過測試后網(wǎng)絡(luò)傳輸較為適宜的大小，本地讀取文件并不需要這么小)，如果再做深入一些，可以做一定程度的cache，將多個(gè)請求的一樣的文件，cache在內(nèi)存或分布式緩存中，你不用將整個(gè)文件cache在內(nèi)存中，將近期使用的cache幾秒左右即可，或你可以采用一些熱點(diǎn)的算法來配合;類似迅雷下載的斷點(diǎn)傳送中(不過迅雷的網(wǎng)絡(luò)協(xié)議不太一樣)，它在處理下載數(shù)據(jù)的時(shí)候未必是連續(xù)的，只要最終能合并即可，在服務(wù)器端可以反過來，誰正好需要這塊的數(shù)據(jù)，就給它就可以;才用NIO后，可以支持很大的連接和并發(fā)，本地通過NIO做socket連接測試，100個(gè)終端同時(shí)請求一個(gè)線程的服務(wù)器，正常的WEB應(yīng)用是第一個(gè)文件沒有發(fā)送完成，第二個(gè)請求要么等待，要么超時(shí)，要么直接拒絕得不到連接，改成NIO后此時(shí)100個(gè)請求都能連接上服務(wù)器端，服務(wù)端只需要1個(gè)線程來處理數(shù)據(jù)就可以，將很多數(shù)據(jù)傳遞給這些連接請求資源，每次讀取一部分?jǐn)?shù)據(jù)傳遞出去，不過可以計(jì)算的是，在總體長連接傳輸過程中總體效率并不會提升，只是相對相應(yīng)和所開銷的內(nèi)存得到量化控制，這就是技術(shù)的魅力，也許不要太多的算法，不過你得懂他。類似的數(shù)據(jù)處理還有很多，有些時(shí)候還會將就效率問題，比如在HBase的文件拆分和合并過程中，要不影響線上業(yè)務(wù)是比較難的事情，很多問題值得我們?nèi)パ芯繄鼍?，因?yàn)椴煌膱鼍坝胁煌姆椒ㄈソ鉀Q，但是大同小異，明白思想和方法，明白內(nèi)存和體系架構(gòu)，明白你所面臨的是沈陽的場景，只是細(xì)節(jié)上改變可以帶來驚人的效果。

我想用協(xié)同過濾的算法寫了一個(gè)java語言的圖書推薦系統(tǒng).能跟我講一下大概要怎么做嗎.有點(diǎn)沒頭緒

針對完全沒有編程經(jīng)驗(yàn)的初學(xué)者，java入門沒什么特別好的書，找點(diǎn)視頻看看吧，跟著視頻敲代碼，慢慢就能看懂書了。

----------------------如果堅(jiān)持要看書的話可以考慮以下----------------------

1. head first java

通俗易懂，重點(diǎn)突出的書，比較薄，適合初學(xué)者快速入門，缺點(diǎn)是編輯自以為幽默的加了很多不相干的段子在里面，廢話太多。

2. Java A beginner's guide by Herbert Schildt

相比head first java，沒有廢話，語言精煉。

3. 官方的tutorial

免費(fèi)的，在線閱讀的，也不錯(cuò)。

4. 瘋狂java講義

如果英文不夠好的話，可以考慮用這本書入門，中文世界里寫的比較好的

5. Introduction to java programming by Y. Daniel Liang

梁勇這本書比較厚，講算法比較多，如果你時(shí)間充足的話可以用這本書入門。

----------------------??！一定要避開這兩個(gè)大坑??！----------------------

很多人推薦的core java 和 Thinking in java 其實(shí)并不適合初學(xué)者(沒有編程經(jīng)驗(yàn)的)。

1. core java內(nèi)容太多太雜，沒有突出重點(diǎn)，并且結(jié)構(gòu)組織的像本字典，適合入門了以后用來系統(tǒng)復(fù)習(xí)。

2. Thinking in java 沒有編程經(jīng)驗(yàn)根本看不懂，過幾年再看吧，不看也沒關(guān)系。

網(wǎng)站名稱：包含java協(xié)同過濾代碼實(shí)現(xiàn)的詞條
文章源于：http://weahome.cn/article/doiephg.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

包含java協(xié)同過濾代碼實(shí)現(xiàn)的詞條

java,我有一個(gè)數(shù)據(jù)庫表userid,bookid,score,用這個(gè)表用協(xié)同過濾算法找到愛好相似的用戶?

協(xié)同過濾java用什么實(shí)現(xiàn)

我想用協(xié)同過濾的算法寫了一個(gè)java語言的圖書推薦系統(tǒng).能跟我講一下大概要怎么做嗎.有點(diǎn)沒頭緒

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管