《深入NoSQL》(Shashank Tiwari)電子書網(wǎng)盤下載免費在線閱讀
成都創(chuàng)新互聯(lián)服務(wù)項目包括互助網(wǎng)站建設(shè)、互助網(wǎng)站制作、互助網(wǎng)頁制作以及互助網(wǎng)絡(luò)營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢、行業(yè)經(jīng)驗、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,互助網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到互助省份的部分城市,未來相信會繼續(xù)擴大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!
鏈接:
提取碼:imed ?
書名:深入NoSQL
作者:Shashank Tiwari
譯者:巨成
豆瓣評分:6.1
出版社:人民郵電出版社
出版年份:2012-11
頁數(shù):294
內(nèi)容簡介:
《深入NoSQL》是一本全面的NoSQL實踐指南。書中主要關(guān)注NoSQL的基本概念,以及使用NoSQL數(shù)據(jù)庫的切實可行的解決方案。書中介紹了基于MapReduce的可伸縮處理,演示Hadoop用例,還有Hive和Pig這樣的高層抽象。包含許多用例演示,同時也會討論Google、Amazon、Facebook、Twitter和LinkedIn的可伸縮數(shù)據(jù)架構(gòu)。
作者簡介:
Shashank Tiwari,創(chuàng)業(yè)者、開發(fā)者、技術(shù)作家、演講者和導(dǎo)師,技術(shù)型創(chuàng)業(yè)公司Treasury of Ideas()的創(chuàng)始人。
他是一位經(jīng)驗豐富的軟件開發(fā)者和企業(yè)家,長期關(guān)注高性能應(yīng)用、分析、Web應(yīng)用以及移動平臺,對數(shù)據(jù)可視化和統(tǒng)計機器學(xué)習(xí)有著濃厚的興趣,喜歡喝咖啡、吃甜點、騎自行車。他撰寫了許多技術(shù)文章和著作,并且應(yīng)邀在全球各地的技術(shù)會議上進行演講。
怎樣進行大數(shù)據(jù)的入門級學(xué)習(xí)?
文 | 郭小賢
數(shù)據(jù)科學(xué)并沒有一個獨立的學(xué)科體系,統(tǒng)計學(xué),機器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)庫,分布式計算,云計算,信息可視化等技術(shù)或方法來對付數(shù)據(jù)。
但從狹義上來看,我認為數(shù)據(jù)科學(xué)就是解決三個問題:
1. datapre-processing;(數(shù)據(jù)預(yù)處理)
2. datainterpretation;(數(shù)據(jù)解讀)
3.datamodeling and analysis.(數(shù)據(jù)建模與分析)
這也就是我們做數(shù)據(jù)工作的三個大步驟:
1、原始數(shù)據(jù)要經(jīng)過一連串收集、提取、清洗、整理等等的預(yù)處理過程,才能形成高質(zhì)量的數(shù)據(jù);
2、我們想看看數(shù)據(jù)“長什么樣”,有什么特點和規(guī)律;
3、按照自己的需要,比如要對數(shù)據(jù)貼標(biāo)簽分類,或者預(yù)測,或者想要從大量復(fù)雜的數(shù)據(jù)中提取有價值的且不易發(fā)現(xiàn)的信息,都要對數(shù)據(jù)建模,得到output。
這三個步驟未必嚴謹,每個大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經(jīng)驗來看,按照這個大思路走,數(shù)據(jù)一般不會做跑偏。
這樣看來,數(shù)據(jù)科學(xué)其實就是門復(fù)合型的技術(shù),既然是技術(shù)就從編程語言談起吧,為了簡練,只說說R和Python。但既然是薦數(shù)據(jù)科學(xué)方面的書,我這里就不提R/Python編程基礎(chǔ)之類的書了,直接上跟數(shù)據(jù)科學(xué)相關(guān)的。
R programming
如果只是想初步了解一下R語言已經(jīng)R在數(shù)據(jù)分析方面的應(yīng)用,那不妨就看看這兩本:
R inaction:我的R語言大數(shù)據(jù)101。其實對于一個沒有任何編程基礎(chǔ)的人來說,一開始就學(xué)這本書,學(xué)習(xí)曲線可能會比較陡峭。但如果配合上一些輔助材料,如官方發(fā)布的R basics(http://cran.r-project.org/doc/contrib/usingR.pdf),stackoverflow上有tag-R的問題集(Newest ‘r’ Questions),遇到復(fù)雜的問題可在上面搜索,總會找到解決方案的。這樣一來,用這本書拿來入門學(xué)習(xí)也問題不大。而且這本書作者寫得也比較輕松,緊貼實戰(zhàn)。
Dataanalysis and graphics using R:使用R語言做數(shù)據(jù)分析的入門書。這本書的特點也是緊貼實戰(zhàn),沒有過多地講解統(tǒng)計學(xué)理論,所以喜歡通過情境應(yīng)用來學(xué)習(xí)的人應(yīng)該會喜歡這本入門書。而且這本書可讀性比較強,也就是說哪怕你手頭沒電腦寫不了代碼,有事沒事拿出這本書翻一翻,也能讀得進去。
但如果你先用R來從事實實在在的數(shù)據(jù)工作,那么上面兩本恐怕不夠,還需要這些:
Modernapplied statistics with S:這本書里統(tǒng)計學(xué)的理論就講得比較多了,好處就是你可以用一本書既復(fù)習(xí)了統(tǒng)計學(xué),又學(xué)了R語言。(S/Splus和R的關(guān)系就類似于Unix和Linux,所以用S教程學(xué)習(xí)R,一點問題都沒有)
Datamanipulation with R:這本書實務(wù)性很強,它教給你怎么從不同格式的原始數(shù)據(jù)文件里讀取、清洗、轉(zhuǎn)換、整合成高質(zhì)量的數(shù)據(jù)。當(dāng)然和任何一本注重實戰(zhàn)的書一樣,本書也有豐富的真實數(shù)據(jù)或模擬數(shù)據(jù)供你練習(xí)。對于真正從事數(shù)據(jù)處理工作的人來說,這本書的內(nèi)容非常重要,因為對于任何研究,一項熟練的數(shù)據(jù)預(yù)處理技能可以幫你節(jié)省大量的時間和精力。否則,你的研究總是要等待你的數(shù)據(jù)。
RGraphics Cookbook:想用R做可視化,就用這本書吧。150多個recipes,足以幫你應(yīng)付絕大多數(shù)類型的數(shù)據(jù)。以我現(xiàn)在極業(yè)余的可視化操作水平來看,R是最容易做出最漂亮的圖表的工具了。
Anintroduction to statistical learning with application in R:這本書算是著名的the element of statistical learning的姊妹篇,后者更注重統(tǒng)計(機器)學(xué)習(xí)的模型和算法,而前者所涉及的模型和算法原沒有后者全面或深入,但卻是用R來學(xué)習(xí)和應(yīng)用機器學(xué)習(xí)的很好的入口。
Ahandbook of statistical analysis using R:這本書內(nèi)容同樣非常扎實,很多統(tǒng)計學(xué)的學(xué)生就是用這本書來學(xué)習(xí)用R來進行統(tǒng)計建模的。
Python
Think Python,ThinkStats,Think Bayes:這是AllenB. Downey寫的著名的Think X series三大卷。其實是三本精致的小冊子,如果想快速地掌握Python在統(tǒng)計方面的操作,好好閱讀這三本書,認真做習(xí)題,答案鏈接在書里有。這三本書學(xué)通了,就可以上手用Python進行基本的統(tǒng)計建模了。
PythonFor Data Analysis: 作者是pandas的主要開發(fā)者,也正是Pandas使Python能夠像R一樣擁有dataframe的功能,能夠處理結(jié)構(gòu)比較復(fù)雜的數(shù)據(jù)。這本書其實analysis講得不多,說成數(shù)據(jù)處理應(yīng)該更合適。掌握了這本書,處理各種糟心的數(shù)據(jù)就問題不大了。
Introductionto Python for Econometrics, Statistics and DataAnalysis:這本書第一章就告訴你要安裝Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下來的十好幾章就是逐一介紹這幾個庫該怎么用。很全面,但讀起來比較枯燥,可以用來當(dāng)工具書。
PracticalData Analysis: 這本書挺奇葩,貌似很暢銷,但作者把內(nèi)容安排得東一榔頭西一棒子,什么都講一點,但一個都沒講透。這本書可以作為我們學(xué)習(xí)數(shù)據(jù)分析的一個索引,看到哪塊內(nèi)容有意思,就順著它這個藤去摸更多的瓜。
PythonData Visualization Cookbook: 用Python做可視化的教材肯定不少,我看過的也就這一本,覺得還不錯。其實這類書差別都不會很大,咬住一本啃下來就是王道。
Exploratory Data Analysis 和 Data Visualization
Exploratory DataAnalysis:John Tukey寫于1977年的經(jīng)典老教材,是這一領(lǐng)域的開山之作。如今EDA已經(jīng)是統(tǒng)計學(xué)里的重要一支,但當(dāng)時還是有很多人對他的工作不屑一顧??伤麗蹟?shù)據(jù),堅信數(shù)據(jù)可以以一種出人意料的方式呈現(xiàn)出來。正是他的努力,讓數(shù)據(jù)可視化成為一門無比迷人的技術(shù)。但這本書不推薦閱讀了,內(nèi)容略過時。要想完整地了解EDA,推薦下一本:
ExploratoryData Analysis with MATLAB:這本書雖然標(biāo)題帶了個MATLAB,但實際上內(nèi)容幾乎沒怎么講MATLAB,只是每講一個方法的時候就列出對應(yīng)的MATALB函數(shù)。這本書的重要之處在于,這是我讀過的講EDA最系統(tǒng)的一本書,除了對visualization有不輸于John Tucky的講解外,對于高維的數(shù)據(jù)集,通過怎樣的方法才能讓我們從中找到潛在的pattern,這本書也做了詳盡的講解。全書所以案例都有對應(yīng)的MATALB代碼,而且還提供了GUI(圖形用戶界面)。所以這本書學(xué)起來還是相當(dāng)輕松愉悅的。
VisualizeThis:中譯本叫“鮮活的數(shù)據(jù)”,作者是個“超級數(shù)據(jù)迷”,建立了一個叫http://flowingdata.com的網(wǎng)頁展示他的數(shù)據(jù)可視化作品,這本書告訴你該選擇什么樣的可視化工具,然后告訴你怎樣visualize關(guān)系型數(shù)據(jù)、時間序列、空間數(shù)據(jù)等,最后你就可以用數(shù)據(jù)講故事了。如果你只想感受一下數(shù)據(jù)可視化是個什么,可以直接點開下面這個鏈接感受下吧!A tour through the visualization zoo(A TourThrough the Visualization Zoo)
Machine Learning Data Mining
這一塊就不多說了,不是因為它不重要,而是因為它太太太重要。所以這一部分就推兩本書,都是”世界名著“,都比較難讀,需要一點點地啃。這兩本書拿下,基本就算是登堂入室了。其實作為機器學(xué)習(xí)的延伸和深化,概率圖模型(PGM)和深度學(xué)習(xí)(deep learning)同樣值得研究,特別是后者現(xiàn)在簡直火得不得了。但PGM偏難,啃K.Daphne那本大作實在太燒腦,也沒必要,而且在數(shù)據(jù)領(lǐng)域的應(yīng)用也不算很廣。deep learning目前工業(yè)界的步子邁得比學(xué)術(shù)界的大,各個domain的應(yīng)用如火如荼,但要有公認的好教材問世則還需時日,所以PGM和deep learning這兩塊就不薦書了。
TheElement of Statistical Learning:要學(xué)機器學(xué)習(xí),如果讓我只推薦一本書,我就推薦這本巨著。Hastie、Tibshirani、Friedman這三位大牛寫書寫得太用心了,大廈建得夠高夠大,結(jié)構(gòu)也非常嚴謹,而且很有前瞻性,納入了很多前沿的內(nèi)容,而不僅僅是一部綜述性的教材。(圖表也做得非常漂亮,應(yīng)該是用R語言的ggplot2做的。)這本書注重講解模型和算法本身,所以需要具備比較扎實的數(shù)理基礎(chǔ),啃起這本書來才不會太吃力。事實上掌握模型和算法的原理非常重要。機器學(xué)習(xí)(統(tǒng)計學(xué)習(xí))的庫現(xiàn)在已經(jīng)非常豐富,即使你沒有完全搞懂某個模型或算法的原理和過程,只要會用那幾個庫,機器學(xué)習(xí)也能做得下去。但你會發(fā)現(xiàn)你把數(shù)據(jù)代進去,效果永遠都不好。但是,當(dāng)你透徹地理解了模型和算法本身,你再調(diào)用那幾個庫的時候,心情是完全不一樣的,效果也不一樣。
DataMining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 數(shù)據(jù)挖掘的教材汗牛充棟,之所以推薦這本韓家煒爺爺?shù)模且驗殡m然他這本書的出發(fā)點是應(yīng)用,但原理上的內(nèi)容也一點沒有落下,內(nèi)容非常完整。而且緊跟時代,更新的很快,我看過的是第二版,就已經(jīng)加進去了social network analysis這種當(dāng)時的前沿內(nèi)容?,F(xiàn)在已經(jīng)有第三版了,我還沒看過,但應(yīng)該也加入了不少新內(nèi)容。其實這本書并不難讀,只是篇幅較長,啃起來比較耗時。
其實這兩本書里單拎出來一塊內(nèi)容可能又是幾本書的節(jié)奏,比如bayesian方法,再拿出兩三本書來講也不為過,我個人用到的比較多,而且也確實有不少好書。但并非是所有data scientist都要用到,所以這一塊就不再細說。
還有一些印象比較深刻的書:
Big DataGlossary: 主要講解大數(shù)據(jù)處理技術(shù)及工具,內(nèi)容涵蓋了NoSQL,MapReduce,Storage,Servers,NLP庫與工具包,機器學(xué)習(xí)工具包,數(shù)據(jù)可視化工具包,數(shù)據(jù)清洗,序列化指南等等??傊?,是一本辭典式的大數(shù)據(jù)入門指導(dǎo)。
Mining ofMassive Datasets:這本書是斯坦福大學(xué)Web Mining的講義,里面很多內(nèi)容與韓家煒的Data Mining那本書重合,但這本書里詳細地講了MapReduce的設(shè)計原理,PageRank(Google創(chuàng)業(yè)時期的核心排序算法,現(xiàn)在也在不斷優(yōu)化更新)講解得也比較詳細。
DevelopingAnalytic Talent: 作者是個從事了十幾年數(shù)據(jù)工作的geek,技術(shù)博客寫得很有個人風(fēng)格,寫的內(nèi)容都比較偏門,通常只有具備相關(guān)數(shù)據(jù)處理經(jīng)驗的人能體會出來,絲毫不照顧初學(xué)者的感受。比如他會談到當(dāng)數(shù)據(jù)流更新太快時該怎么辦,或者MapReduce在什么時候不好用的問題,才不管你懂不懂相關(guān)基礎(chǔ)原理。所以這本書不太適合初學(xué)者閱讀。這本書其實是作者的博客文章的集結(jié),用how to become a data scientist的邏輯把他近幾年的博客文章串聯(lián)了起來。
Past, Present and Future of Statistical Science:這本書是由COPSS(統(tǒng)計學(xué)社主席委員會,由國際各大統(tǒng)計學(xué)會的帶頭人組成)在50周年出版的一本紀念冊,里面有50位統(tǒng)計學(xué)家每人分別貢獻出的一兩篇文章,有的回憶了自己當(dāng)年如何走上統(tǒng)計學(xué)這條路,有的探討了一些統(tǒng)計學(xué)的根本問題,有的談了談自己在從事的前沿研究,有的則給年輕一代寫下了寄語。非常有愛的一本書。
其它資料
Harvard Data Science:這是H大的Data science在線課,我沒有修過,但口碑很好。這門課需要費用8千刀左右,比起華盛頓大學(xué)的4千刀的Data science在線課雖貴一倍,但比斯坦福的14千刀要便宜將近一半(而且斯坦福的更偏計算機)。如果想自學(xué),早有好心人分享了slides:(https://drive.google.com/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0kusp=sharing)和homeworks and solutions: (https://github.com/cs109/content)
PyData:PyData是來自各個domain的用Python做數(shù)據(jù)的人每年舉行一次的聚會,期間會有各路牛人舉行一些規(guī)模不大的seminar或workshop,有好心人已經(jīng)把video上傳到github,有興趣的去認領(lǐng)吧(DataTau/datascience-anthology-pydata · GitHub)
工具
R/Python/MATLAB(必備):如果是做數(shù)據(jù)分析和模型開發(fā),以我的觀察來看,使用這三種工具的最多。R生來就是一個統(tǒng)計學(xué)家開發(fā)的軟件,所做的事也自然圍繞統(tǒng)計學(xué)展開。MATLAB雖然算不上是個專業(yè)的數(shù)據(jù)分析工具,但因為很多人不是專業(yè)做數(shù)據(jù)的,做數(shù)據(jù)還是為了自己的domain expertise(特別是科學(xué)計算、信號處理等),而MATLAB又是個強大無比的Domain expertise工具,所以很多人也就順帶讓MATLAB也承擔(dān)了數(shù)據(jù)處理的工作,雖然它有時候顯得效率不高。Python雖然不是做數(shù)據(jù)分析的專業(yè)軟件,但作為一個面向?qū)ο蟮母呒墑討B(tài)語言,其開源的生態(tài)使Python擁有無比豐富的庫,Numpy, Scipy 實現(xiàn)了矩陣運算/科學(xué)計算,相當(dāng)于實現(xiàn)了MATLAB的功能,Pandas又使Python能夠像R一樣處理dataframe,scikit-learn又實現(xiàn)了機器學(xué)習(xí)。
SQL(必備):雖然現(xiàn)在人們都說傳統(tǒng)的關(guān)系型數(shù)據(jù)庫如Oracle、MySQL越來越無法適應(yīng)大數(shù)據(jù)的發(fā)展,但對于很多人來說,他們每天都有處理數(shù)據(jù)的需要,但可能一輩子都沒機會接觸TB級的數(shù)據(jù)。不管怎么說,不論是用關(guān)系型還是非關(guān)系型數(shù)據(jù)庫,SQL語言是必須要掌握的技能,用什么數(shù)據(jù)庫視具體情況而定。
MongoDB(可選):目前最受歡迎的非關(guān)系型數(shù)據(jù)庫NoSQL之一,不少人認為MongoDB完全可以取代mySQL。確實MongoDB方便易用,擴展性強,Web2.0時代的必需品。
Hadoop/Spark/Storm(可選): MapReduce是當(dāng)前最著名也是運用最廣泛的分布式計算框架,由Google建立。Hadoop/Spark/storm都是基于MapReduce的框架建立起來的分布式計算系統(tǒng),要說他們之間的區(qū)別就是,Hadoop用硬盤存儲數(shù)據(jù),Spark用內(nèi)存存儲數(shù)據(jù),Storm只接受實時數(shù)據(jù)流而不存儲數(shù)據(jù)。一言以蔽之,如果數(shù)據(jù)是離線的,如果數(shù)據(jù)比較復(fù)雜且對處理速度要求一般,就Hadoop,如果要速度,就Spark,如果數(shù)據(jù)是在線的實時的流數(shù)據(jù),就Storm。
OpenRefine(可選):Google開發(fā)的一個易于操作的數(shù)據(jù)清洗工具,可以實現(xiàn)一些基本的清洗功能。
Tableau(可選):一個可交互的數(shù)據(jù)可視化工具,操作簡單,開箱即用。而且圖表都設(shè)計得非常漂亮。專業(yè)版1999美刀,終身使用。媒體和公關(guān)方面用得比較多。
Gephi(可選):跟Tableau類似,都是那種可交互的可視化工具,不需要編程基礎(chǔ),生成的圖表在美學(xué)和設(shè)計上也是花了心血的。更擅長復(fù)雜網(wǎng)絡(luò)的可視化。
來自知乎
以上是小編為大家分享的關(guān)于怎樣進行大數(shù)據(jù)的入門級學(xué)習(xí)?的相關(guān)內(nèi)容,更多信息可以關(guān)注環(huán)球青藤分享更多干貨
SpringBoot2.1.6視頻教程-加密百度網(wǎng)盤免費資源在線學(xué)習(xí) ?
鏈接:
提取碼: b3di
SpringBoot2.1.6視頻教程-加密 第 9 章 Spring Boot 緩存 第 8 章 開發(fā)者工具與單元測試 第 7 章 構(gòu)建 REST 服務(wù) 第 6 章 Spring Boot 整合 NoSQL 第 5 章 Spring Boot 整合持久層技術(shù) 第 4 章 Spring Boot 整合 Web 開發(fā) 第 3 章 Spring Boot 整合視圖層技術(shù) 第 2 章 Spring Boot 基礎(chǔ)配置 第 16 章 微人事項目實戰(zhàn) 第 15 章 項目構(gòu)建與部署 第 14 章 應(yīng)用監(jiān)控 第 13 章 企業(yè)開發(fā) 第 12 章 消息服務(wù) 第 11 章 Spring Boot 整合 WebSocket ?
《七周七數(shù)據(jù)庫》([美]Eric Redmond)電子書網(wǎng)盤下載免費在線閱讀
資源鏈接:
鏈接:
密碼:v4zg ?
書名:七周七數(shù)據(jù)庫
作者:[美]Eric Redmond
譯者:王海鵬
豆瓣評分:6.9
出版社:人民郵電出版社
出版年份:2013-5-30
頁數(shù):256
內(nèi)容簡介:
如今,我們要面對和使用的數(shù)據(jù)正在變得越來越龐大和復(fù)雜。如果說數(shù)據(jù)是新的石油。那么數(shù)據(jù)庫就是油田、煉油廠、鉆井和油泵。作為一名現(xiàn)代的軟件開發(fā)者,我們需要了解數(shù)據(jù)管理的新領(lǐng)域,既包括rdbms,也包括nosql。
《七周七數(shù)據(jù)庫》遵循《七周七語言》的寫作風(fēng)格和體例,帶領(lǐng)你學(xué)習(xí)和了解當(dāng)令最熱門的開源數(shù)據(jù)庫。在簡單的介紹之后,本書分章介紹了7種數(shù)據(jù)庫。這些數(shù)據(jù)庫分別屬于5種不同的數(shù)據(jù)庫風(fēng)格,但每種數(shù)據(jù)庫都有自己保存數(shù)據(jù)和看待世界的方式。它們依次是postgresql、riak、apache hbase、mongodb、apache couchdb、neo4j和redis。本書將深入每一種數(shù)據(jù)庫,介紹它們的優(yōu)勢和不足,以及如何選取一種最符合你的應(yīng)用需求的數(shù)據(jù)庫。
《七周七數(shù)據(jù)庫》適合數(shù)據(jù)庫架構(gòu)師、數(shù)據(jù)庫管理員,以及想要了解和學(xué)習(xí)各種nosql數(shù)據(jù)庫技術(shù)的程序員閱讀。本書將幫助讀者了解、選擇和應(yīng)用這些數(shù)據(jù)庫,從而更好地發(fā)揮日益增長的大數(shù)據(jù)的能力。
《七周七數(shù)據(jù)庫》適用于數(shù)據(jù)庫架構(gòu)師、想要學(xué)習(xí)nosql數(shù)據(jù)庫技術(shù)的程序員、數(shù)據(jù)庫管理員。