1、數(shù)據(jù)收集:(1)Scrapy:協(xié)助使用者自動提取網(wǎng)頁所需信息,并將其整理為表格或JSON格式的數(shù)據(jù)結(jié)構(gòu);(2)Selenium:使用者在感興趣的網(wǎng)站上已經(jīng)進行了交互行為之后,Seleniumn一般能派上用場;(3)BeautifulSoup:用來收集網(wǎng)站內(nèi)容的Python庫,更適合應(yīng)用于規(guī)模相對較小的問題或一次性任務(wù)。
站在用戶的角度思考問題,與客戶深入溝通,找到桃山網(wǎng)站設(shè)計與桃山網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:網(wǎng)站制作、網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、域名與空間、網(wǎng)站空間、企業(yè)郵箱。業(yè)務(wù)覆蓋桃山地區(qū)。
2、數(shù)據(jù)清理和轉(zhuǎn)化:(4)Pandas:必須學(xué)習(xí)的,使用者可以運用Pandas操控處于Pandas數(shù)據(jù)框架內(nèi)的數(shù)據(jù),而且其內(nèi)置巨量的函數(shù),幫助使用者進行數(shù)據(jù)轉(zhuǎn)換;(5)Numpy:必須學(xué)習(xí)的,Numpy將Python的對象列表拓展成了全面的多維度序列,而且其內(nèi)置海量的數(shù)學(xué)函數(shù);(6)Spacy:幫助使用者將自由文本轉(zhuǎn)化為結(jié)構(gòu)型數(shù)據(jù),支持多種語言版本。
3、數(shù)據(jù)可視化:(7)Matplotlib:最全面的Python數(shù)據(jù)可視化庫;(8)Plotly:只需要寫最少的代碼就能得出最多彩繽紛的圖像。
4、數(shù)據(jù)模塊化:(9)Scikit Learn:高級分析師,開啟機器學(xué)習(xí)之旅,有六大主要模塊:數(shù)據(jù)預(yù)處理,維度縮減,數(shù)據(jù)回歸,數(shù)據(jù)分類,數(shù)據(jù)聚類分析,模型選擇;(10)Tensorflow:由谷歌推出的來源機器學(xué)習(xí)庫,是一個基于網(wǎng)頁自動生成的儀表盤,它將數(shù)據(jù)學(xué)習(xí)流和結(jié)果進行了可視化處理,這一功能對于排錯和展示都十分有用;(11)PyTorch:由Facebook發(fā)布的一個開源庫,用作Python的公共機器學(xué)習(xí)框架。
5、音頻和圖像識別:(12)OpenCV:是最常用的圖像和視頻識別庫,能讓Python在圖像和視頻識別領(lǐng)域完全替代Matlab,不僅支持Python,還支持JAVA和Matlab;(13)Librosa:是一個非常強大的音頻和聲音處理Python庫,可以從音頻段中提取各個部分,例如節(jié)奏以及節(jié)拍。
6、網(wǎng)頁:(14)Django:開發(fā)網(wǎng)頁服務(wù)后端,設(shè)計理念是能用幾行代碼就建立一個網(wǎng)站的高級框架;(15)Flask:是一個用于Python的輕量級網(wǎng)頁開發(fā)框架。
應(yīng)該說,現(xiàn)在是國產(chǎn)分布式數(shù)據(jù)庫發(fā)展的利好時期。在討論發(fā)展前景前,首先要先看看分布式數(shù)據(jù)庫的發(fā)展方向。
大家把傳統(tǒng)關(guān)系型數(shù)據(jù)庫稱作oldSQL,給人感覺要被淘汰似的。但其實數(shù)據(jù)量不是很大或者事務(wù)處理的場景夏,關(guān)系型數(shù)據(jù)庫的還是占優(yōu)的。
關(guān)系型數(shù)據(jù)庫的主要問題在于:
性能瓶頸,
單一模型(關(guān)系模型),只適合OLTP
應(yīng)對業(yè)務(wù)的靈活性不夠,
彈性擴充能力不夠,
兩地三中心和雙活等問題上不足。
隨著互聯(lián)網(wǎng)和手機的飛速發(fā)展,無論從用戶規(guī)模、使用頻率、還是場景多樣性都使得這些問題浮出水面。其實Oracle在92年就開始嘗試轉(zhuǎn)向分布式,還當(dāng)時引起了業(yè)界的巨大爭論,最后失敗。更何況過去CPU、內(nèi)存、存儲、帶寬的高成本導(dǎo)致分布式數(shù)據(jù)庫的性價比并不高,只能停留在學(xué)術(shù)階段,限制了分布式的發(fā)展。
新分布式數(shù)據(jù)庫首先是要避免和傳統(tǒng)關(guān)系型數(shù)據(jù)庫的競爭,這是明智的選擇,能夠輕裝上陣。因此從幾個方面入手,應(yīng)對海量數(shù)據(jù)處理、分析、緩存、流式處理、開發(fā)模式等等。相對應(yīng)列式,KV,Document等多種存儲數(shù)據(jù)結(jié)構(gòu)。
所有這些都被稱為NoSQL數(shù)據(jù)庫,放棄ACID和事務(wù)能力還換取性能。然而,NoSQL又收到了大量的批評反對意見,主要是說把數(shù)據(jù)庫應(yīng)該處理的問題交還給了開發(fā)是種發(fā)展的倒退。這些問題包括,索引、版本、SQL支持、事務(wù)支持等等。市場上超過90%的開發(fā)員都需要SQL,而且SQL也是非常有效和成熟。于是大家無論底層是什么存儲結(jié)構(gòu)又開始支持SQL,形成了NewSQL。
這里插一句題外話,在硅谷已經(jīng)不再用SQL、NoSQL、NewSQL來劃分?jǐn)?shù)據(jù)庫了。理由很簡單,SQL是一種語言,從來沒有SQL數(shù)據(jù)庫的說法,自然也不應(yīng)該有NoSQL數(shù)據(jù)庫的說法。NewSQL數(shù)據(jù)庫就更不合理,用的SQL并非什么“New“的新東西。所以專業(yè)上用關(guān)系型和非關(guān)系型數(shù)據(jù)庫來劃分,分布式數(shù)據(jù)庫主要都是非關(guān)系型數(shù)據(jù)庫。
回過頭來看國內(nèi)分布式數(shù)據(jù)庫市場需求,中小企業(yè)不滿足Mysql的性能,分庫分表又很難搞,也不徹底;大型企業(yè)被Oracle等壟斷支付高額成本,而且又不解決實際碰到的瓶頸問題。因此,用戶都在尋找新的解決方案。小型用戶、云計算的用戶、大型企業(yè)都需要對應(yīng)的分布式數(shù)據(jù)庫產(chǎn)品。
再加上國產(chǎn)自主和去IOE浪潮,更加推動了國產(chǎn)分布式數(shù)據(jù)庫的發(fā)展利好。值得注意的是,數(shù)據(jù)庫研發(fā)是個嚴(yán)肅的事情,沒法短平快。
大數(shù)據(jù)市場規(guī)模不斷提升增加了我國隱私數(shù)據(jù)監(jiān)管的難度
根據(jù)中國信通院數(shù)據(jù)顯示,2016-2019年我國大數(shù)據(jù)市場規(guī)模呈不斷上升趨勢。大數(shù)據(jù)是指在一定時間內(nèi)用常用軟件對內(nèi)容進行抓取和處理的數(shù)據(jù)集合,不同于傳統(tǒng)的數(shù)據(jù)抓取方式,在大數(shù)據(jù)環(huán)境下,80%以上都是非結(jié)構(gòu)化數(shù)據(jù)通常采用非關(guān)系型數(shù)據(jù)庫(NoSQL)存儲技術(shù)完成對大數(shù)據(jù)的抓取、管理和處理。
而非關(guān)系型數(shù)據(jù)庫目前尚無嚴(yán)格的訪問控制機制及相對完善的隱私保護工具,現(xiàn)有的隱私保護技術(shù),如去標(biāo)識化、匿名化技術(shù)等,多適用于關(guān)系型數(shù)據(jù)庫。
因此,大數(shù)據(jù)環(huán)境下,傳統(tǒng)的數(shù)據(jù)監(jiān)管技術(shù)已經(jīng)失效,目前我國較難以對大數(shù)據(jù)進行監(jiān)管。此次滴滴事件就是利用“滴滴出行”APP對用戶信息進行了大數(shù)據(jù)抓取。
加緊完善大數(shù)據(jù)安全問題
此次滴滴事件主要在“滴滴出行”APP上利用大數(shù)據(jù)抓取客戶隱私數(shù)據(jù),在赴美IPO后導(dǎo)致數(shù)據(jù)泄露。未來,我國或?qū)⒏又匾暣髷?shù)據(jù)安全問題,積極構(gòu)建大數(shù)據(jù)安全綜合防御體系、強化大數(shù)據(jù)平臺安全保護、完善數(shù)據(jù)安全技術(shù)體系、加強隱私保護核心技術(shù)產(chǎn)業(yè)化投入,避免類似于此次滴滴事件再次發(fā)生。
網(wǎng)絡(luò)安全市場規(guī)模將會進一步提升
滴滴事件之后,我國將會更加重視網(wǎng)絡(luò)安全的發(fā)展。未來,隨著《密碼法》、《網(wǎng)絡(luò)安全審查辦法》等網(wǎng)絡(luò)安全領(lǐng)域法律法規(guī)政策文件不斷出臺、加速制定,信創(chuàng)市場需求加速釋放,有望推動市場進入穩(wěn)定增長期;并且“新基建”加速建設(shè)必將催生和引領(lǐng)新的網(wǎng)絡(luò)安全需求,形成可觀的增量市場。前瞻預(yù)計,未來網(wǎng)絡(luò)安全市場將保持15%增速,到2026年市場規(guī)模預(yù)計將達到3937億元。
——以上數(shù)據(jù)參考前瞻產(chǎn)業(yè)研究院《中國網(wǎng)絡(luò)安全行業(yè)發(fā)展前景預(yù)測與投資戰(zhàn)略規(guī)劃分析報告》。
目錄
- 數(shù)據(jù)庫分類維度:關(guān)系型/非關(guān)系型、交易型/分析型
- NoSQL數(shù)據(jù)庫的進一步分類
- OLTP市場規(guī)模:關(guān)系型數(shù)據(jù)庫仍占營收大頭
- 數(shù)據(jù)庫市場份額:云服務(wù)和新興廠商主導(dǎo)NoSQL
- 開源數(shù)據(jù)庫 vs. 商業(yè)數(shù)據(jù)庫
- 數(shù)據(jù)庫三大陣營:傳統(tǒng)廠商和云服務(wù)提供商
最近由于時間原因我寫東西少了,在公眾號上也轉(zhuǎn)載過幾篇搞數(shù)據(jù)庫朋友的大作。按說我算是外行,沒資格在這個領(lǐng)域品頭論足,而當(dāng)我看到下面這份報告時立即產(chǎn)生了學(xué)習(xí)的興趣,同時也想就能看懂的部分寫點心得體會分享給大家。
可能本文比較適合普及性閱讀,讓數(shù)據(jù)庫領(lǐng)域資深的朋友見笑了:)
數(shù)據(jù)庫分類維度:關(guān)系型/非關(guān)系型、交易型/分析型
首先是分類維度,上圖中的縱軸分類為Relational Database(關(guān)系型數(shù)據(jù)庫,RDBMS)和Nonrelational Database (非關(guān)系型數(shù)據(jù)庫,NoSQL),橫軸的分類為Operational(交易型,即OLTP)和Analytical(分析型,即OLAP)。
按照習(xí)慣我們先看關(guān)系型數(shù)據(jù)庫,左上角的交易型類別中包括大家熟悉的商業(yè)數(shù)據(jù)庫Oracle、MS SQL Server、DB2、Infomix,也包括開源領(lǐng)域流行的MySQL(MariaDB是它的一個分支)、PostgreSQL,還有云上面比較常見的SQL Azure和Amazon Aurora等。
比較有意思的是,SAP HANA正好位于交易型和分析型的中間分界處,不要忘了SAP還收購了Sybase,盡管后者今天不夠風(fēng)光了,而早年微軟的SQL Server都是來源于Sybase。Sybase的ASE數(shù)據(jù)庫和分析型Sybase IQ還是存在的。
右上角的分析型產(chǎn)品中包括幾款知名的列式數(shù)據(jù)倉庫Pivotal Greenplum、Teradata和IBM Netezza(已宣布停止支持),來自互聯(lián)網(wǎng)巨頭的Google Big Query和Amazon RedShift。至于Oracle Exadata一體機,它上面運行的也是Oracle數(shù)據(jù)庫,其最初設(shè)計用途是OLAP,而在后來發(fā)展中也可以良好兼顧OLTP,算是一個跨界產(chǎn)品吧。
再來看非關(guān)系型數(shù)據(jù)庫,左下角的交易型產(chǎn)品中,有幾個我看著熟悉的MongoDB、Redis、Amazon DynamoDB和DocumentDB等;右下角的分析型產(chǎn)品包括著名的Hadoop分支Cloudera、Hortonworks(這2家已并購),Bigtable(來自Google,Hadoop中的HBase是它的開源實現(xiàn))、Elasticsearch等。
顯然非關(guān)系型數(shù)據(jù)庫的分類要更加復(fù)雜,產(chǎn)品在應(yīng)用中的差異化也比傳統(tǒng)關(guān)系型數(shù)據(jù)庫更大。Willian Blair很負責(zé)任地對它們給出了進一步的分類。
NoSQL數(shù)據(jù)庫的進一步分類
上面這個圖表應(yīng)該說很清晰了。非關(guān)系型數(shù)據(jù)庫可以分為Document-based Store(基于文檔的存儲)、Key-Value Store(鍵值存儲)、Graph-based(圖數(shù)據(jù)庫)、Time Series(時序數(shù)據(jù)庫),以及Wide Cloumn-based Store(寬列式存儲)。
我們再來看下每個細分類別中的產(chǎn)品:
文檔存儲 :MongoDB、Amazon DocumentDB、Azure Cosmos DB等
Key-Value存儲 :Redis Labs、Oracle Berkeley DB、Amazon DynamoDB、Aerospike等
圖數(shù)據(jù)庫 :Neo4j等
時序數(shù)據(jù)庫 :InfluxDB等
WideCloumn :DataStax、Cassandra、Apache HBase和Bigtable等
多模型數(shù)據(jù)庫 :支持上面不只一種類別特性的NoSQL,比如MongoDB、Redis Labs、Amazon DynamoDB和Azure Cosmos DB等。
OLTP市場規(guī)模:關(guān)系型數(shù)據(jù)庫仍占營收大頭
上面這個基于IDC數(shù)據(jù)的交易型數(shù)據(jù)庫市場份額共有3個分類,其中深藍色部分的關(guān)系型數(shù)據(jù)庫(RDBMS,在這里不統(tǒng)計數(shù)據(jù)挖掘/分析型數(shù)據(jù)庫)占據(jù)80%以上的市場。
Dynamic Database(DDMS,動態(tài)數(shù)據(jù)庫管理系統(tǒng),同樣不統(tǒng)計Hadoop)就是我們前面聊的非關(guān)系型數(shù)據(jù)庫。這部分市場顯得小(但發(fā)展勢頭看好),我覺得與互聯(lián)網(wǎng)等大公司多采用開源+自研,而不買商業(yè)產(chǎn)品有關(guān)。
而遵循IDC的統(tǒng)計分類,在上圖灰色部分的“非關(guān)系型數(shù)據(jù)庫市場”其實另有定義,參見下面這段文字:
數(shù)據(jù)庫市場份額:云服務(wù)和新興廠商主導(dǎo)NoSQL
請注意,這里的關(guān)系型數(shù)據(jù)庫統(tǒng)計又包含了分析型產(chǎn)品。Oracle營收份額42%仍居第一,隨后排名依次為微軟、IBM、SAP和Teradata。
代表非關(guān)系型數(shù)據(jù)庫的DDMS分類中(這里同樣加入Hadoop等),云服務(wù)和新興廠商成為了主導(dǎo),微軟應(yīng)該是因為云SQL Server的基礎(chǔ)而小幅領(lǐng)先于AWS,這2家一共占據(jù)超過50%的市場,接下來的排名是Google、Cloudera和Hortonworks(二者加起來13%)。
上面是IDC傳統(tǒng)分類中的“非關(guān)系型數(shù)據(jù)庫”,在這里IBM和CA等應(yīng)該主要是針對大型機的產(chǎn)品,InterSystems有一款在國內(nèi)醫(yī)療HIS系統(tǒng)中應(yīng)用的Caché數(shù)據(jù)庫(以前也是運行在Power小機上比較多)。我就知道這些,余下的就不瞎寫了。
開源數(shù)據(jù)庫 vs. 商業(yè)數(shù)據(jù)庫
按照流行度來看,開源數(shù)據(jù)庫從2013年到現(xiàn)在一直呈現(xiàn)增長,已經(jīng)快要追上商業(yè)數(shù)據(jù)庫了。
商業(yè)產(chǎn)品在關(guān)系型數(shù)據(jù)庫的占比仍然高達60.5%,而上表中從這列往左的分類都是開源占優(yōu):
Wide Cloumn:開源占比81.8%;
時序數(shù)據(jù)庫:開源占比80.7%;
文檔存儲:開源占比80.0%;
Key-Value存儲:開源占比72.2%;
圖數(shù)據(jù)庫:開源占比68.4%;
搜索引擎:開源占比65.3%
按照開源License的授權(quán)模式,上面這個三角形越往下管的越寬松。比如MySQL屬于GPL,在互聯(lián)網(wǎng)行業(yè)用戶較多;而PostgreSQL屬于BSD授權(quán),國內(nèi)有不少數(shù)據(jù)庫公司的產(chǎn)品就是基于Postgre哦。
數(shù)據(jù)庫三大陣營:傳統(tǒng)廠商和云服務(wù)提供商
前面在討論市場份額時,我提到過交易型數(shù)據(jù)庫的4個巨頭仍然是Oracle、微軟、IBM和SAP,在這里William Blair將他們歸為第一陣營。
隨著云平臺的不斷興起,AWS、Azure和GCP(Google Cloud Platform)組成了另一個陣營,在國外分析師的眼里還沒有BAT,就像有的朋友所說,國內(nèi)互聯(lián)網(wǎng)巨頭更多是自身業(yè)務(wù)導(dǎo)向的,在本土發(fā)展公有云還有些優(yōu)勢,短時間內(nèi)將技術(shù)輸出到國外的難度應(yīng)該還比較大。(當(dāng)然我并不認為國內(nèi)缺優(yōu)秀的DBA和研發(fā)人才)
第三個陣容就是規(guī)模小一些,但比較專注的數(shù)據(jù)庫玩家。
接下來我再帶大家簡單過一下這前兩個陣容,看看具體的數(shù)據(jù)庫產(chǎn)品都有哪些。
甲骨文的產(chǎn)品,我相對熟悉一些的有Oracle Database、MySQL以及Exadata一體機。
IBM DB2也是一個龐大的家族,除了傳統(tǒng)針對小型機、x86(好像用的人不多)、z/OS大型機和for i的版本之外,如今也有了針對云和數(shù)據(jù)挖掘的產(chǎn)品。記得抱枕大師對Informix的技術(shù)比較推崇,可惜這個產(chǎn)品發(fā)展似乎不太理想。
微軟除了看家的SQL Server之外,在Azure云上還能提供MySQL、PostgreSQL和MariaDB開源數(shù)據(jù)庫。應(yīng)該說他們是傳統(tǒng)軟件License+PaaS服務(wù)兩條腿走路的。
如今人們一提起SAP的數(shù)據(jù)庫就想起HANA,之前從Sybase收購來的ASE(Adaptive Server Enterprise)和IQ似乎沒有之前發(fā)展好了。
在云服務(wù)提供商數(shù)據(jù)庫的3巨頭中,微軟有SQL Server的先天優(yōu)勢,甚至把它移植到了Linux擁抱開源平臺。關(guān)系型數(shù)據(jù)庫的創(chuàng)新方面值得一提的是Amazon Aurora和Google Spanner(也有非關(guān)系型特性),至于它們具體好在哪里我就不裝內(nèi)行了:)
非關(guān)系型數(shù)據(jù)庫則是Amazon全面開花,這與其云計算業(yè)務(wù)發(fā)展早并且占據(jù)優(yōu)勢有關(guān)。Google當(dāng)年的三篇經(jīng)典論文對業(yè)界影響深遠,Yahoo基于此開源的Hadoop有一段時間幾乎是大數(shù)據(jù)的代名詞。HBase和Hive如今已不再是人們討論的熱點,而Bigtable和BigQuery似乎仍然以服務(wù)Google自身業(yè)務(wù)為主,畢竟GCP的規(guī)模比AWS要小多了。
最后這張DB-Engines的排行榜,相信許多朋友都不陌生,今年3月已經(jīng)不是最新的數(shù)據(jù),在這里列出只是給大家一個參考。該排行榜幾乎在每次更新時,都會有國內(nèi)數(shù)據(jù)庫專家撰寫點評。
以上是我周末的學(xué)習(xí)筆記,班門弄斧,希望對大家有幫助。
參考資料《Database Software Market:The Long-Awaited Shake-up》
擴展閱讀:《 數(shù)據(jù)庫存儲:互相最想知道的事 》
尊重知識,轉(zhuǎn)載時請保留全文。感謝您的閱讀和支持!