單表一億?還是全庫1億?
在都蘭等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場(chǎng)前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供成都網(wǎng)站設(shè)計(jì)、網(wǎng)站制作 網(wǎng)站設(shè)計(jì)制作按需制作網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),品牌網(wǎng)站設(shè)計(jì),全網(wǎng)整合營(yíng)銷推廣,成都外貿(mào)網(wǎng)站建設(shè),都蘭網(wǎng)站建設(shè)費(fèi)用合理。
1.首先可以考慮業(yè)務(wù)層面優(yōu)化,即垂直分表。
垂直分表就是把一個(gè)數(shù)據(jù)量很大的表,可以按某個(gè)字段的屬性或使用頻繁程度分類,拆分為多個(gè)表。
如有多種業(yè)務(wù)類型,每種業(yè)務(wù)類型入不同的表,table1,table2,table3.
如果日常業(yè)務(wù)不需要使用所有數(shù)據(jù),可以按時(shí)間分表,比如說月表。每個(gè)表只存一個(gè)月記錄。
2.架構(gòu)上的優(yōu)化,即水平分表。
水平分表就是根據(jù)一列或多列數(shù)據(jù)的值把數(shù)據(jù)行放到多個(gè)獨(dú)立的表里,這里不具備業(yè)務(wù)意義。
如按照id分表,末尾是0-9的數(shù)據(jù)分別插入到10個(gè)表里面。
可能你要問,這樣看起來和剛才說的垂直分表沒什么區(qū)別。只不過是否具備業(yè)務(wù)意義的差異,都是按字段的值來分表。
實(shí)際上,水平分表現(xiàn)在最流行的實(shí)現(xiàn)方式,是通過水平分庫來實(shí)現(xiàn)的。即剛才所說的10個(gè)表,分布在10個(gè)mysql數(shù)據(jù)庫上。這樣可以通過多個(gè)低配置主機(jī)整合起來,實(shí)現(xiàn)高性能。
最常見的解決方案是cobar,這個(gè)帖子介紹的比較完善,可以看看。
cobar的邏輯層次圖:
不過這種分庫方式也是有一定局限性的,需要應(yīng)用程序做相應(yīng)的配合,比如說分庫的情況下,雖然可以實(shí)現(xiàn)跨庫查詢,但是不能進(jìn)行相關(guān)的group by計(jì)算。
另外,之前關(guān)于水平分表的實(shí)現(xiàn)方式,也可以通過表分區(qū)來實(shí)現(xiàn)。
mysql優(yōu)化的方式有很多,選擇上主要還是要考慮個(gè)人的實(shí)際情況,如代碼不可控的情況下,就不適合選擇按字段屬性分表的情況,這樣可能會(huì)帶來大量的重構(gòu)以及很多不可預(yù)期的風(fēng)險(xiǎn)。
而架構(gòu)的優(yōu)化,雖然對(duì)應(yīng)用是透明的,但對(duì)sql的寫法有很多局限性,比如說不能使用聚合函數(shù)等等,同時(shí)也需要有充足的硬件資源,只有一臺(tái)服務(wù)器的情況下是沒有意義的。
相比起來,代價(jià)最低的是按時(shí)間分表或分區(qū),這兩種辦法對(duì)應(yīng)用來說都是透明的。
分區(qū)只需要一次本地?cái)?shù)據(jù)遷移的操作。
而通過分表把現(xiàn)網(wǎng)數(shù)據(jù)和歷史數(shù)據(jù)分離,唯一的代價(jià)是定期的數(shù)據(jù)維護(hù)。
一般如果表里面有1億數(shù)據(jù)的情況下,索引的問題應(yīng)該是常識(shí)了,這方面我就不說了。
1、數(shù)據(jù)表 collect ( id, title ,info ,vtype) 就這4個(gè)字段,其中 title 用定長(zhǎng),info 用text, id 是逐漸,vtype是tinyint,vtype是索引。這是一個(gè)基本的新聞系統(tǒng)的簡(jiǎn)單模型?,F(xiàn)在往里面填充數(shù)據(jù),填充10萬篇新聞?!?/p>
2、最后collect 為 10萬條記錄,數(shù)據(jù)庫表占用硬盤1.6G。OK ,看下面這條sql語句:select id,title from collect limit 1000,10; 很快;基本上0.01秒就OK,再看下面的select id,title from collect limit 90000,10; 從9萬條開始分頁。
3、8-9秒完成。
4、看下面一條語句:select id from collect order by id limit 90000,10; 很快,0.04秒就OK。因?yàn)橛昧薸d主鍵做索引當(dāng)然快。
分庫分表
你需要設(shè)計(jì)一條規(guī)則,根據(jù)主鍵去計(jì)算到那個(gè)庫下的哪個(gè)表中去查找數(shù)據(jù)。
一個(gè)表存儲(chǔ)1億條數(shù)據(jù)不現(xiàn)實(shí),根本沒法用
給你個(gè)思想:你可以分多臺(tái)機(jī)器進(jìn)行存儲(chǔ)。 然后你查詢或者存儲(chǔ)數(shù)據(jù)的時(shí)候,根據(jù)主鍵來解析到底放在哪個(gè)機(jī)器里的哪個(gè)庫中哪個(gè)張表中。
你命名庫的時(shí)候一定要有順序和規(guī)則,表也一樣,將每一個(gè)表的數(shù)據(jù)控制在30萬條記錄以內(nèi)。
mysql數(shù)據(jù)庫對(duì)1億條數(shù)據(jù)的分表方法設(shè)計(jì):
目前針對(duì)海量數(shù)據(jù)的優(yōu)化有兩種方法:
(1)垂直分割
優(yōu)勢(shì):降低高并發(fā)情況下,對(duì)于表的鎖定。
不足:對(duì)于單表來說,隨著數(shù)據(jù)庫的記錄增多,讀寫壓力將進(jìn)一步增大。
(2)水平分割
如果單表的IO壓力大,可以考慮用水平分割,其原理就是通過hash算法,將一張表分為N多頁,并通過一個(gè)新的表(總表),記錄著每個(gè)頁的的位置。
假如一個(gè)門戶網(wǎng)站,它的數(shù)據(jù)庫表已經(jīng)達(dá)到了1億條記錄,那么此時(shí)如果通過select去查詢,必定會(huì)效率低下(不做索引的前提下)。為了降低單表的讀寫IO壓力,通過水平分割,將這個(gè)表分成10個(gè)頁,同時(shí)生成一個(gè)總表,記錄各個(gè)頁的信息,那么假如我查詢一條id=100的記錄,它不再需要全表掃描,而是通過總表找到該記錄在哪個(gè)對(duì)應(yīng)的頁上,然后再去相應(yīng)的頁做檢索,這樣就降低了IO壓力。