數(shù)據(jù)分庫(kù)表擴(kuò)容-數(shù)據(jù)不均勻問(wèn)題 原創(chuàng)
站在用戶的角度思考問(wèn)題,與客戶深入溝通,找到五蓮網(wǎng)站設(shè)計(jì)與五蓮網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類型包括:成都網(wǎng)站建設(shè)、成都做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、域名與空間、網(wǎng)頁(yè)空間、企業(yè)郵箱。業(yè)務(wù)覆蓋五蓮地區(qū)。
2021-12-22 22:18:13
?
這是王姑娘的微博 ?
碼齡10年
關(guān)注
假如前期分三個(gè)庫(kù),一個(gè)庫(kù)兩個(gè)表,項(xiàng)目火爆,數(shù)據(jù)量激增,進(jìn)行擴(kuò)容
增加了新的數(shù)據(jù)庫(kù)表位,會(huì)導(dǎo)致舊的庫(kù)表比新的庫(kù)表數(shù)據(jù)量多,且容易出現(xiàn)超載情況
?
解決方式思想:
不同的庫(kù)表位分配的概率不一樣,性能好的機(jī)器和數(shù)據(jù)量少的機(jī)器提高分配幾率,類似的中間件應(yīng)用場(chǎng)景有nginx
類似這種:
Nginx常見(jiàn)的負(fù)載均衡策略
節(jié)點(diǎn)輪詢(默認(rèn))
weight 權(quán)重配置
簡(jiǎn)介:weight和訪問(wèn)比率成正比,數(shù)字越大,分配得到的流量越高
場(chǎng)景:服務(wù)器性能差異大的情況使用
upstream lbs {
server 192.168.159.133:8080 weight=5;
server 192.168.159.133:8081 weight=10;
}
在分庫(kù)表中的加權(quán)解決方式,目前想到的幾種方案:
庫(kù)表位可以使用對(duì)象形式,配置權(quán)重,避免數(shù)據(jù)傾斜、數(shù)據(jù)集中(思考中...)
編寫算法,根據(jù)不同的,配置權(quán)重,不同的庫(kù)表位配置不同的權(quán)重(思考中...)
加權(quán)配置,list重復(fù)添加出現(xiàn)的高頻的庫(kù)表位(更改速度最快)
例如:dbPrefixList.add("0"); dbPrefixList.add("1"); dbPrefixList.add("a");
這三個(gè)庫(kù)是第一批增加的,已經(jīng)到了900多萬(wàn)單表量?,F(xiàn)在準(zhǔn)備進(jìn)行擴(kuò)容,那么實(shí)現(xiàn)方式如下:
擴(kuò)容庫(kù)位b,c,d
?
/**
* 獲取隨機(jī)的前綴
* @return
*/
public static String getRandomDBPrefix(){
int index = random.nextInt(dbPrefixList.size());
return dbPrefixList.get(index);
}
這樣在獲取隨機(jī)庫(kù)位的時(shí)候,0,1,a獲取到的概率會(huì)低點(diǎn),相對(duì)進(jìn)入的數(shù)據(jù)就會(huì)少些。更多數(shù)據(jù)會(huì)進(jìn)入到b ,c,d中進(jìn)行平衡。
1,接收到sql;2,把sql放到排隊(duì)隊(duì)列中 ;3,執(zhí)行sql;4,返回執(zhí)行結(jié)果。在這個(gè)執(zhí)行過(guò)程中最花時(shí)間在什么地方呢?第一,是排隊(duì)等待的時(shí)間,第二,sql的執(zhí)行時(shí)間。其實(shí)這二個(gè)是一回事,等待的同時(shí),肯定有sql在執(zhí)行。所以我們要縮短sql的執(zhí)行時(shí)間。
mysql中有一種機(jī)制是表鎖定和行鎖定,為什么要出現(xiàn)這種機(jī)制,是為了保證數(shù)據(jù)的完整 性,我舉個(gè)例子來(lái)說(shuō)吧,如果有二個(gè)sql都要修改同一張表的同一條數(shù)據(jù),這個(gè)時(shí)候怎么辦呢,是不是二個(gè)sql都可以同時(shí)修改這條數(shù)據(jù)呢?很顯然mysql 對(duì)這種情況的處理是,一種是表鎖定(myisam存儲(chǔ)引擎),一個(gè)是行鎖定(innodb存儲(chǔ)引擎)。表鎖定表示你們都不能對(duì)這張表進(jìn)行操作,必須等我對(duì) 表操作完才行。行鎖定也一樣,別的sql必須等我對(duì)這條數(shù)據(jù)操作完了,才能對(duì)這條數(shù)據(jù)進(jìn)行操作。如果數(shù)據(jù)太多,一次執(zhí)行的時(shí)間太長(zhǎng),等待的時(shí)間就越長(zhǎng),這 也是我們?yōu)槭裁匆直淼脑颉?/p>
分表是分散數(shù)據(jù)庫(kù)壓力的好方法。
分表,最直白的意思,就是將一個(gè)表結(jié)構(gòu)分為多個(gè)表,然后,可以再同一個(gè)庫(kù)里,也可以放到不同的庫(kù)。
當(dāng)然,首先要知道什么情況下,才需要分表。個(gè)人覺(jué)得單表記錄條數(shù)達(dá)到百萬(wàn)到千萬(wàn)級(jí)別時(shí)就要使用分表了。
分表的分類
**1、縱向分表**
將本來(lái)可以在同一個(gè)表的內(nèi)容,人為劃分為多個(gè)表。(所謂的本來(lái),是指按照關(guān)系型數(shù)據(jù)庫(kù)的第三范式要求,是應(yīng)該在同一個(gè)表的。)
分表理由:根據(jù)數(shù)據(jù)的活躍度進(jìn)行分離,(因?yàn)椴煌钴S的數(shù)據(jù),處理方式是不同的)
案例:
對(duì)于一個(gè)博客系統(tǒng),文章標(biāo)題,作者,分類,創(chuàng)建時(shí)間等,是變化頻率慢,查詢次數(shù)多,而且最好有很好的實(shí)時(shí)性的數(shù)據(jù),我們把它叫做冷數(shù)據(jù)。而博客的瀏覽量,回復(fù)數(shù)等,類似的統(tǒng)計(jì)信息,或者別的變化頻率比較高的數(shù)據(jù),我們把它叫做活躍數(shù)據(jù)。所以,在進(jìn)行數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)的時(shí)候,就應(yīng)該考慮分表,首先是縱向分表的處理。
這樣縱向分表后:
首先存儲(chǔ)引擎的使用不同,冷數(shù)據(jù)使用MyIsam 可以有更好的查詢數(shù)據(jù)。活躍數(shù)據(jù),可以使用Innodb ,可以有更好的更新速度。
其次,對(duì)冷數(shù)據(jù)進(jìn)行更多的從庫(kù)配置,因?yàn)楦嗟牟僮鲿r(shí)查詢,這樣來(lái)加快查詢速度。對(duì)熱數(shù)據(jù),可以相對(duì)有更多的主庫(kù)的橫向分表處理。
其實(shí),對(duì)于一些特殊的活躍數(shù)據(jù),也可以考慮使用memcache ,redis之類的緩存,等累計(jì)到一定量再去更新數(shù)據(jù)庫(kù)?;蛘適ongodb 一類的nosql 數(shù)據(jù)庫(kù),這里只是舉例,就先不說(shuō)這個(gè)。
**2、橫向分表**
字面意思,就可以看出來(lái),是把大的表結(jié)構(gòu),橫向切割為同樣結(jié)構(gòu)的不同表,如,用戶信息表,user_1,user_2等。表結(jié)構(gòu)是完全一樣,但是,根據(jù)某些特定的規(guī)則來(lái)劃分的表,如根據(jù)用戶ID來(lái)取模劃分。
分表理由:根據(jù)數(shù)據(jù)量的規(guī)模來(lái)劃分,保證單表的容量不會(huì)太大,從而來(lái)保證單表的查詢等處理能力。
案例:同上面的例子,博客系統(tǒng)。當(dāng)博客的量達(dá)到很大時(shí)候,就應(yīng)該采取橫向分割來(lái)降低每個(gè)單表的壓力,來(lái)提升性能。例如博客的冷數(shù)據(jù)表,假如分為100個(gè)表,當(dāng)同時(shí)有100萬(wàn)個(gè)用戶在瀏覽時(shí),如果是單表的話,會(huì)進(jìn)行100萬(wàn)次請(qǐng)求,而現(xiàn)在分表后,就可能是每個(gè)表進(jìn)行1萬(wàn)個(gè)數(shù)據(jù)的請(qǐng)求(因?yàn)?,不可能絕對(duì)的平均,只是假設(shè)),這樣壓力就降低了很多很多。
延伸:為什么要分表和分區(qū)?
日常開(kāi)發(fā)中我們經(jīng)常會(huì)遇到大表的情況,所謂的大表是指存儲(chǔ)了百萬(wàn)級(jí)乃至千萬(wàn)級(jí)條記錄的表。這樣的表過(guò)于龐大,導(dǎo)致數(shù)據(jù)庫(kù)在查詢和插入的時(shí)候耗時(shí)太長(zhǎng),性能低下,如果涉及聯(lián)合查詢的情況,性能會(huì)更加糟糕。分表和表分區(qū)的目的就是減少數(shù)據(jù)庫(kù)的負(fù)擔(dān),提高數(shù)據(jù)庫(kù)的效率,通常點(diǎn)來(lái)講就是提高表的增刪改查效率。
什么是分表?
分表是將一個(gè)大表按照一定的規(guī)則分解成多張具有獨(dú)立存儲(chǔ)空間的實(shí)體表,我們可以稱為子表,每個(gè)表都對(duì)應(yīng)三個(gè)文件,MYD數(shù)據(jù)文件,.MYI索引文件,.frm表結(jié)構(gòu)文件。這些子表可以分布在同一塊磁盤上,也可以在不同的機(jī)器上。app讀寫的時(shí)候根據(jù)事先定義好的規(guī)則得到對(duì)應(yīng)的子表名,然后去操作它。
什么是分區(qū)?
分區(qū)和分表相似,都是按照規(guī)則分解表。不同在于分表將大表分解為若干個(gè)獨(dú)立的實(shí)體表,而分區(qū)是將數(shù)據(jù)分段劃分在多個(gè)位置存放,可以是同一塊磁盤也可以在不同的機(jī)器。分區(qū)后,表面上還是一張表,但數(shù)據(jù)散列到多個(gè)位置了。app讀寫的時(shí)候操作的還是大表名字,db自動(dòng)去組織分區(qū)的數(shù)據(jù)。
**MySQL分表和分區(qū)有什么聯(lián)系呢?**
1、都能提高mysql的性高,在高并發(fā)狀態(tài)下都有一個(gè)良好的表現(xiàn)。
2、分表和分區(qū)不矛盾,可以相互配合的,對(duì)于那些大訪問(wèn)量,并且表數(shù)據(jù)比較多的表,我們可以采取分表和分區(qū)結(jié)合的方式(如果merge這種分表方式,不能和分區(qū)配合的話,可以用其他的分表試),訪問(wèn)量不大,但是表數(shù)據(jù)很多的表,我們可以采取分區(qū)的方式等。
3、分表技術(shù)是比較麻煩的,需要手動(dòng)去創(chuàng)建子表,app服務(wù)端讀寫時(shí)候需要計(jì)算子表名。采用merge好一些,但也要?jiǎng)?chuàng)建子表和配置子表間的union關(guān)系。
4、表分區(qū)相對(duì)于分表,操作方便,不需要?jiǎng)?chuàng)建子表。
我們知道對(duì)于大型的互聯(lián)網(wǎng)應(yīng)用,數(shù)據(jù)庫(kù)單表的數(shù)據(jù)量可能達(dá)到千萬(wàn)甚至上億級(jí)別,同時(shí)面臨這高并發(fā)的壓力。Master-Slave結(jié)構(gòu)只能對(duì)數(shù)據(jù)庫(kù)的讀能力進(jìn)行擴(kuò)展,寫操作還是集中在Master中,Master并不能無(wú)限制的掛接Slave庫(kù),如果需要對(duì)數(shù)據(jù)庫(kù)的吞吐能力進(jìn)行進(jìn)一步的擴(kuò)展,可以考慮采用分庫(kù)分表的策略。
**1、分表**
在分表之前,首先要選中合適的分表策略(以哪個(gè)字典為分表字段,需要將數(shù)據(jù)分為多少?gòu)埍恚?,使?shù)據(jù)能夠均衡的分布在多張表中,并且不影響正常的查詢。在企業(yè)級(jí)應(yīng)用中,往往使用org_id(組織主鍵)做為分表字段,在互聯(lián)網(wǎng)應(yīng)用中往往是userid。在確定分表策略后,當(dāng)數(shù)據(jù)進(jìn)行存儲(chǔ)及查詢時(shí),需要確定到哪張表里去查找數(shù)據(jù),
數(shù)據(jù)存放的數(shù)據(jù)表 = 分表字段的內(nèi)容 % 分表數(shù)量
**2、分庫(kù)**
分表能夠解決單表數(shù)據(jù)量過(guò)大帶來(lái)的查詢效率下降的問(wèn)題,但是不能給數(shù)據(jù)庫(kù)的并發(fā)訪問(wèn)帶來(lái)質(zhì)的提升,面對(duì)高并發(fā)的寫訪問(wèn),當(dāng)Master無(wú)法承擔(dān)高并發(fā)的寫入請(qǐng)求時(shí),不管如何擴(kuò)展Slave服務(wù)器,都沒(méi)有意義了。我們通過(guò)對(duì)數(shù)據(jù)庫(kù)進(jìn)行拆分,來(lái)提高數(shù)據(jù)庫(kù)的寫入能力,即所謂的分庫(kù)。分庫(kù)采用對(duì)關(guān)鍵字取模的方式,對(duì)數(shù)據(jù)庫(kù)進(jìn)行路由。
數(shù)據(jù)存放的數(shù)據(jù)庫(kù)=分庫(kù)字段的內(nèi)容%數(shù)據(jù)庫(kù)的數(shù)量
**3、即分表又分庫(kù)**
數(shù)據(jù)庫(kù)分表可以解決單表海量數(shù)據(jù)的查詢性能問(wèn)題,分庫(kù)可以解決單臺(tái)數(shù)據(jù)庫(kù)的并發(fā)訪問(wèn)壓力問(wèn)題。
當(dāng)數(shù)據(jù)庫(kù)同時(shí)面臨海量數(shù)據(jù)存儲(chǔ)和高并發(fā)訪問(wèn)的時(shí)候,需要同時(shí)采取分表和分庫(kù)策略。一般分表分庫(kù)策略如下:
中間變量 = 關(guān)鍵字%(數(shù)據(jù)庫(kù)數(shù)量*單庫(kù)數(shù)據(jù)表數(shù)量)
庫(kù) = 取整(中間變量/單庫(kù)數(shù)據(jù)表數(shù)量)
表 = (中間變量%單庫(kù)數(shù)據(jù)表數(shù)量)
實(shí)例:
1、分庫(kù)分表
很明顯,一個(gè)主表(也就是很重要的表,例如用戶表)無(wú)限制的增長(zhǎng)勢(shì)必嚴(yán)重影響性能,分庫(kù)與分表是一個(gè)很不錯(cuò)的解決途徑,也就是性能優(yōu)化途徑,現(xiàn)在的案例是我們有一個(gè)1000多萬(wàn)條記錄的用戶表members,查詢起來(lái)非常之慢,同事的做法是將其散列到100個(gè)表中,分別從members0到members99,然后根據(jù)mid分發(fā)記錄到這些表中,牛逼的代碼大概是這樣子:
復(fù)制代碼 代碼如下:
?php
for($i=0;$i 100; $i++ ){
//echo "CREATE TABLE db2.members{$i} LIKE db1.members
";
echo "INSERT INTO members{$i} SELECT * FROM members WHERE mid%100={$i}
";
}
?
2、不停機(jī)修改mysql表結(jié)構(gòu)
同樣還是members表,前期設(shè)計(jì)的表結(jié)構(gòu)不盡合理,隨著數(shù)據(jù)庫(kù)不斷運(yùn)行,其冗余數(shù)據(jù)也是增長(zhǎng)巨大,同事使用了下面的方法來(lái)處理:
先創(chuàng)建一個(gè)臨時(shí)表:
/*創(chuàng)建臨時(shí)表*/
CREATE TABLE members_tmp LIKE members
然后修改members_tmp的表結(jié)構(gòu)為新結(jié)構(gòu),接著使用上面那個(gè)for循環(huán)來(lái)導(dǎo)出數(shù)據(jù),因?yàn)?000萬(wàn)的數(shù)據(jù)一次性導(dǎo)出是不對(duì)的,mid是主鍵,一個(gè)區(qū)間一個(gè)區(qū)間的導(dǎo),基本是一次導(dǎo)出5萬(wàn)條吧,這里略去了
接著重命名將新表替換上去:
/*這是個(gè)頗為經(jīng)典的語(yǔ)句哈*/
RENAME TABLE members TO members_bak,members_tmp TO members;
就是這樣,基本可以做到無(wú)損失,無(wú)需停機(jī)更新表結(jié)構(gòu),但實(shí)際上RENAME期間表是被鎖死的,所以選擇在線少的時(shí)候操作是一個(gè)技巧。經(jīng)過(guò)這個(gè)操作,使得原先8G多的表,一下子變成了2G多。
mysql數(shù)據(jù)庫(kù)對(duì)1億條數(shù)據(jù)的分表方法設(shè)計(jì):
目前針對(duì)海量數(shù)據(jù)的優(yōu)化有兩種方法:
(1)垂直分割
優(yōu)勢(shì):降低高并發(fā)情況下,對(duì)于表的鎖定。
不足:對(duì)于單表來(lái)說(shuō),隨著數(shù)據(jù)庫(kù)的記錄增多,讀寫壓力將進(jìn)一步增大。
(2)水平分割
如果單表的IO壓力大,可以考慮用水平分割,其原理就是通過(guò)hash算法,將一張表分為N多頁(yè),并通過(guò)一個(gè)新的表(總表),記錄著每個(gè)頁(yè)的的位置。
假如一個(gè)門戶網(wǎng)站,它的數(shù)據(jù)庫(kù)表已經(jīng)達(dá)到了1億條記錄,那么此時(shí)如果通過(guò)select去查詢,必定會(huì)效率低下(不做索引的前提下)。為了降低單表的讀寫IO壓力,通過(guò)水平分割,將這個(gè)表分成10個(gè)頁(yè),同時(shí)生成一個(gè)總表,記錄各個(gè)頁(yè)的信息,那么假如我查詢一條id=100的記錄,它不再需要全表掃描,而是通過(guò)總表找到該記錄在哪個(gè)對(duì)應(yīng)的頁(yè)上,然后再去相應(yīng)的頁(yè)做檢索,這樣就降低了IO壓力。