一、轉(zhuǎn)碼失敗
創(chuàng)新互聯(lián)公司-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比藁城網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫(kù),直接使用。一站式藁城網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋藁城地區(qū)。費(fèi)用合理售后完善,十多年實(shí)體公司更值得信賴。
在數(shù)據(jù)寫入到表的過程中轉(zhuǎn)碼失敗,數(shù)據(jù)庫(kù)端也沒有進(jìn)行恰當(dāng)?shù)奶幚恚瑢?dǎo)致存放在表里的數(shù)據(jù)亂碼。
針對(duì)這種情況,前幾篇文章介紹過客戶端發(fā)送請(qǐng)求到服務(wù)端。
其中任意一個(gè)編碼不一致,都會(huì)導(dǎo)致表里的數(shù)據(jù)存入不正確的編碼而產(chǎn)生亂碼。
比如下面簡(jiǎn)單一條語句:
set @a = "文本字符串";
insert into t1 values(@a);
變量 @a 的字符編碼是由參數(shù) CHARACTER_SET_CLIENT 決定的,假設(shè)此時(shí)編碼為 A,也就是變量 @a 的編碼。
2. 寫入語句在發(fā)送到 MySQL 服務(wù)端之前的編碼由 CHARACTER_SET_CONNECTION 決定,假設(shè)此時(shí)編碼為 B。
3. 經(jīng)過 MySQL 一系列詞法,語法解析等處理后,寫入到表 t1,表 t1 的編碼為 C。
那這里編碼 A、編碼 B、編碼 C 如果不兼容,寫入的數(shù)據(jù)就直接亂碼。
二、客戶端亂碼
表數(shù)據(jù)正常,但是客戶端展示后出現(xiàn)亂碼。
這一類場(chǎng)景,指的是從 MySQL 表里拿數(shù)據(jù)出來返回到客戶端,MySQL 里的數(shù)據(jù)本身沒有問題??蛻舳税l(fā)送請(qǐng)求到 MySQL,表的編碼為 D,從 MySQL 拿到記錄結(jié)果傳輸?shù)娇蛻舳?,此時(shí)記錄編碼為 E(CHARACTER_SET_RESULTS)。
那以上編碼 E 和 D 如果不兼容,檢索出來的數(shù)據(jù)就看起來亂碼了。但是由于數(shù)據(jù)本身沒有被破壞,所以換個(gè)兼容的編碼就可以獲取正確的結(jié)果。
這一類又分為以下三個(gè)不同的小類:
1)字段編碼和表一致,客戶端是不同的編碼
比如下面例子, 表數(shù)據(jù)的編碼是 utf8mb4,而 SESSION 1 發(fā)起的連接編碼為 gbk。那由于編碼不兼容,檢索出來的數(shù)據(jù)肯定為亂碼。
2)表編碼和客戶端的編碼一致,但是記錄之間編碼存在不一致的情形
比如表編碼是 utf8mb4,應(yīng)用端編碼也是 utf8mb4,但是表里的數(shù)據(jù)可能一半編碼是 utf8mb4,另外一半是 gbk。那么此時(shí)表的數(shù)據(jù)也是正常的,不過此時(shí)采用哪種編碼都讀不到所有完整的數(shù)據(jù)。這樣數(shù)據(jù)產(chǎn)生的原因很多,比如其中一種可能性就是表編碼多次變更而且每次變更不徹底導(dǎo)致(變更不徹底,我之前的篇章里有介紹)。舉個(gè)例子,表 t3 的編碼之前是 utf8mb4,現(xiàn)在是 gbk,而且兩次編碼期間都被寫入了正常的數(shù)據(jù)。
3)每個(gè)字段的編碼不一致,導(dǎo)致亂碼和第二點(diǎn)一樣的場(chǎng)景。不同的是:非記錄間的編碼不統(tǒng)一,而是每個(gè)字段編碼不統(tǒng)一。舉個(gè)例子,表 c1 字段 a1,a2。a1 編碼 gbk,a2 編碼是 utf8mb4。那每個(gè)字段單獨(dú)讀出來數(shù)據(jù)是完整的,但是所有字段一起讀出來,數(shù)據(jù)總會(huì)有一部分亂碼。
三、LATIN1
還有一種情形就是以 LATIN1 的編碼存儲(chǔ)數(shù)據(jù)
估計(jì)大家都知道字符集 LATIN1,LATIN1 對(duì)所有字符都是單字節(jié)流處理,遇到不能處理的字節(jié)流,保持原樣,那么在以上兩種存入和檢索的過程中都能保證數(shù)據(jù)一致,所以 MySQL 長(zhǎng)期以來默認(rèn)的編碼都是 LATIN1。這種情形,看起來也沒啥不對(duì)的點(diǎn),數(shù)據(jù)也沒亂碼,那為什么還有選用其他的編碼呢?原因就是對(duì)字符存儲(chǔ)的字節(jié)數(shù)不一樣,比如 emoji 字符 "?",如果用 utf8mb4 存儲(chǔ),占用 3 個(gè)字節(jié),那 varchar(12) 就能存放 12 個(gè)字符,但是換成 LATIN1,只能存 4 個(gè)字符。
說明 : string1,string2代表字符串,concat函數(shù)在連接字符串的時(shí)候,只要其中一個(gè)是NULL,那么將返回NULL
結(jié)果:
說明:將多個(gè)字符串連接成一個(gè)字符串,但是可以一次性指定分隔符~(concat_ws就是concat with separator)
GROUP_CONCAT([DISTINCT] expr [,expr ...] [ORDER BY {unsigned_integer | col_name | expr} [ASC | DESC] [,col_name ...]] [SEPARATOR str_val])
說明:
DISTINCT:去除重復(fù)值
expr [,expr ...]:一個(gè)或多個(gè)字段(或表達(dá)式)
ORDER BY {unsigned_integer | col_name | expr} [ASC | DESC] [,col_name ...]:根據(jù)字段或表達(dá)式進(jìn)行排序,可多個(gè)
SEPARATOR str_val:分隔符(默認(rèn)為英文逗號(hào))
group_concat()函數(shù)在處理大數(shù)據(jù)的時(shí)候,會(huì)發(fā)現(xiàn)內(nèi)容被截取了
其實(shí)MYSQL內(nèi)部對(duì)這個(gè)是有設(shè)置的,默認(rèn)不設(shè)置的長(zhǎng)度是1024,如果我們需要更大,就需要手工去修改配置文件
數(shù)學(xué)函數(shù):用來處理數(shù)值數(shù)據(jù),主要有3類-取整函數(shù)(ROUND()、CEIL()、FLOOR())、絕對(duì)值函數(shù)(ABS())、求余函數(shù)(MOD())
字符串函數(shù)官方文檔:
字符串函數(shù)主要用到4種函數(shù):CAST()、CONCAT()、CHAR_LENGTH()、SPACE()。
IF(表達(dá)式,V1,V2):如果表達(dá)式為真,則返回V1,否則返回V2。
IFNULL(V1,V2):如果V1的值不為空,則返回V1,否則返回V2。
總結(jié)一下:
mysql中replace只能替換既定字符串,如:
UPDATE`web_article`SETbody=REPLACE(body,'div','body');1
所以對(duì)于需要替換特定部分變化的字符串則顯得無能為力,如:
BaseURI;/BaseURIRULE政民互動(dòng)/RULESOURCE北京市經(jīng)濟(jì)和信息化委員會(huì)/SOURCEWEBROOT;/WEBROOTDISKROOTD:oot/DISKROOT
其實(shí)你的兩種方案都可以,第二種也挺好的,以前我一般都用方案一那種,都存到數(shù)據(jù)庫(kù)里,我沒有測(cè)試過超長(zhǎng)字符串存到數(shù)據(jù)庫(kù)中的查詢效率,和內(nèi)存問題,不過你也可以這兩種方案都用,過大的就存文件,小的就存數(shù)據(jù)庫(kù),用個(gè)字段做標(biāo)識(shí)就行