一、轉(zhuǎn)碼失敗
創(chuàng)新互聯(lián)建站從2013年開始,先為云南等服務(wù)建站,云南等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為云南企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。
在數(shù)據(jù)寫入到表的過程中轉(zhuǎn)碼失敗,數(shù)據(jù)庫端也沒有進(jìn)行恰當(dāng)?shù)奶幚?,?dǎo)致存放在表里的數(shù)據(jù)亂碼。
針對這種情況,前幾篇文章介紹過客戶端發(fā)送請求到服務(wù)端。
其中任意一個編碼不一致,都會導(dǎo)致表里的數(shù)據(jù)存入不正確的編碼而產(chǎn)生亂碼。
比如下面簡單一條語句:
set @a = "文本字符串";
insert into t1 values(@a);
變量 @a 的字符編碼是由參數(shù) CHARACTER_SET_CLIENT 決定的,假設(shè)此時編碼為 A,也就是變量 @a 的編碼。
2. 寫入語句在發(fā)送到 MySQL 服務(wù)端之前的編碼由 CHARACTER_SET_CONNECTION 決定,假設(shè)此時編碼為 B。
3. 經(jīng)過 MySQL 一系列詞法,語法解析等處理后,寫入到表 t1,表 t1 的編碼為 C。
那這里編碼 A、編碼 B、編碼 C 如果不兼容,寫入的數(shù)據(jù)就直接亂碼。
二、客戶端亂碼
表數(shù)據(jù)正常,但是客戶端展示后出現(xiàn)亂碼。
這一類場景,指的是從 MySQL 表里拿數(shù)據(jù)出來返回到客戶端,MySQL 里的數(shù)據(jù)本身沒有問題??蛻舳税l(fā)送請求到 MySQL,表的編碼為 D,從 MySQL 拿到記錄結(jié)果傳輸?shù)娇蛻舳?,此時記錄編碼為 E(CHARACTER_SET_RESULTS)。
那以上編碼 E 和 D 如果不兼容,檢索出來的數(shù)據(jù)就看起來亂碼了。但是由于數(shù)據(jù)本身沒有被破壞,所以換個兼容的編碼就可以獲取正確的結(jié)果。
這一類又分為以下三個不同的小類:
1)字段編碼和表一致,客戶端是不同的編碼
比如下面例子, 表數(shù)據(jù)的編碼是 utf8mb4,而 SESSION 1 發(fā)起的連接編碼為 gbk。那由于編碼不兼容,檢索出來的數(shù)據(jù)肯定為亂碼。
2)表編碼和客戶端的編碼一致,但是記錄之間編碼存在不一致的情形
比如表編碼是 utf8mb4,應(yīng)用端編碼也是 utf8mb4,但是表里的數(shù)據(jù)可能一半編碼是 utf8mb4,另外一半是 gbk。那么此時表的數(shù)據(jù)也是正常的,不過此時采用哪種編碼都讀不到所有完整的數(shù)據(jù)。這樣數(shù)據(jù)產(chǎn)生的原因很多,比如其中一種可能性就是表編碼多次變更而且每次變更不徹底導(dǎo)致(變更不徹底,我之前的篇章里有介紹)。舉個例子,表 t3 的編碼之前是 utf8mb4,現(xiàn)在是 gbk,而且兩次編碼期間都被寫入了正常的數(shù)據(jù)。
3)每個字段的編碼不一致,導(dǎo)致亂碼和第二點(diǎn)一樣的場景。不同的是:非記錄間的編碼不統(tǒng)一,而是每個字段編碼不統(tǒng)一。舉個例子,表 c1 字段 a1,a2。a1 編碼 gbk,a2 編碼是 utf8mb4。那每個字段單獨(dú)讀出來數(shù)據(jù)是完整的,但是所有字段一起讀出來,數(shù)據(jù)總會有一部分亂碼。
三、LATIN1
還有一種情形就是以 LATIN1 的編碼存儲數(shù)據(jù)
估計大家都知道字符集 LATIN1,LATIN1 對所有字符都是單字節(jié)流處理,遇到不能處理的字節(jié)流,保持原樣,那么在以上兩種存入和檢索的過程中都能保證數(shù)據(jù)一致,所以 MySQL 長期以來默認(rèn)的編碼都是 LATIN1。這種情形,看起來也沒啥不對的點(diǎn),數(shù)據(jù)也沒亂碼,那為什么還有選用其他的編碼呢?原因就是對字符存儲的字節(jié)數(shù)不一樣,比如 emoji 字符 "?",如果用 utf8mb4 存儲,占用 3 個字節(jié),那 varchar(12) 就能存放 12 個字符,但是換成 LATIN1,只能存 4 個字符。
MySQL會出現(xiàn)中文亂碼的原因不外乎下列幾點(diǎn):
1.server本身設(shè)定問題。
2.table的語系設(shè)定問題(包含character與collation)
3.客戶端程式(例如php)的連線語系設(shè)定問題強(qiáng)烈建議使用utf8。utf8可以兼容世界上所有字符!
一、避免創(chuàng)建數(shù)據(jù)庫及表出現(xiàn)中文亂碼和查看編碼方法
1、創(chuàng)建數(shù)據(jù)庫的時候:CREATE DATABASE `test`
CHARACTER SET 'utf8'
COLLATE 'utf8_general_ci';
2、建表的時候 CREATE TABLE `database_user` (
`ID` varchar(40) NOT NULL default '',
`UserID` varchar(40) NOT NULL default '',
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
這2個設(shè)置好了,基本就不會出問題了,即建庫和建表時都使用相同的編碼格式。
但是如果已經(jīng)建了庫和表可以通過以下方式進(jìn)行查詢。
1.查看默認(rèn)的編碼格式:
mysql show variables like "%char%";
+--------------------------+---------------+
| Variable_name | Value |
+--------------------------+---------------+
| character_set_client | gbk |
| character_set_connection | gbk |
| character_set_database | utf8 |
| character_set_filesystem | binary |
| character_set_results | gbk |
| character_set_server | utf8 |
| character_set_system | utf8 |
+--------------------------+-------------+
注:以前2個來確定,可以使用set names utf8,set names gbk設(shè)置默認(rèn)的編碼格式;
執(zhí)行SET NAMES utf8的效果等同于同時設(shè)定如下:
SET character_set_client='utf8';
SET character_set_connection='utf8';
SET character_set_results='utf8';
2.查看test數(shù)據(jù)庫的編碼格式:
mysql show create database test;
+------------+------------------------------------------------------------------------------------------------+
| Database | Create Database |
+------------+------------------------------------------------------------------------------------------------+
| test | CREATE DATABASE `test` /*!40100 DEFAULT CHARACTER SET gbk */ |
+------------+------------------------------------------------------------------------------------------------+
3.查看yjdb數(shù)據(jù)庫的編碼格式:
mysql show create table yjdb;
| yjdb | CREATE TABLE `yjdb` (
`sn` int(5) NOT NULL AUTO_INCREMENT,
`type` varchar(10) NOT NULL,
`brc` varchar(6) NOT NULL,
`teller` int(6) NOT NULL,
`telname` varchar(10) NOT NULL,
`date` int(10) NOT NULL,
`count` int(6) NOT NULL,
`back` int(10) NOT NULL,
PRIMARY KEY (`sn`),
UNIQUE KEY `sn` (`sn`),
UNIQUE KEY `sn_2` (`sn`)
) ENGINE=MyISAM AUTO_INCREMENT=1826 DEFAULT CHARSET=gbk ROW_FORMAT=DYNAMIC |
二、避免導(dǎo)入數(shù)據(jù)有中文亂碼的問題
1:將數(shù)據(jù)編碼格式保存為utf-8
設(shè)置默認(rèn)編碼為utf8:
set names utf8;
設(shè)置數(shù)據(jù)庫db_name默認(rèn)為utf8:
ALTER DATABASE `db_name` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
設(shè)置表tb_name默認(rèn)編碼為utf8:
ALTER TABLE `tb_name` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
導(dǎo)入:
LOAD DATA LOCAL INFILE 'C:\\utf8.txt' INTO TABLE yjdb;
2:將數(shù)據(jù)編碼格式保存為ansi(即GBK或GB2312)
設(shè)置默認(rèn)編碼為gbk:
set names gbk;
設(shè)置數(shù)據(jù)庫db_name默認(rèn)編碼為gbk:
ALTER DATABASE `db_name` DEFAULT CHARACTER SET gbk COLLATE gbk_chinese_ci;
設(shè)置表tb_name默認(rèn)編碼為gbk:
ALTER TABLE `tb_name` DEFAULT CHARACTER SET gbk COLLATE gbk_chinese_ci;
導(dǎo)入:
LOAD DATA LOCAL INFILE 'C:\\gbk.txt' INTO TABLE yjdb;
注:1.UTF8不要導(dǎo)入gbk,gbk不要導(dǎo)入UTF8;
2.dos下不支持UTF8的顯示;
三、解決網(wǎng)頁中亂碼的問題
將網(wǎng)站編碼設(shè)為 utf-8,這樣可以兼容世界上所有字符。
如果網(wǎng)站已經(jīng)運(yùn)作了好久,已有很多舊數(shù)據(jù),不能再更改簡體中文的設(shè)定,那么建議將頁面的編碼設(shè)為 GBK, GBK與GB2312的區(qū)別就在于:GBK能比GB2312顯示更多的字符,要顯示簡體碼的繁體字,就只能用GBK。
1.編輯/etc/my.cnf ,在[mysql]段加入default_character_set=utf8;
2.在編寫Connection URL時,加上?useUnicode=truecharacterEncoding=utf-8參;
3.在網(wǎng)頁代碼中加上一個"set names utf8"或者"set names gbk"的指令,告訴MySQL連線內(nèi)容都要使用utf8或者gbk。
一、轉(zhuǎn)碼失敗
在數(shù)據(jù)寫入到表的過程中轉(zhuǎn)碼失敗,數(shù)據(jù)庫端也沒有進(jìn)行恰當(dāng)?shù)奶幚?,?dǎo)致存放在表里的數(shù)據(jù)亂碼。
針對這種情況,前幾篇文章介紹過客戶端發(fā)送請求到服務(wù)端。
其中任意一個編碼不一致,都會導(dǎo)致表里的數(shù)據(jù)存入不正確的編碼而產(chǎn)生亂碼。
比如下面簡單一條語句:
set @a = "文本字符串";
insert into t1 values(@a);
變量 @a 的字符編碼是由參數(shù) CHARACTER_SET_CLIENT 決定的,假設(shè)此時編碼為 A,也就是變量 @a 的編碼。
2. 寫入語句在發(fā)送到 MySQL 服務(wù)端之前的編碼由 CHARACTER_SET_CONNECTION 決定,假設(shè)此時編碼為 B。
3. 經(jīng)過 MySQL 一系列詞法,語法解析等處理后,寫入到表 t1,表 t1 的編碼為 C。
那這里編碼 A、編碼 B、編碼 C 如果不兼容,寫入的數(shù)據(jù)就直接亂碼。
二、客戶端亂碼
表數(shù)據(jù)正常,但是客戶端展示后出現(xiàn)亂碼。
這一類場景,指的是從 MySQL 表里拿數(shù)據(jù)出來返回到客戶端,MySQL 里的數(shù)據(jù)本身沒有問題。客戶端發(fā)送請求到 MySQL,表的編碼為 D,從 MySQL 拿到記錄結(jié)果傳輸?shù)娇蛻舳?,此時記錄編碼為 E(CHARACTER_SET_RESULTS)。
那以上編碼 E 和 D 如果不兼容,檢索出來的數(shù)據(jù)就看起來亂碼了。但是由于數(shù)據(jù)本身沒有被破壞,所以換個兼容的編碼就可以獲取正確的結(jié)果。
這一類又分為以下三個不同的小類:
1)字段編碼和表一致,客戶端是不同的編碼
比如下面例子, 表數(shù)據(jù)的編碼是 utf8mb4,而 SESSION 1 發(fā)起的連接編碼為 gbk。那由于編碼不兼容,檢索出來的數(shù)據(jù)肯定為亂碼。
2)表編碼和客戶端的編碼一致,但是記錄之間編碼存在不一致的情形
比如表編碼是 utf8mb4,應(yīng)用端編碼也是 utf8mb4,但是表里的數(shù)據(jù)可能一半編碼是 utf8mb4,另外一半是 gbk。那么此時表的數(shù)據(jù)也是正常的,不過此時采用哪種編碼都讀不到所有完整的數(shù)據(jù)。這樣數(shù)據(jù)產(chǎn)生的原因很多,比如其中一種可能性就是表編碼多次變更而且每次變更不徹底導(dǎo)致(變更不徹底,我之前的篇章里有介紹)。舉個例子,表 t3 的編碼之前是 utf8mb4,現(xiàn)在是 gbk,而且兩次編碼期間都被寫入了正常的數(shù)據(jù)。
3)每個字段的編碼不一致,導(dǎo)致亂碼和第二點(diǎn)一樣的場景。不同的是:非記錄間的編碼不統(tǒng)一,而是每個字段編碼不統(tǒng)一。舉個例子,表 c1 字段 a1,a2。a1 編碼 gbk,a2 編碼是 utf8mb4。那每個字段單獨(dú)讀出來數(shù)據(jù)是完整的,但是所有字段一起讀出來,數(shù)據(jù)總會有一部分亂碼。
三、LATIN1
還有一種情形就是以 LATIN1 的編碼存儲數(shù)據(jù)
估計大家都知道字符集 LATIN1,LATIN1 對所有字符都是單字節(jié)流處理,遇到不能處理的字節(jié)流,保持原樣,那么在以上兩種存入和檢索的過程中都能保證數(shù)據(jù)一致,所以 MySQL 長期以來默認(rèn)的編碼都是 LATIN1。這種情形,看起來也沒啥不對的點(diǎn),數(shù)據(jù)也沒亂碼,那為什么還有選用其他的編碼呢?原因就是對字符存儲的字節(jié)數(shù)不一樣,比如 emoji 字符 "?",如果用 utf8mb4 存儲,占用 3 個字節(jié),那 varchar(12) 就能存放 12 個字符,但是換成 LATIN1,只能存 4 個字符。