小編給大家分享一下utf-8指的是什么編碼,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!
成都創(chuàng)新互聯(lián)主營海晏網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營網(wǎng)站建設(shè)方案,成都App定制開發(fā),海晏h5重慶小程序開發(fā)搭建,海晏網(wǎng)站營銷推廣歡迎海晏等地區(qū)企業(yè)咨詢UTF-8是針對Unicode的一種可變長度字符編碼;它可以用來表示Unicode標(biāo)準(zhǔn)中的任何字符,而且其編碼中的第一個(gè)字節(jié)仍與ASCII相容,使得原來處理ASCII字符的軟件無須或只進(jìn)行少部份修改后,便可繼續(xù)使用。
UTF-8(8位元,Universal Character Set/Unicode Transformation Format)是針對Unicode的一種可變長度字符編碼。它可以用來表示Unicode標(biāo)準(zhǔn)中的任何字符,而且其編碼中的第一個(gè)字節(jié)仍與ASCII相容,使得原來處理ASCII字符的軟件無須或只進(jìn)行少部份修改后,便可繼續(xù)使用。因此,它逐漸成為電子郵件、網(wǎng)頁及其他存儲(chǔ)或傳送文字的應(yīng)用中,優(yōu)先采用的編碼。
基本特征
UCS字符U+0000到U+007F(ASCII)被編碼為字節(jié)0×00到0x7F(ASCIⅡ兼容)。這意味著只包含7位ASCIl字符的文件在ASCIⅡ和UTF-8兩種編碼方式下是一樣的。
所有大于0x007F的UCS字符被編碼為一個(gè)有多個(gè)字節(jié)的串,每個(gè)字節(jié)都有標(biāo)記位集。因此,ASCIl字節(jié)(0x00-0x7F)不可能作為任何其他字符的一部分。表示非ASCIl字符的多字節(jié)串的第一個(gè)字節(jié)總是在0xC0到0XFD的范圍里,并指出這個(gè)字符包含多少個(gè)字節(jié)。多字節(jié)串的其余字節(jié)都在0x80到0xBF范圍里。這使得重新同步非常容易,并使編碼無國界,且很少受丟失字節(jié)的影響。
UTF-8編碼字符理論上可以最多到6個(gè)字節(jié)長,然而16位BMP字符最多只用到3字節(jié)長,Bigendian UCS-4字節(jié)串的排列順序是預(yù)定的,字節(jié)0xFE和OxFF在UTF-8編碼中從未用到。
編碼字節(jié)數(shù)
UTF-8使用1~4字節(jié)為每個(gè)字符編碼:
·一個(gè)US-ASCIl字符只需1字節(jié)編碼(Unicode范圍由U+0000~U+007F)。
·帶有變音符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文等字母則需要2字節(jié)編碼(Unicode范圍由U+0080~U+07FF)。
·其他語言的字符(包括中日韓文字、東南亞文字、中東文字等)包含了大部分常用字,使用3字節(jié)編碼。
·其他極少使用的語言字符使用4字節(jié)編碼。
UTF-8編碼規(guī)則:
如果只有一個(gè)字節(jié)則其高二進(jìn)制位為0;如果是多字節(jié),其第一個(gè)字節(jié)從高位開始,連續(xù)的二進(jìn)制位值為1的個(gè)數(shù)決定了其編碼的字節(jié)數(shù),其余各字節(jié)均以10開頭。
看完了這篇文章,相信你對“utf-8指的是什么編碼”有了一定的了解,如果想了解更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!