這期內(nèi)容當中小編將會給大家?guī)碛嘘Pjava出現(xiàn)亂碼的原因和解決方法,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
我們提供的服務有:成都網(wǎng)站建設、成都網(wǎng)站設計、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認證、鄂托克前ssl等。為成百上千家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務,是有科學管理、有技術的鄂托克前網(wǎng)站制作公司java在字符串中統(tǒng)一用Unicode表示。
對于任意一個字符串:String string = “測試字符串”;
如果源文件是GBK編碼,操作系統(tǒng)默認環(huán)境編碼也為GBK,那么編譯的時候,JVM將按照GBK編碼將字節(jié)數(shù)組解析為字符,然后將字符轉換為Unicode格式的字節(jié)數(shù)組,作為內(nèi)部存儲(字節(jié)數(shù)組→字符→Unicode字節(jié)數(shù)組)
當打印這個字符串時,JVM根據(jù)操作系統(tǒng)本地的語言環(huán)境,將Unicode轉換為GBK,然后操作系統(tǒng)將GBK格式的內(nèi)容顯示出來。
當源碼文件是UTF-8, 我們需要通知編譯器源碼的格式,javac -encoding utf-8 … , 編譯時,JVM按照utf-8 解析成字符,然后轉換為unicode格式的字節(jié)數(shù)組, 那么不論源碼文件是什么格式,同樣的字符串,最后得到的unicode字節(jié)數(shù)組是完全一致的,顯示的時候,也是轉成GBK來顯示(跟OS環(huán)境有關)
亂碼是如何產(chǎn)生的?
本質(zhì)上都是由于字符串原本的編碼格式與讀取時解析用的編碼格式不一致導致的。
亂碼指的是程序顯示出來的字符文本無法用任何語言去解讀。一般情況下會包含大量的?。亂碼問題是所有計算機用戶或多或少會遇到的問題。造成亂碼的原因就是因為使用了錯誤的字符編碼去解碼字節(jié)流,因此當我們在思考任何跟文本顯示有關的問題時,請時刻保持清醒:當前使用的字符編碼是什么。只有這樣,我們才能正確分析和處理亂碼問題。
例如最常見的網(wǎng)頁亂碼問題。如果你是網(wǎng)站技術人員,遇到這樣的問題,需要檢查以下原因:
● 服務器返回的響應頭Content-Type沒有指明字符編碼
● 網(wǎng)頁內(nèi)是否使用META HTTP-EQUIV標簽指定了字符編碼
● 網(wǎng)頁文件本身存儲時使用的字符編碼和網(wǎng)頁聲明的字符編碼是否一致
java代碼中的亂碼問題如何解決呢?
例如:String s = “測試字符串”;
System.out.println( new String(s.getBytes(),"UTF-8")); //錯誤,因為getBytes()默認使用GBK編碼, 而解析時使用UTF-8編碼,肯定出錯。
其中getBytes()是將Unicode轉換為操作系統(tǒng)默認格式的字節(jié)數(shù)組,即“測試字符串”的GBK格式,new String (bytes, Charset) 中的charset 是指定讀取byte的方式,這里指定為UTF-8,即把bytes的內(nèi)容當做UTF-8來讀取。
如下兩種方式得到的結果都是正確的,因為它們的源內(nèi)容編碼和解析用的編碼是一致的。
System.out.println( new String(s.getBytes(),"GBK")); System.out.println( new String(s.getBytes("UTF-8"),"UTF-8"));
那么,如何利用getBytes 和 new String() 來進行編碼轉換呢?
網(wǎng)上流傳著一種錯誤的方法:
GBK--> UTF-8: new String( s.getBytes("GBK") , "UTF-8);
這種方式是完全錯誤的,因為getBytes 的編碼與 UTF-8 不一致,肯定是亂碼。
但是為什么在tomcat 下,使用 new String(s.getBytes(“iso-8859-1”) ,”GBK”) 卻可以用呢?
答案是:
tomcat 默認使用iso-8859-1編碼, 也就是說,如果原本字符串是GBK的,tomcat傳輸過程中,將GBK轉成iso-8859-1了,默認情況下,使用iso-8859-1讀取中文肯定是有問題的,那么我們需要將iso-8859-1 再轉成GBK, 而iso-8859-1 是單字節(jié)編碼的,即他認為一個字節(jié)是一個字符, 那么這種轉換不會對原來的字節(jié)數(shù)組做任何改變,因為字節(jié)數(shù)組本來就是由單個字節(jié)組成的,如果之前用GBK編碼,那么轉成iso-8859-1后編碼內(nèi)容完全沒變, 則 s.getBytes(“iso-8859-1”) 實際上還是原來GBK的編碼內(nèi)容則 new String(s.getBytes(“iso-8859-1”) ,”GBK”) 就可以正確解碼了。 所以說這是一種巧合。
如何正確的將GBK轉UTF-8 ? (實際上是unicode轉UTF-8)
//利用getBytes將unicode字符串轉成UTF-8格式的字節(jié)數(shù)組,然后用utf-8 對這個字節(jié)數(shù)組解碼成新的字符串 new String( s.getBytes("utf-8") , "utf-8");
UTF-8 轉GBK原理也是一樣
new String( s.getBytes("GBK") , "GBK");
其實核心工作都由getBytes(charset)做了。getBytes的JDK描述:Encoding this String into a sequence of bytes using the named charset,storing the result into a new byte array.
OutputStreamWriter w1 = new OutputStreamWriter(new FileOutputStream("D:\\file1.txt"),"UTF-8"); InputStreamReader( stream, charset)
可以幫助我們輕松的按照指定編碼讀寫文件。
上述就是小編為大家分享的java出現(xiàn)亂碼的原因和解決方法了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注創(chuàng)新互聯(lián)成都網(wǎng)站設計公司行業(yè)資訊頻道。
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。