真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Emoji表情在AndroidJNI中的兼容性問題詳解

起因

創(chuàng)新互聯(lián)公司專業(yè)為企業(yè)提供融水網(wǎng)站建設(shè)、融水做網(wǎng)站、融水網(wǎng)站設(shè)計、融水網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計與制作、融水企業(yè)網(wǎng)站模板建站服務(wù),十多年融水做網(wǎng)站經(jīng)驗,不只是建網(wǎng)站,更提供有價值的思路和整體網(wǎng)絡(luò)服務(wù)。

最近遇到一個問題,把某個字符串計算MD5,之后把該字符串加密與MD5一起上傳到服務(wù)端,服務(wù)端解密后重新計算md5發(fā)現(xiàn)與上傳的MD5不一致,而出問題的字符串中無一例外都有Emoji表情。但我自己弄個帶表情的字符串上傳卻沒有什么問題。

最終確認這是在Android 5.1以下 jstring -> char數(shù)組 時出的問題。下面通過一個示例來還原這個過程。

事件還原

假設(shè)有一個字符串s,String s = "\uD83D\uDC8B"; ,對應(yīng)表情💋。通過調(diào)用getBytes()方法,會看到對應(yīng)的byte數(shù)組為[-16, -97, -110, -117] ,按16進制輸出為[f0, 9f, 92, 8b] 。

定義一個參數(shù)為String的native方法,public native String test(String str); ,在對應(yīng)的C/C++代碼中,通過env->GetStringUTFChars獲取傳入的String對應(yīng)的char數(shù)組,把char數(shù)組的每一個元素按16進制輸出。

在Android 7.1.2的測試機上,native層輸出的結(jié)果為[f0, 9f, 92, 8b] ,與Java的byte數(shù)組是一樣的,但是在Android 4.4.4的測試機上,輸出結(jié)果為[ed, a0, bd, ed, b2, 8b] 。從而導(dǎo)致加密后的結(jié)果不一樣。

服務(wù)端收到舊版Android的數(shù)據(jù)解密后得到[ed, a0, bd, ed, b2, 8b] ,計算MD5自然無法與[f0, 9f, 92, 8b]計算MD5一樣。

Unicode、UTF-8、UTF-16

可能有人不是很清楚上面那2種byte數(shù)組是怎么來的。首先我們要知道,UTF-8和UTF-16都是Unicode的實現(xiàn)。\uD83D\uDC8B其實是UTF-16大端的表現(xiàn)形式,對于大于0xFFFF(0x10000~0x10FFFF)的Unicode,轉(zhuǎn)換為UTF-16的步驟如下:

  1. 將Unicode減去0x10000,結(jié)果將是一個長度為20bit的值。
  2. 將第一步的20bit的高10bit與0xD800進行或運算,得到UTF-16的高位代理。
  3. 將第一步的20bit的低10bit與0xDC00進行或運算,得到UTF-16的低位代理。
  4. 高位代理+低位代理即Unicode對應(yīng)的UTF-16的大端形式。

按照這個步驟反推:

  1. \uD83D\uDC8B的二進制位1101 1000 0011 1101 1101 1100 1000 1011,則高位代理為1101 1000 0011 1101,低位代理為1101 1100 1000 1011。
  2. 高位代理由高10bit與0xD800進行或運算得到,因此高10bit為00 0011 1101。
  3. 低位代理由低10bit與0xDC00進行或運算得到,因此低10bit為00 1000 1011。
  4. 所有20bit的值為0000 1111 0100 1000 1011。
  5. 加上0x10000,為0001 1111 0100 1000 1011,即0x1F48B。

所以,表情💋對應(yīng)的Unicode為0x1F48B。

Emoji表情在Android JNI中的兼容性問題詳解

UTF-8的規(guī)則是,對于占N個字節(jié)的符號(N>1),第一個字節(jié)前N位都是1,N+1位是0,后面的字節(jié)前2位為10,然后把Unicode的二進制位填入空缺的二進制位中,空出的位置補0。因此,上面的Unicode 0x1F48B轉(zhuǎn)為UTF-8需要占4個字節(jié),為:

11110 000
10 011111
10 010010
10 001011

即0xF09F928B,這也就是[f0, 9f, 92, 8b]這個byte數(shù)組的由來。

Emoji表情在Android JNI中的兼容性問題詳解

那么[ed, a0, bd, ed, b2, 8b]這個byte數(shù)組又是怎么來的呢?這是把\uD83D\uDC8B當成2個單獨的字符處理了,按照上面Unicode轉(zhuǎn)UTF-8的邏輯,Unicode 0xD83D轉(zhuǎn)為UTF-8為1110 1101 10 100000 10 111101,即0xEDA0BD,Unicode 0xDC8B轉(zhuǎn)為UTF-8為1110 1101 10 110010 10 001011,即0xEDB28B。

Emoji表情在Android JNI中的兼容性問題詳解

總結(jié)

以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,謝謝大家對創(chuàng)新互聯(lián)的支持。


網(wǎng)站欄目:Emoji表情在AndroidJNI中的兼容性問題詳解
當前網(wǎng)址:http://weahome.cn/article/gdoedo.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部