java獲取文本文件字符編碼的方法

這篇文章將為大家詳細(xì)講解有關(guān)java獲取文本文件字符編碼的方法，小編覺(jué)得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

專注于為中小企業(yè)提供成都網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)、外貿(mào)營(yíng)銷網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)平谷免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都，凝聚了一批互聯(lián)網(wǎng)行業(yè)人才，有力地推動(dòng)了上1000+企業(yè)的穩(wěn)健成長(zhǎng)，幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

一、認(rèn)識(shí)字符編碼：

1、Java中String的默認(rèn)編碼為UTF-8，可以使用以下語(yǔ)句獲?。?code>Charset.defaultCharset();

2、Windows操作系統(tǒng)下，文本文件的默認(rèn)編碼為ANSI，對(duì)中文Windows來(lái)說(shuō)即為GBK。例如我們使用記事本程序新建一個(gè)文本文檔，其默認(rèn)字符編碼即為ANSI。

3、Text文本文檔有四種編碼選項(xiàng)：ANSI、Unicode(含Unicode Big Endian和Unicode Little Endian)、UTF-8、UTF-16

4、因此我們讀取txt文件可能有時(shí)候并不知道其編碼格式，所以需要用程序動(dòng)態(tài)判斷獲取txt文件編碼。

ANSI ：無(wú)格式定義，對(duì)中文操作系統(tǒng)為GBK或GB2312

UTF-8 ：前三個(gè)字節(jié)為：0xE59B9E(UTF-8)、0xEFBBBF(UTF-8含BOM)

UTF-16 ：前兩字節(jié)為：0xFEFF

Unicode：前兩個(gè)字節(jié)為：0xFFFE

例如：Unicode文檔以0xFFFE開(kāi)頭，用程序取出前幾個(gè)字節(jié)并進(jìn)行判斷即可。

5、Java編碼與Text文本編碼對(duì)應(yīng)關(guān)系：

java獲取文本文件字符編碼的方法

Java讀取Text文件，如果編碼格式不匹配，就會(huì)出現(xiàn)亂碼現(xiàn)象。所以讀取文本文件的時(shí)候需要設(shè)置正確字符編碼。Text文檔編碼格式都是寫(xiě)在文件頭的，在程序中需要先解析文件的編碼格式，獲得編碼格式后，再以此格式讀取文件就不會(huì)產(chǎn)生亂碼了。

二、舉個(gè)例子：

有一個(gè)文本文件：test.txt

java獲取文本文件字符編碼的方法

測(cè)試代碼：

/**
 * 文件名：CharsetCodeTest.java
 * 功能描述：文件字符編碼測(cè)試
 */
 
import java.io.*;
 
public class CharsetCodeTest {
    public static void main(String[] args) throws Exception {
        String filePath = "test.txt";
        String content = readTxt(filePath);
        System.out.println(content);
    }
 
 
public static String readTxt(String path) {
        StringBuilder content = new StringBuilder("");
        try {
            String fileCharsetName = getFileCharsetName(path);
            System.out.println("文件的編碼格式為："+fileCharsetName);
 
            InputStream is = new FileInputStream(path);
            InputStreamReader isr = new InputStreamReader(is, fileCharsetName);
            BufferedReader br = new BufferedReader(isr);
 
            String str = "";
            boolean isFirst = true;
            while (null != (str = br.readLine())) {
                if (!isFirst)
                    content.append(System.lineSeparator());
                    //System.getProperty("line.separator");
                else
                    isFirst = false;
                content.append(str);
            }
            br.close();
        } catch (Exception e) {
            e.printStackTrace();
            System.err.println("讀取文件:" + path + "失敗!");
        }
        return content.toString();
    }
 
 
    public static String getFileCharsetName(String fileName) throws IOException {
        InputStream inputStream = new FileInputStream(fileName);
        byte[] head = new byte[3];
        inputStream.read(head);
 
        String charsetName = "GBK";//或GB2312，即ANSI
        if (head[0] == -1 && head[1] == -2 ) //0xFFFE
            charsetName = "UTF-16";
        else if (head[0] == -2 && head[1] == -1 ) //0xFEFF
            charsetName = "Unicode";//包含兩種編碼格式：UCS2-Big-Endian和UCS2-Little-Endian
        else if(head[0]==-27 && head[1]==-101 && head[2] ==-98)
            charsetName = "UTF-8"; //UTF-8(不含BOM)
        else if(head[0]==-17 && head[1]==-69 && head[2] ==-65)
            charsetName = "UTF-8"; //UTF-8-BOM
 
        inputStream.close();
 
        //System.out.println(code);
        return charsetName;
    }
}

運(yùn)行結(jié)果：

java獲取文本文件字符編碼的方法

以上就是java獲取文本文件字符編碼的方法，詳細(xì)使用情況還需要大家自己親自動(dòng)手使用過(guò)才能領(lǐng)會(huì)。如果想了解更多相關(guān)內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

網(wǎng)站名稱：java獲取文本文件字符編碼的方法
當(dāng)前鏈接：http://weahome.cn/article/gpcsod.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

java獲取文本文件字符編碼的方法

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管