這篇文章將為大家詳細(xì)講解有關(guān)python如何讀取中文txt文本的方法,小編覺得挺實(shí)用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
站在用戶的角度思考問題,與客戶深入溝通,找到衡水網(wǎng)站設(shè)計(jì)與衡水網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗(yàn)好的作品,建站類型包括:成都網(wǎng)站制作、成都做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、域名注冊、網(wǎng)絡(luò)空間、企業(yè)郵箱。業(yè)務(wù)覆蓋衡水地區(qū)。python主要應(yīng)用領(lǐng)域有哪些1、云計(jì)算,典型應(yīng)用OpenStack。2、WEB前端開發(fā),眾多大型網(wǎng)站均為Python開發(fā)。3.人工智能應(yīng)用,基于大數(shù)據(jù)分析和深度學(xué)習(xí)而發(fā)展出來的人工智能本質(zhì)上已經(jīng)無法離開python。4、系統(tǒng)運(yùn)維工程項(xiàng)目,自動化運(yùn)維的標(biāo)配就是python+Django/flask。5、金融理財分析,量化交易,金融分析。6、大數(shù)據(jù)分析。
對于python2.7
字符串在Python2.7內(nèi)部的表示是unicode編碼,因此,在做編碼轉(zhuǎn)換時,通常需要以unicode作為中間編碼,即先將其他編碼的字符串解碼成unicode,再從unicode編碼成另一種編碼。
先用一些編輯器(如editplus )看一下你的txt文件保存的是utf-8,還是gb2312或其他的。當(dāng)你讀行時可以這樣
line = (file1.readline()).decode('utf-8').encode('gb2312')或 line = (file1.readline()).decode('gb2312').encode('utf-8')
注意:txt使用utf8編碼的時候會默認(rèn)在文件開頭插入三個不可見字符。這個是windows用來判斷txt編碼是否為utf8的。所以如果你直接使用decode('utf-8')的話是得不到正確結(jié)果的。
必須先判斷前三個字符是否是windows插入的那三個。這個python已經(jīng)定義了一個常量了,可以直接和這個常量比較,如果一樣就刪除前三個字符然后再decode。
import codecs data = open("Test.txt").read() if data[:3] == codecs.BOM_UTF8: data = data[3:] print data.decode("utf-8")
延伸:
因?yàn)閐ecode的函數(shù)原型是decode([encoding], [errors='strict']),可以用第二個參數(shù)控制錯誤處理的策略,默認(rèn)的參數(shù)就是strict,代表遇到非法字符時拋出異常;
如果設(shè)置為ignore,則會忽略非法字符;
如果設(shè)置為replace,則會用?取代非法字符;
如果設(shè)置為xmlcharrefreplace,則使用XML的字符引用。
對于Python3
python3下比較簡單,打開的時候指定encoding參數(shù)即可:open("txt.txt", encoding="gbk").read()。
關(guān)于“python如何讀取中文txt文本的方法”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,使各位可以學(xué)到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。