真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

python文本處理函數(shù),python 處理文本內(nèi)容

python文本訓(xùn)練后怎么用

1.我們可以把文件想象成一個(gè)倉(cāng)庫(kù);可以供我們操作使用

舞鋼網(wǎng)站制作公司哪家好,找成都創(chuàng)新互聯(lián)公司!從網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、APP開(kāi)發(fā)、響應(yīng)式網(wǎng)站設(shè)計(jì)等網(wǎng)站項(xiàng)目制作,到程序開(kāi)發(fā),運(yùn)營(yíng)維護(hù)。成都創(chuàng)新互聯(lián)公司自2013年創(chuàng)立以來(lái)到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來(lái)保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選成都創(chuàng)新互聯(lián)公司。

打開(kāi)文件并且創(chuàng)建對(duì)象;

對(duì)該文件內(nèi)容進(jìn)行 讀取 寫入 刪除 修改等操作

關(guān)閉并且保存登錄后復(fù)制

2.常用操作函數(shù)

open()函數(shù)打開(kāi)文件并創(chuàng)建對(duì)象

參數(shù):

路徑信息(如果不在當(dāng)前路徑下;需要使用絕對(duì)路徑進(jìn)行定位)

打開(kāi)方式:

r 默認(rèn)讀模式如果文件不存在則拋出異常

w 寫入模式;使用該模式會(huì)清空文本中原有的內(nèi)容 如果該文件不存在則會(huì)創(chuàng)建

x 它也是寫入模式;如果該文件存在則會(huì)拋出異常

a 它是對(duì)文件進(jìn)行追加;不會(huì)覆蓋文件的原始內(nèi)容

encoding參數(shù)指定該文本的編碼格式

colse()使用該函數(shù)進(jìn)行關(guān)閉我們創(chuàng)建的文件對(duì)象

也可以使用with模式進(jìn)行操作文件;這樣我們就不會(huì)忘記使用close函數(shù)關(guān)閉文件了

with open('python.txt','r',encoding='utf8') as filename:

print(filename.read())

print(filename.read())

# 拋出異常信息 ValueError: I/O operation on closed file. 這是因?yàn)槲覀冋{(diào)用的文件對(duì)象已經(jīng)關(guān)閉了

3.測(cè)試文件是否可讀:

readable() 測(cè)試創(chuàng)建的文件對(duì)象是否可讀;它的返回值是False 和 true我們可以利用這個(gè)函數(shù)進(jìn)行判斷該文件是否可讀

wireable()測(cè)試文件時(shí)候可寫

filename = open('python.txt','r',encoding='utf8')

aa = filename.readable()

print(aa) # 輸出打印true 證明這個(gè)文件是可讀的

4.針對(duì)文件對(duì)象進(jìn)行操作的函數(shù)

read()函數(shù)讀文件中所有的內(nèi)容

readline()讀取文件一行的內(nèi)容也可以 讀取該行的指定參數(shù)

readlines()讀取文件中的內(nèi)容添加到列表中去;換行用\n代替

也是可以使用for循環(huán)進(jìn)行輸出文件中的內(nèi)容

filename = open('python.txt','r',encoding='utf8')

print(filename.readline(4))

filename.close()

# 如果我們不關(guān)閉該對(duì)象的話;使用readline()讀取的4個(gè)長(zhǎng)度是不會(huì)被讀取的

filename = open('python.txt','r')

for line in filename:

print(line)

5.異常處理

如何處理異常:通過(guò)異常處理可以發(fā)現(xiàn)錯(cuò)誤所在

異常處理結(jié)構(gòu): try except

另一種處理異常結(jié)構(gòu):

try: except: else: 如果try拋出異常則執(zhí)行except代碼;反之執(zhí)行else中的代碼

try: except: finally: finally中的代碼是必執(zhí)行的

例如上面調(diào)用的with操作文件報(bào)異常我們就可以使用它進(jìn)行處理異常進(jìn)行回顯

try:

with open('python.txt','r',encoding='utf8') as filename:

print(filename.read())

print(filename.read())

# 拋出異常信息 ValueError: I/O operation on closed file.

except:

print('文件對(duì)象已經(jīng)被關(guān)閉') # 輸出文件對(duì)象已經(jīng)被關(guān)閉

Python 數(shù)據(jù)處理(三十六)—— 文本數(shù)據(jù)處理(續(xù))

可以使用 [] 符號(hào)直接按位置進(jìn)行索引,如果索引超過(guò)字符串的長(zhǎng)度,結(jié)果將是 NaN

在 0.23 版本之前, extract 方法的參數(shù) expand 默認(rèn)為 False 。當(dāng) expand=False 時(shí), expand 會(huì)根據(jù)正則表達(dá)式模式返回一個(gè) Series 、 Index 或 DataFrame

當(dāng) expand=True 時(shí),它總是返回一個(gè) DataFrame ,這種方式更加符合用戶的需求,從 0.23.0 版本開(kāi)始就是默認(rèn)的

extract 方法接受一個(gè)至少包含一個(gè)捕獲組的正則表達(dá)式

如果是包含多個(gè)組的正則表達(dá)式將返回一個(gè) DataFrame ,每個(gè)捕獲組是一列

未匹配的行會(huì)填充 NaN ,可以從混亂的字符串序列中提取出有規(guī)則的信息。

對(duì)于命名分組

對(duì)于可選的分組

注意 :正則表達(dá)式中的任何捕獲組名稱都將用作列名,否則將使用捕獲組號(hào)

如果 expand=True ,則返回一個(gè) DataFrame

如果 expand=False ,則返回一個(gè) Series

對(duì)于索引,如果 expand=True ,且只有一個(gè)捕獲組則返回一個(gè)只有一列的 DataFrame

此時(shí),如果 expand=False 將會(huì)返回一個(gè) Index

對(duì)于索引,正則表達(dá)式設(shè)置多個(gè)分組將返回 DataFrame

如果 expand=False 將會(huì)拋出 ValueError 異常

對(duì)于 extract 只返回第一個(gè)匹配項(xiàng)

與 extract 不同, extractall 方法返回每個(gè)匹配項(xiàng),其結(jié)果始終是具有 MultiIndex 的 DataFrame 。

MultiIndex 的最后一級(jí)名為 match ,標(biāo)示的是匹配的順序

對(duì)于只有一個(gè)匹配的 Series

extractall(pat).xs(0, level='match') 與 extract(pat) 的結(jié)果一致

Index 也支持 .str.extractall ,它返回一個(gè) DataFrame ,其結(jié)果與 Series.str 相同。

您可以檢查字符串元素中是否包含正則匹配模式

或者字符串元素是否與模式匹配

而在 1.1.0 版本中

注意 :

match 、 fullmatch 和 contains 之間的區(qū)別是:

這三個(gè)函數(shù)于 re 模塊的 re.fullmatch 、 re.match 和 re.search 對(duì)應(yīng)

像 match , fullmatch , contains , startswith 和 endswith 有一個(gè)額外的 na 參數(shù),用于將缺失值替換為 True 或 False

您可以從字符串列中提取指標(biāo)變量。例如,如果使用 '|' 分隔的字符串

字符串 Index 也支持 get_dummies ,它返回一個(gè) MultiIndex

python操作文本文件

在磁盤上讀寫文件之前,必須先打開(kāi)這個(gè)文件。打開(kāi)文件就需要提供文件的路徑。

在與Python程序同一個(gè)目錄下,我們有一個(gè)名為 pi.txt 的文件,它的內(nèi)容如下:

現(xiàn)在使用Python來(lái)打開(kāi)和關(guān)閉它:

執(zhí)行此程序不會(huì)有任何輸出,這表示著打開(kāi)和關(guān)閉文件都得到了正確執(zhí)行。

可以看到,使用 open() 函數(shù)打開(kāi)文件,參數(shù)為文件名(或文件路徑);該函數(shù)會(huì)返回一個(gè)文件句柄,文件句柄并不會(huì)實(shí)際保存文件的內(nèi)容,而是代表著一種操作,在上面的例子中,文件句柄被賦值給變量 fhand 。

打開(kāi)文件后,程序具有讀(默認(rèn))該文件的權(quán)限。

最后,使用文件句柄的 close() 方法關(guān)閉文件。這非常重要,因?yàn)槭褂猛甓鴽](méi)有關(guān)閉的文件會(huì)占用內(nèi)存或造成安全問(wèn)題。

如果Python找不到該文件,則會(huì)返回錯(cuò)誤,比如下面這樣:

Python提示我們沒(méi)有相應(yīng)的文件或者目錄: 'pii.txt'。

打開(kāi)文件后就可以對(duì)文件進(jìn)行操作:

fhand.read() 方法將文件內(nèi)容作為一個(gè)字符串返回。

文件中的每一行末尾使用換行符 \n 表示換行,例子中方法 rstrip() 去掉文本中的換行符,然后輸出。

程序的運(yùn)行效果如下:

如果在文件關(guān)閉之前程序發(fā)生BUG意外退出,則文件不會(huì)關(guān)閉,為了避免此類事件的發(fā)生,可以使用 with 語(yǔ)句:

with 語(yǔ)句的特點(diǎn)是即便在操作文件時(shí)發(fā)生錯(cuò)誤,文件也會(huì)自動(dòng)被清理。

fhand.read() 雖然可以讀取文本內(nèi)容,但是當(dāng)我們想要逐行處理文件內(nèi)容,或者文件很大而無(wú)法一次性加載進(jìn)內(nèi)存的時(shí)候,就不適用了。

可以使用 for 語(yǔ)句逐行處理文件內(nèi)容:

本程序中將文件名保存在變量 filename 中。

打開(kāi)文件后,使用 for 語(yǔ)句按行讀取文件內(nèi)容。例子中,每次循環(huán)依次取一行文本以字符串的格式保存在變量 line 中,每次循環(huán)中變量 count 自增1。

這個(gè)程序的作用是,打開(kāi)程序所在目錄的 when_old.txt 文件,然后統(tǒng)計(jì)行數(shù),并輸出結(jié)果。

when_old.txt 文件的內(nèi)容是:

可以使用其他方法操作字符串 line :

程序?qū)⒁?'And' 開(kāi)頭的行打印出來(lái)。

打開(kāi)文件后,默認(rèn)的權(quán)限是讀(r),如果要寫文件,則需要使用寫(w)或者追加(a)權(quán)限。

w權(quán)限,打開(kāi)一個(gè)文件用于寫入。如果該文件存在,則覆蓋該文件;如果該文件不存在,則創(chuàng)建該文件。

a權(quán)限,打開(kāi)一個(gè)文件用于追加。如果該文件存在,在文件末尾追加;如果該文件不存在,則創(chuàng)建該文件。

下面是一個(gè)使用w權(quán)限打開(kāi)文件的例子:

例子中使用w權(quán)限打開(kāi)該文件,并寫入兩行。(如果該文件存在,則內(nèi)容會(huì)被覆蓋)

fhand.write() 不會(huì)自動(dòng)添加換行符,所以如果需要換行,需在末尾添加 \n 。

下面我們寫一個(gè)統(tǒng)計(jì)文件中詞頻的程序。

它會(huì)統(tǒng)計(jì)文件中各個(gè)詞的出現(xiàn)的次數(shù),然后由高到低顯示出前5個(gè)詞。

首先我們完成打開(kāi)和關(guān)閉文件的程序內(nèi)容:

在例子中,由用戶輸入文件名,并且使用異常捕獲以處理文件打開(kāi)時(shí)的錯(cuò)誤。

下面對(duì)內(nèi)容進(jìn)行統(tǒng)計(jì):

這個(gè)程序:

如此,我們就在字典中存放了 單詞:次數(shù) 的鍵值對(duì)。

由于字典不能保存順序,所以不能對(duì)其進(jìn)行排序。為此,將每個(gè)鍵值對(duì)都添加到一個(gè)列表中:

在列表 word_list 中,每一項(xiàng)都是一個(gè)元組,每個(gè)元組第一個(gè)值是單詞出現(xiàn)的次數(shù),第二個(gè)值是單詞內(nèi)容。

對(duì)其進(jìn)行逆向(由大到?。┡判颍?/p>

打印最終結(jié)果:

整個(gè)程序如下:

下面是程序運(yùn)行結(jié)果的示例:


名稱欄目:python文本處理函數(shù),python 處理文本內(nèi)容
標(biāo)題來(lái)源:http://weahome.cn/article/phchch.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部