python文本處理函數(shù),python 處理文本內(nèi)容

python文本訓(xùn)練后怎么用

1.我們可以把文件想象成一個(gè)倉(cāng)庫(kù)；可以供我們操作使用

舞鋼網(wǎng)站制作公司哪家好，找成都創(chuàng)新互聯(lián)公司！從網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、APP開(kāi)發(fā)、響應(yīng)式網(wǎng)站設(shè)計(jì)等網(wǎng)站項(xiàng)目制作，到程序開(kāi)發(fā)，運(yùn)營(yíng)維護(hù)。成都創(chuàng)新互聯(lián)公司自2013年創(chuàng)立以來(lái)到現(xiàn)在10年的時(shí)間，我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn)，來(lái)保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選成都創(chuàng)新互聯(lián)公司。

打開(kāi)文件并且創(chuàng)建對(duì)象；

對(duì)該文件內(nèi)容進(jìn)行讀取寫入刪除修改等操作

關(guān)閉并且保存登錄后復(fù)制

2.常用操作函數(shù)

open()函數(shù)打開(kāi)文件并創(chuàng)建對(duì)象

參數(shù)：

路徑信息(如果不在當(dāng)前路徑下;需要使用絕對(duì)路徑進(jìn)行定位)

打開(kāi)方式:

r 默認(rèn)讀模式如果文件不存在則拋出異常

w 寫入模式;使用該模式會(huì)清空文本中原有的內(nèi)容如果該文件不存在則會(huì)創(chuàng)建

x 它也是寫入模式;如果該文件存在則會(huì)拋出異常

a 它是對(duì)文件進(jìn)行追加;不會(huì)覆蓋文件的原始內(nèi)容

encoding參數(shù)指定該文本的編碼格式

colse()使用該函數(shù)進(jìn)行關(guān)閉我們創(chuàng)建的文件對(duì)象

也可以使用with模式進(jìn)行操作文件;這樣我們就不會(huì)忘記使用close函數(shù)關(guān)閉文件了

with open('python.txt','r',encoding='utf8') as filename:

print(filename.read())

# 拋出異常信息 ValueError: I/O operation on closed file. 這是因?yàn)槲覀冋{(diào)用的文件對(duì)象已經(jīng)關(guān)閉了

3.測(cè)試文件是否可讀:

readable() 測(cè)試創(chuàng)建的文件對(duì)象是否可讀;它的返回值是False 和 true我們可以利用這個(gè)函數(shù)進(jìn)行判斷該文件是否可讀

wireable()測(cè)試文件時(shí)候可寫

filename = open('python.txt','r',encoding='utf8')

aa = filename.readable()

print(aa) # 輸出打印true 證明這個(gè)文件是可讀的

4.針對(duì)文件對(duì)象進(jìn)行操作的函數(shù)

read()函數(shù)讀文件中所有的內(nèi)容

readline()讀取文件一行的內(nèi)容也可以讀取該行的指定參數(shù)

readlines()讀取文件中的內(nèi)容添加到列表中去;換行用\n代替

也是可以使用for循環(huán)進(jìn)行輸出文件中的內(nèi)容

filename = open('python.txt','r',encoding='utf8')

print(filename.readline(4))

filename.close()

# 如果我們不關(guān)閉該對(duì)象的話;使用readline()讀取的4個(gè)長(zhǎng)度是不會(huì)被讀取的

filename = open('python.txt','r')

for line in filename:

print(line)

5.異常處理

如何處理異常:通過(guò)異常處理可以發(fā)現(xiàn)錯(cuò)誤所在

異常處理結(jié)構(gòu): try except

另一種處理異常結(jié)構(gòu):

try: except: else: 如果try拋出異常則執(zhí)行except代碼;反之執(zhí)行else中的代碼

try: except: finally: finally中的代碼是必執(zhí)行的

例如上面調(diào)用的with操作文件報(bào)異常我們就可以使用它進(jìn)行處理異常進(jìn)行回顯

try:

with open('python.txt','r',encoding='utf8') as filename:

print(filename.read())

# 拋出異常信息 ValueError: I/O operation on closed file.

except:

print('文件對(duì)象已經(jīng)被關(guān)閉') # 輸出文件對(duì)象已經(jīng)被關(guān)閉

Python 數(shù)據(jù)處理（三十六）—— 文本數(shù)據(jù)處理（續(xù)）

可以使用 [] 符號(hào)直接按位置進(jìn)行索引，如果索引超過(guò)字符串的長(zhǎng)度，結(jié)果將是 NaN

在 0.23 版本之前， extract 方法的參數(shù) expand 默認(rèn)為 False 。當(dāng) expand=False 時(shí)， expand 會(huì)根據(jù)正則表達(dá)式模式返回一個(gè) Series 、 Index 或 DataFrame

當(dāng) expand=True 時(shí)，它總是返回一個(gè) DataFrame ，這種方式更加符合用戶的需求，從 0.23.0 版本開(kāi)始就是默認(rèn)的

extract 方法接受一個(gè)至少包含一個(gè)捕獲組的正則表達(dá)式

如果是包含多個(gè)組的正則表達(dá)式將返回一個(gè) DataFrame ，每個(gè)捕獲組是一列

未匹配的行會(huì)填充 NaN ，可以從混亂的字符串序列中提取出有規(guī)則的信息。

對(duì)于命名分組

對(duì)于可選的分組

注意：正則表達(dá)式中的任何捕獲組名稱都將用作列名，否則將使用捕獲組號(hào)

如果 expand=True ，則返回一個(gè) DataFrame

如果 expand=False ，則返回一個(gè) Series

對(duì)于索引，如果 expand=True ，且只有一個(gè)捕獲組則返回一個(gè)只有一列的 DataFrame

此時(shí)，如果 expand=False 將會(huì)返回一個(gè) Index

對(duì)于索引，正則表達(dá)式設(shè)置多個(gè)分組將返回 DataFrame

如果 expand=False 將會(huì)拋出 ValueError 異常

對(duì)于 extract 只返回第一個(gè)匹配項(xiàng)

與 extract 不同， extractall 方法返回每個(gè)匹配項(xiàng)，其結(jié)果始終是具有 MultiIndex 的 DataFrame 。

MultiIndex 的最后一級(jí)名為 match ，標(biāo)示的是匹配的順序

對(duì)于只有一個(gè)匹配的 Series

extractall(pat).xs(0, level='match') 與 extract(pat) 的結(jié)果一致

Index 也支持 .str.extractall ，它返回一個(gè) DataFrame ，其結(jié)果與 Series.str 相同。

您可以檢查字符串元素中是否包含正則匹配模式

或者字符串元素是否與模式匹配

而在 1.1.0 版本中

注意：

match 、 fullmatch 和 contains 之間的區(qū)別是：

這三個(gè)函數(shù)于 re 模塊的 re.fullmatch 、 re.match 和 re.search 對(duì)應(yīng)

像 match , fullmatch , contains , startswith 和 endswith 有一個(gè)額外的 na 參數(shù)，用于將缺失值替換為 True 或 False

您可以從字符串列中提取指標(biāo)變量。例如，如果使用 '|' 分隔的字符串

字符串 Index 也支持 get_dummies ，它返回一個(gè) MultiIndex

python操作文本文件

在磁盤上讀寫文件之前，必須先打開(kāi)這個(gè)文件。打開(kāi)文件就需要提供文件的路徑。

在與Python程序同一個(gè)目錄下，我們有一個(gè)名為 pi.txt 的文件，它的內(nèi)容如下：

現(xiàn)在使用Python來(lái)打開(kāi)和關(guān)閉它：

執(zhí)行此程序不會(huì)有任何輸出，這表示著打開(kāi)和關(guān)閉文件都得到了正確執(zhí)行。

可以看到，使用 open() 函數(shù)打開(kāi)文件，參數(shù)為文件名（或文件路徑）；該函數(shù)會(huì)返回一個(gè)文件句柄，文件句柄并不會(huì)實(shí)際保存文件的內(nèi)容，而是代表著一種操作，在上面的例子中，文件句柄被賦值給變量 fhand 。

打開(kāi)文件后，程序具有讀（默認(rèn)）該文件的權(quán)限。

最后，使用文件句柄的 close() 方法關(guān)閉文件。這非常重要，因?yàn)槭褂猛甓鴽](méi)有關(guān)閉的文件會(huì)占用內(nèi)存或造成安全問(wèn)題。

如果Python找不到該文件，則會(huì)返回錯(cuò)誤，比如下面這樣：

Python提示我們沒(méi)有相應(yīng)的文件或者目錄: 'pii.txt'。

打開(kāi)文件后就可以對(duì)文件進(jìn)行操作：

fhand.read() 方法將文件內(nèi)容作為一個(gè)字符串返回。

文件中的每一行末尾使用換行符 \n 表示換行，例子中方法 rstrip() 去掉文本中的換行符，然后輸出。

程序的運(yùn)行效果如下：

如果在文件關(guān)閉之前程序發(fā)生BUG意外退出，則文件不會(huì)關(guān)閉，為了避免此類事件的發(fā)生，可以使用 with 語(yǔ)句：

with 語(yǔ)句的特點(diǎn)是即便在操作文件時(shí)發(fā)生錯(cuò)誤，文件也會(huì)自動(dòng)被清理。

fhand.read() 雖然可以讀取文本內(nèi)容，但是當(dāng)我們想要逐行處理文件內(nèi)容，或者文件很大而無(wú)法一次性加載進(jìn)內(nèi)存的時(shí)候，就不適用了。

可以使用 for 語(yǔ)句逐行處理文件內(nèi)容：

本程序中將文件名保存在變量 filename 中。

打開(kāi)文件后，使用 for 語(yǔ)句按行讀取文件內(nèi)容。例子中，每次循環(huán)依次取一行文本以字符串的格式保存在變量 line 中，每次循環(huán)中變量 count 自增1。

這個(gè)程序的作用是，打開(kāi)程序所在目錄的 when_old.txt 文件，然后統(tǒng)計(jì)行數(shù)，并輸出結(jié)果。

when_old.txt 文件的內(nèi)容是：

可以使用其他方法操作字符串 line ：

程序?qū)⒁?'And' 開(kāi)頭的行打印出來(lái)。

打開(kāi)文件后，默認(rèn)的權(quán)限是讀（r），如果要寫文件，則需要使用寫（w）或者追加（a）權(quán)限。

w權(quán)限，打開(kāi)一個(gè)文件用于寫入。如果該文件存在，則覆蓋該文件；如果該文件不存在，則創(chuàng)建該文件。

a權(quán)限，打開(kāi)一個(gè)文件用于追加。如果該文件存在，在文件末尾追加；如果該文件不存在，則創(chuàng)建該文件。

下面是一個(gè)使用w權(quán)限打開(kāi)文件的例子：

例子中使用w權(quán)限打開(kāi)該文件，并寫入兩行。（如果該文件存在，則內(nèi)容會(huì)被覆蓋）

fhand.write() 不會(huì)自動(dòng)添加換行符，所以如果需要換行，需在末尾添加 \n 。

下面我們寫一個(gè)統(tǒng)計(jì)文件中詞頻的程序。

它會(huì)統(tǒng)計(jì)文件中各個(gè)詞的出現(xiàn)的次數(shù)，然后由高到低顯示出前5個(gè)詞。

首先我們完成打開(kāi)和關(guān)閉文件的程序內(nèi)容：

在例子中，由用戶輸入文件名，并且使用異常捕獲以處理文件打開(kāi)時(shí)的錯(cuò)誤。

下面對(duì)內(nèi)容進(jìn)行統(tǒng)計(jì)：

這個(gè)程序：

如此，我們就在字典中存放了單詞:次數(shù) 的鍵值對(duì)。

由于字典不能保存順序，所以不能對(duì)其進(jìn)行排序。為此，將每個(gè)鍵值對(duì)都添加到一個(gè)列表中：

在列表 word_list 中，每一項(xiàng)都是一個(gè)元組，每個(gè)元組第一個(gè)值是單詞出現(xiàn)的次數(shù)，第二個(gè)值是單詞內(nèi)容。

對(duì)其進(jìn)行逆向（由大到?。┡判颍?/p>

打印最終結(jié)果：

整個(gè)程序如下：

下面是程序運(yùn)行結(jié)果的示例：

名稱欄目：python文本處理函數(shù),python 處理文本內(nèi)容
標(biāo)題來(lái)源：http://weahome.cn/article/phchch.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

python文本處理函數(shù),python 處理文本內(nèi)容

python文本訓(xùn)練后怎么用

Python 數(shù)據(jù)處理（三十六）—— 文本數(shù)據(jù)處理（續(xù)）

python操作文本文件

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管