Python教程：常用網(wǎng)頁字符串處理技巧

首先一些Python字符串處理的簡易常用的用法。其他的以后用到再補充。

成都創(chuàng)新互聯(lián)是一家專業(yè)提供靈石企業(yè)網(wǎng)站建設,專注與網(wǎng)站制作、成都做網(wǎng)站、H5技術(shù)、小程序制作等業(yè)務。10年已為靈石眾多企業(yè)、政府機構(gòu)等服務。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站制作公司優(yōu)惠進行中。

1.去掉重復空格

s = "hello   hello   hello"
s = ' '.join(s.split())

2.去掉所有回車（或其他字符或字符串）

s = "hello\nhello\nhello hello\n"
print(s)
s = s.replace("\n","")
print(s)

3.查找字符串首次出現(xiàn)的位置（沒有返回-1）

s = "hello\nhello\nhello hello\n"
print(s.find('\n'))
print(s.find('la'))

4.查找字符串從后往前找首次出現(xiàn)的位置（沒有返回-1）

s = "hello\nhello\nhello hello\n"
print(s.rfind('\n'))
print(s.rfind('la'))

5.將字符串轉(zhuǎn)化成列表list

s = "hello\nhello\nhello hello\n"
print(list(s))

6.查找所有匹配的子串

import re

s = "hello\nhello\nhello hello\n"
print(re.findall('hello',s)) # hello也可以換成正則表達式

然后是網(wǎng)頁字符串處理的高端用法：（綜合運用requests模塊，beautifulsoup模塊，re模塊等）

1.requests獲取一個鏈接的內(nèi)容并原封不動寫入文件

import requests

r = requests.get('https://baike.baidu.com')
with open('test.html', 'wb') as fd:
    for chunk in r.iter_content(100):
        fd.write(chunk)

2.讀取一個文件的所有內(nèi)容存到一個字符串里

# encoding : utf-8

with open('test.html','r',encoding='utf-8') as f:
    content = f.readlines()
content = ''.join(content)
# content = content.replace('\n','') # 如果想去掉回車可以加上這行
print(content)

3.把網(wǎng)頁字符串用BeautifulSoup存起來處理

from bs4 import BeautifulSoup

soup = BeautifulSoup(content,'html.parser')
print(soup.prettify())

4.存到BeautifulSoup里之后這個字符串就可以任你擺布了，比如：提取出所有標簽

'''
學習中遇到問題沒人解答？小編創(chuàng)建了一個Python學習交流群：
尋找有志同道合的小伙伴，互幫互助,群里還有不錯的視頻學習教程和PDF電子書！
'''

soup = BeautifulSoup(content,'html.parser')
print(soup.find_all('a'))

或者提取出所有標簽和標簽

soup = BeautifulSoup(content,'html.parser') print(soup.find_all(['a','b']))

這些屬于beautifulsoup的內(nèi)容了

5.多個關(guān)鍵字切分字符串

import re re.split('; |, ',str) >>> a='Beautiful, is; better*than\nugly' >>> import re >>> re.split('; |, |\*|\n',a) ['Beautiful', 'is', 'better', 'than', 'ugly']

當前題目：Python教程：常用網(wǎng)頁字符串處理技巧
URL地址：http://weahome.cn/article/dsogjcj.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python教程：常用網(wǎng)頁字符串處理技巧

1.去掉重復空格

2.去掉所有回車（或其他字符或字符串）

3.查找字符串首次出現(xiàn)的位置（沒有返回-1）

4.查找字符串從后往前找首次出現(xiàn)的位置（沒有返回-1）

5.將字符串轉(zhuǎn)化成列表list

6.查找所有匹配的子串

然后是網(wǎng)頁字符串處理的高端用法：（綜合運用requests模塊，beautifulsoup模塊，re模塊等）

1.requests獲取一個鏈接的內(nèi)容并原封不動寫入文件

2.讀取一個文件的所有內(nèi)容存到一個字符串里

3.把網(wǎng)頁字符串用BeautifulSoup存起來處理

4.存到BeautifulSoup里之后這個字符串就可以任你擺布了，比如：提取出所有標簽

5.多個關(guān)鍵字切分字符串

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設

服務器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python教程：常用網(wǎng)頁字符串處理技巧

1.去掉重復空格

2.去掉所有回車（或其他字符或字符串）

3.查找字符串首次出現(xiàn)的位置（沒有返回-1）

4.查找字符串從后往前找首次出現(xiàn)的位置（沒有返回-1）

5.將字符串轉(zhuǎn)化成列表list

6.查找所有匹配的子串

然后是網(wǎng)頁字符串處理的高端用法：（綜合運用requests模塊，beautifulsoup模塊，re模塊等）

1.requests獲取一個鏈接的內(nèi)容并原封不動寫入文件

2.讀取一個文件的所有內(nèi)容存到一個字符串里

3.把網(wǎng)頁字符串用BeautifulSoup存起來處理

4.存到BeautifulSoup里之后這個字符串就可以任你擺布了，比如：提取出所有標簽

5.多個關(guān)鍵字切分字符串

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設

服務器托管

然后是網(wǎng)頁字符串處理的高端用法：（綜合運用requests模塊，beautifulsoup模塊，re模塊等）

4.存到BeautifulSoup里之后這個字符串就可以任你擺布了，比如：提取出所有標簽