1、print()函數(shù):打印字符串;
專注于為中小企業(yè)提供成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)海寧免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了成百上千企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。
2、raw_input()函數(shù):從用戶鍵盤捕獲字符;
3、len()函數(shù):計(jì)算字符長(zhǎng)度;
4、format()函數(shù):實(shí)現(xiàn)格式化輸出;
5、type()函數(shù):查詢對(duì)象的類型;
6、int()函數(shù)、float()函數(shù)、str()函數(shù)等:類型的轉(zhuǎn)化函數(shù);
7、id()函數(shù):獲取對(duì)象的內(nèi)存地址;
8、help()函數(shù):Python的幫助函數(shù);
9、s.islower()函數(shù):判斷字符小寫;
10、s.sppace()函數(shù):判斷是否為空格;
11、str.replace()函數(shù):替換字符;
12、import()函數(shù):引進(jìn)庫(kù);
13、math.sin()函數(shù):sin()函數(shù);
14、math.pow()函數(shù):計(jì)算次方函數(shù);
15、os.getcwd()函數(shù):獲取當(dāng)前工作目錄;
16、listdir()函數(shù):顯示當(dāng)前目錄下的文件;
17、time.sleep()函數(shù):停止一段時(shí)間;
18、random.randint()函數(shù):產(chǎn)生隨機(jī)數(shù);
19、range()函數(shù):返回一個(gè)列表,打印從1到100;
20、file.read()函數(shù):讀取文件返回字符串;
21、file.readlines()函數(shù):讀取文件返回列表;
22、file.readline()函數(shù):讀取一行文件并返回字符串;
23、split()函數(shù):用什么來(lái)間隔字符串;
24、isalnum()函數(shù):判斷是否為有效數(shù)字或字符;
25、isalpha()函數(shù):判斷是否全為字符;
26、isdigit()函數(shù):判斷是否全為數(shù)字;
27、 lower()函數(shù):將數(shù)據(jù)改成小寫;
28、upper()函數(shù):將數(shù)據(jù)改成大寫;
29、startswith(s)函數(shù):判斷字符串是否以s開始的;
30、endwith(s)函數(shù):判斷字符串是否以s結(jié)尾的;
31、file.write()函數(shù):寫入函數(shù);
32、file.writeline()函數(shù):寫入文件;
33、abs()函數(shù):得到某數(shù)的絕對(duì)值;
34、file.sort()函數(shù):對(duì)書數(shù)據(jù)排序;
35、tuple()函數(shù):創(chuàng)建一個(gè)元組;
36、find()函數(shù):查找 返回的是索引;
37、dict()函數(shù):創(chuàng)建字典;
38、clear()函數(shù):清楚字典中的所有項(xiàng);
39、copy()函數(shù):復(fù)制一個(gè)字典,會(huì)修改所有的字典;
40、 get()函數(shù):查詢字典中的元素。
…………
1、定義函數(shù)
函數(shù)是可重用的程序。本書中已經(jīng)使用了許多內(nèi)建函數(shù),如len()函數(shù)和range()函數(shù),但是還沒自定義過(guò)函數(shù)。定義函數(shù)的語(yǔ)法格式如下:
def 函數(shù)名(參數(shù)):
函數(shù)體
定義函數(shù)的規(guī)則如下:
①關(guān)鍵字def用來(lái)定義一個(gè)函數(shù),它是define的縮寫。
②函數(shù)名是函數(shù)的唯一標(biāo)識(shí),函數(shù)名的命名規(guī)則遵循標(biāo)識(shí)符的命名規(guī)則。
③函數(shù)名后面一定要緊跟著一個(gè)括號(hào),括號(hào)內(nèi)的參數(shù)是可選的,括號(hào)后面要有冒號(hào)。
④函數(shù)體(statement)為一個(gè)或一組Python語(yǔ)句,注意要有縮進(jìn)。
⑤函數(shù)體的第一行可以有文檔字符串,用于描述函數(shù)的功能,用三引號(hào)括起來(lái)。
按照定義規(guī)則,可以定義第一個(gè)函數(shù)了:
def?hello_world():
...?????print('Hello,world!')???#?注意函數(shù)體要有縮進(jìn)
...
hello_world()
Hello,world!
這個(gè)函數(shù)不帶任何參數(shù),它的功能是打印出“Hello,world!”。最后一行代碼hello_world()是調(diào)用函數(shù),即讓Python執(zhí)行函數(shù)的代碼。
2、全局變量和局部變量
全局變量是定義在所有函數(shù)外的變量。例如,定義一個(gè)全局變量a,分別在函數(shù)test1()和test2()使用變量a:
a?=?100???#?全局變量
def?test1():
...?????print(a)
...
def?test2():
...?????print(a)
...
test1()
100
test2()
100
定義了全局變量a之后,在函數(shù)test1()和test2()內(nèi)都可以使用變量a,由此可知,全局變量的作用范圍是全局。
局部變量是在函數(shù)內(nèi)定義的變量,除了用關(guān)鍵字global修飾的變量以外。例如,在函數(shù)test1()內(nèi)定義一個(gè)局部變量a,分別在函數(shù)外和另一個(gè)函數(shù)test2()內(nèi)使用變量a:
def?test1():
...?????a?=?100???#?局部變量
...?????print(a)
...
def?test2():
...?????print(a)
...
test1()
100
print(a)
Traceback?(most?recent?call?last):
File?"stdin",?line?1,?in?module
NameError:?name?'a'?is?not?defined
test2()
Traceback?(most?recent?call?last):
File?"stdin",?line?1,?in?module
File?"stdin",?line?2,?in?test2
NameError:?name?'a'?is?not?defined
Python解釋器提示出錯(cuò)了。由于局部變量a定義在函數(shù)test1()內(nèi),因此,在函數(shù)test1()內(nèi)可以使用變量a,但是在函數(shù)外或者另一個(gè)函數(shù)test2()內(nèi)使用變量a,都會(huì)報(bào)錯(cuò),由此可見,局部變量的作用范圍是定義它的函數(shù)內(nèi)部。
一般情況下,在函數(shù)內(nèi)聲明的變量都是局部變量,但是采用關(guān)鍵字global修飾的變量卻是全局變量:
def?test1():
...?????global?a???#?全局變量
...?????a?=?100
...?????print(a)
...
def?test2():
...?????print(a)
...
test1()
100
print(a)
100
test2()
100
這個(gè)程序與上個(gè)程序相比,只是在函數(shù)test1()中多了一行代碼“global a”,程序便可以正確運(yùn)行了。在函數(shù)test1()中,采用關(guān)鍵字global修飾了變量a之后,變量a就變成了全局變量,不僅可以在該函數(shù)內(nèi)使用,還可以在函數(shù)外或者其他函數(shù)內(nèi)使用。
如果在某個(gè)函數(shù)內(nèi)局部變量與全局變量同名,那么在該函數(shù)中局部變量會(huì)覆蓋全局變量:
a?=?100???#?全局變量
def?test1():
...?????a?=?200???#?同名局部變量
...?????print(a)
...
def?test2():
...?????print(a)
...
test1()
200
test2()
100
由于在函數(shù)test1()中定義了一個(gè)與全局變量同名的局部變量a,因此,在函數(shù)test1()中全局變量a的值被局部變量覆蓋了,但是在函數(shù)test2()中全局變量a的值沒有被覆蓋。
綜上所述,在Python中,全局變量保存的數(shù)據(jù)供整個(gè)腳本文件使用;而局部變量只用于臨時(shí)保存數(shù)據(jù),變量?jī)H供局部代碼塊使用。
是的,
判斷列索引是不是重復(fù)
print(data.index.is_unique)
False#表示有重復(fù).
后面這個(gè)index. duplicate()是一個(gè)函數(shù),他會(huì)返回每一個(gè)index是否有重復(fù)的情況。
數(shù)學(xué)相關(guān)
abs(a) : 求取絕對(duì)值。abs(-1)
max(list) : 求取list最大值。max([1,2,3])
min(list) : 求取list最小值。min([1,2,3])
sum(list) : 求取list元素的和。 sum([1,2,3]) 6
sorted(list) : 排序,返回排序后的list。
len(list) : list長(zhǎng)度,len([1,2,3])
divmod(a,b): 獲取商和余數(shù)。 divmod(5,2) (2,1)
pow(a,b) : 獲取乘方數(shù)。pow(2,3) 8
round(a,b) : 獲取指定位數(shù)的小數(shù)。a代表浮點(diǎn)數(shù),b代表要保留的位數(shù)。round(3.1415926,2) 3.14
range(a[,b]) : 生成一個(gè)a到b的數(shù)組,左閉右開。range(1,10) [1,2,3,4,5,6,7,8,9]
類型轉(zhuǎn)換
int(str) : 轉(zhuǎn)換為int型。int('1') 1
float(int/str) : 將int型或字符型轉(zhuǎn)換為浮點(diǎn)型。float('1') 1.0
str(int) : 轉(zhuǎn)換為字符型。str(1) '1'
bool(int) : 轉(zhuǎn)換為布爾類型。 str(0) False str(None) False
bytes(str,code) : 接收一個(gè)字符串,與所要編碼的格式,返回一個(gè)字節(jié)流類型。bytes('abc', 'utf-8') b'abc' bytes(u'爬蟲', 'utf-8') b'xe7x88xacxe8x99xab'
list(iterable) : 轉(zhuǎn)換為list。 list((1,2,3)) [1,2,3]
iter(iterable): 返回一個(gè)可迭代的對(duì)象。 iter([1,2,3]) list_iterator object at 0x0000000003813B00
dict(iterable) : 轉(zhuǎn)換為dict。 dict([('a', 1), ('b', 2), ('c', 3)]) {'a':1, 'b':2, 'c':3}
enumerate(iterable) : 返回一個(gè)枚舉對(duì)象。
tuple(iterable) : 轉(zhuǎn)換為tuple。 tuple([1,2,3]) (1,2,3)
set(iterable) : 轉(zhuǎn)換為set。 set([1,4,2,4,3,5]) {1,2,3,4,5} set({1:'a',2:'b',3:'c'}) {1,2,3}
hex(int) : 轉(zhuǎn)換為16進(jìn)制。hex(1024) '0x400'
oct(int) : 轉(zhuǎn)換為8進(jìn)制。 oct(1024) '0o2000'
bin(int) : 轉(zhuǎn)換為2進(jìn)制。 bin(1024) '0b10000000000'
chr(int) : 轉(zhuǎn)換數(shù)字為相應(yīng)ASCI碼字符。 chr(65) 'A'
ord(str) : 轉(zhuǎn)換ASCI字符為相應(yīng)的數(shù)字。 ord('A') 65
相關(guān)操作
eval****() : 執(zhí)行一個(gè)表達(dá)式,或字符串作為運(yùn)算。 eval('1+1') 2
exec() : 執(zhí)行python語(yǔ)句。 exec('print("Python")') Python
filter(func, iterable) : 通過(guò)判斷函數(shù)fun,篩選符合條件的元素。 filter(lambda x: x3, [1,2,3,4,5,6]) filter object at 0x0000000003813828
map(func, *iterable) : 將func用于每個(gè)iterable對(duì)象。 map(lambda a,b: a+b, [1,2,3,4], [5,6,7]) [6,8,10]
zip(*iterable) : 將iterable分組合并。返回一個(gè)zip對(duì)象。 list(zip([1,2,3],[4,5,6])) [(1, 4), (2, 5), (3, 6)]
type():返回一個(gè)對(duì)象的類型。
id(): 返回一個(gè)對(duì)象的唯一標(biāo)識(shí)值。
hash(object):返回一個(gè)對(duì)象的hash值,具有相同值的object具有相同的hash值。 hash('python') 7070808359261009780
help():調(diào)用系統(tǒng)內(nèi)置的幫助系統(tǒng)。
isinstance():判斷一個(gè)對(duì)象是否為該類的一個(gè)實(shí)例。
issubclass():判斷一個(gè)類是否為另一個(gè)類的子類。
globals() : 返回當(dāng)前全局變量的字典。
next(iterator[, default]) : 接收一個(gè)迭代器,返回迭代器中的數(shù)值,如果設(shè)置了default,則當(dāng)?shù)髦械脑乇闅v后,輸出default內(nèi)容。
reversed(sequence) : 生成一個(gè)反轉(zhuǎn)序列的迭代器。 reversed('abc') ['c','b','a']
第一部分是生成數(shù)據(jù)表,常見的生成方法有兩種,第一種是導(dǎo)入外部數(shù)據(jù),第二種是直接寫入數(shù)據(jù)。 Excel 中的文件菜單中提供了獲取外部數(shù)據(jù)的功能,支持?jǐn)?shù)據(jù)庫(kù)和文本文件和頁(yè)面的多種數(shù)據(jù)源導(dǎo)入。
獲取外部數(shù)據(jù)
python 支持從多種類型的數(shù)據(jù)導(dǎo)入。在開始使用 python 進(jìn)行數(shù)據(jù)導(dǎo)入前需要先導(dǎo)入 pandas 庫(kù),為了方便起見,我們也同時(shí)導(dǎo)入 numpy 庫(kù)。
1 import numpy as np
2 import pandas as pd
導(dǎo)入數(shù)據(jù)表
下面分別是從 excel 和 csv 格式文件導(dǎo)入數(shù)據(jù)并創(chuàng)建數(shù)據(jù)表的方法。代碼是最簡(jiǎn)模式,里面有很多可選參數(shù)設(shè)置,例如列名稱,索引列,數(shù)據(jù)格式等等。感興趣的朋友可以參考 pandas 的
官方文檔。
1 df=pd.DataFrame(pd.read_csv(‘name.csv’,header=1))
2 df=pd.DataFrame(pd.read_excel(‘name.xlsx’))
創(chuàng)建數(shù)據(jù)表
另一種方法是通過(guò)直接寫入數(shù)據(jù)來(lái)生成數(shù)據(jù)表,excel 中直接在單元格中輸入數(shù)據(jù)就可以,python 中通過(guò)下面的代碼來(lái)實(shí)現(xiàn)。生成數(shù)據(jù)表的函數(shù)是 pandas 庫(kù)中的 DateFrame 函數(shù),數(shù)據(jù)表一共有 6 行數(shù)據(jù),每行有 6 個(gè)字段。在數(shù)據(jù)中我們特意設(shè)置了一些 NA 值和有問(wèn)題的字段,例如包含空格等。后面將在數(shù)據(jù)清洗步驟進(jìn)行處理。后面我們將統(tǒng)一以 DataFrame 的簡(jiǎn)稱 df 來(lái)命名數(shù)據(jù)表。
1 df = pd.DataFrame({‘id’:[1001,1002,1003,1004,1005,1006],
2 ‘date’:pd.date_range(‘20130102’, periods=6),
3 ‘city’:['Beijing ', ‘SH’, ’ guangzhou ', ‘Shenzhen’, ‘shanghai’, 'BEIJING '],
4 ‘a(chǎn)ge’:[23,44,54,32,34,32],
5 ‘category’:[‘100-A’,‘100-B’,‘110-A’,‘110-C’,‘210-A’,‘130-F’],
6 ‘price’:[1200,np.nan,2133,5433,np.nan,4432]},
7 columns =[‘id’,‘date’,‘city’,‘category’,‘a(chǎn)ge’,‘price’])
這是剛剛創(chuàng)建的數(shù)據(jù)表,我們沒有設(shè)置索引列,price 字段中包含有 NA 值,city 字段中還包含了一些臟數(shù)據(jù)。
數(shù)據(jù)表檢查
python 中處理的數(shù)據(jù)量通常會(huì)比較大,所以就需要我們對(duì)數(shù)據(jù)表進(jìn)行檢查。比如我們之前的文章中介紹的紐約出租車數(shù)據(jù)和 Citibike 的騎行數(shù)據(jù),數(shù)據(jù)量都在千萬(wàn)級(jí),我們無(wú)法一目了然的了解數(shù)據(jù)表的整體情況,必須要通過(guò)一些方法來(lái)獲得數(shù)據(jù)表的關(guān)鍵信息。數(shù)據(jù)表檢查的另一個(gè)目的是了解數(shù)據(jù)的概況,例如整個(gè)數(shù)據(jù)表的大小,所占空間,數(shù)據(jù)格式,是否有空值和重復(fù)項(xiàng)和具體的數(shù)據(jù)內(nèi)容。為后面的清洗和預(yù)處理做好準(zhǔn)備。
數(shù)據(jù)維度(行列)
Excel 中可以通過(guò) CTRL 向下的光標(biāo)鍵,和 CTRL 向右的光標(biāo)鍵來(lái)查看行號(hào)和列號(hào)。Python 中使用 shape 函數(shù)來(lái)查看數(shù)據(jù)表的維度,也就是行數(shù)和列數(shù),函數(shù)返回的結(jié)果(6,6)表示數(shù)據(jù)表有 6 行,6 列。下面是具體的代碼。
1 #查看數(shù)據(jù)表的維度
2 df.shape
3 (6, 6)
數(shù)據(jù)表信息
使用 info 函數(shù)查看數(shù)據(jù)表的整體信息,這里返回的信息比較多,包括數(shù)據(jù)維度,列名稱,數(shù)據(jù)格式和所占空間等信息。
1 #數(shù)據(jù)表信息
2 df.info()
4 class ‘pandas.core.frame.DataFrame’
5 RangeIndex: 6 entries, 0 to 5
6 Data columns (total 6 columns):
7 id 6 non-null int64
8 date 6 non-null datetime64[ns]
9 city 6 non-null object
10 category 6 non-null object
11 age 6 non-null int64
12 price 4 non-null float64
13 dtypes: datetime64ns, float64(1), int64(2), object(2)
14 memory usage: 368.0 bytes
查看數(shù)據(jù)格式
Excel 中通過(guò)選中單元格并查看開始菜單中的數(shù)值類型來(lái)判斷數(shù)據(jù)的格式。Python 中使用 dtypes 函數(shù)來(lái)返回?cái)?shù)據(jù)格式。
Dtypes 是一個(gè)查看數(shù)據(jù)格式的函數(shù),可以一次性查看數(shù)據(jù)表中所有數(shù)據(jù)的格式,也可以指定一列來(lái)單獨(dú)查看。
1#查看數(shù)據(jù)表各列格式
2df.dtypes
3
4id int64
5date datetime64[ns]
6city object
7category object
8age int64
9price float64
10dtype: object
11
12#查看單列格式
13df[‘B’].dtype
14
15dtype(‘int64’)
查看空值
Excel 中查看空值的方法是使用“定位條件”功能對(duì)數(shù)據(jù)表中的空值進(jìn)行定位。“定位條件”在“開始”目錄下的“查找和選擇”目錄中。
Isnull 是 Python 中檢驗(yàn)空值的函數(shù),返回的結(jié)果是邏輯值,包含空值返回 True,不包含則返回 False。可以對(duì)整個(gè)數(shù)據(jù)表進(jìn)行檢查,也可以單獨(dú)對(duì)某一列進(jìn)行空值檢查。
df_isnull
1#檢查特定列空值
2df[‘price’].isnull()
3
40 False
51 True
62 False
73 False
84 True
95 False
10Name: price, dtype: bool
查看唯一值
Excel 中查看唯一值的方法是使用“條件格式”對(duì)唯一值進(jìn)行顏色標(biāo)記。Python 中使用 unique 函數(shù)查看唯一值。
Unique 是查看唯一值的函數(shù),只能對(duì)數(shù)據(jù)表中的特定列進(jìn)行檢查。下面是代碼,返回的結(jié)果是該列中的唯一值。類似與 Excel 中刪除重復(fù)項(xiàng)后的結(jié)果。
1 #查看 city 列中的唯一值
2 df[‘city’].unique()34array(['Beijing ', ‘SH’, ’ guangzhou ', ‘Shenzhen’, ‘shanghai’, 'BEIJING '], dtype=object)
查看數(shù)據(jù)表數(shù)值
Python 中的 Values 函數(shù)用來(lái)查看數(shù)據(jù)表中的數(shù)值。以數(shù)組的形式返回,不包含表頭信息。
1#查看數(shù)據(jù)表的值
2df.values
3
4array([[1001, Timestamp(‘2013-01-02 00:00:00’), 'Beijing ', ‘100-A’, 23,
5 1200.0],
6 [1002, Timestamp(‘2013-01-03 00:00:00’), ‘SH’, ‘100-B’, 44, nan],
7 [1003, Timestamp(‘2013-01-04 00:00:00’), ’ guangzhou ', ‘110-A’, 54,
8 2133.0],
9 [1004, Timestamp(‘2013-01-05 00:00:00’), ‘Shenzhen’, ‘110-C’, 32,
10 5433.0],
11 [1005, Timestamp(‘2013-01-06 00:00:00’), ‘shanghai’, ‘210-A’, 34,
12 nan],
13 [1006, Timestamp(‘2013-01-07 00:00:00’), 'BEIJING ', ‘130-F’, 32,
14 4432.0]], dtype=object)
查看列名稱
Colums 函數(shù)用來(lái)單獨(dú)查看數(shù)據(jù)表中的列名稱。
1 #查看列名稱
2 df.columns
3
4 Index([‘id’, ‘date’, ‘city’, ‘category’, ‘a(chǎn)ge’, ‘price’], dtype=‘object’)
查看前 10 行數(shù)據(jù)
Head 函數(shù)用來(lái)查看數(shù)據(jù)表中的前 N 行數(shù)據(jù),默認(rèn) head()顯示前 10 行數(shù)據(jù),可以自己設(shè)置參數(shù)值來(lái)確定查看的行數(shù)。下面的代碼中設(shè)置查看前 3 行的數(shù)據(jù)。
1#查看前 3 行數(shù)據(jù)``df.head(``3``)
Tail 行數(shù)與 head 函數(shù)相反,用來(lái)查看數(shù)據(jù)表中后 N 行的數(shù)據(jù),默認(rèn) tail()顯示后 10 行數(shù)據(jù),可以自己設(shè)置參數(shù)值來(lái)確定查看的行數(shù)。下面的代碼中設(shè)置查看后 3 行的數(shù)據(jù)。
1#查看最后 3 行df.tail(3)