在excel處理大量數(shù)據(jù)匹配過程中,雖然可以使用vlookup,但是數(shù)據(jù)量超過10萬進行批量匹配的時候,效率非常差,因此使用python。經(jīng)查,發(fā)現(xiàn)python通過pandas庫的merge可以實現(xiàn)類似于SQL中join的功能
創(chuàng)新互聯(lián)建站長期為上1000家客戶提供的網(wǎng)站建設(shè)服務(wù),團隊從業(yè)經(jīng)驗10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為大柴旦企業(yè)提供專業(yè)的成都做網(wǎng)站、成都網(wǎng)站建設(shè),大柴旦網(wǎng)站改版等技術(shù)服務(wù)。擁有十年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。
import pandas as pd
import numpy as np
# %%
with pd.ExcelFile('xx.xlsx') as xls:
df1 = pd.read_excel(xls,'Sheet1')
df2 = pd.read_excel(xls,'Sheet2')
outer=pd.merge(df1,df2,on='key')
outer.to_excel('outer_function.xlsx',index=False,encoding='utf-8')
最終實現(xiàn)Sheet1和Sheet2基于相同key字段的匹配,拼接。
工作需要寫了一個python小函數(shù)。
用fuzzywuzzy模糊匹配技巧解決人工數(shù)據(jù)和標準數(shù)據(jù)的匹配問題.基本原理是先精確匹配,如果沒有,采用模糊匹配遍歷目標空間,選取打分最大。
生物信息處理一些經(jīng)過人工輸入的數(shù)據(jù),往往有少量的錯誤但是這些元數(shù)據(jù)往往要與結(jié)果數(shù)據(jù)統(tǒng)一分析,且非常之重要數(shù)據(jù)量小,那就一個一個改吧,工作需要寫了一個python小函數(shù),用fuzzywuzzy模糊匹配技巧解決人工數(shù)據(jù)和標準數(shù)據(jù)的匹配問題基本原理是先精確匹配,如果沒有,采用模糊匹配遍歷目標空間,選取打分最大的提交用戶檢查,最后輸出結(jié)果。
Python語句list(range(1,10,3))執(zhí)行結(jié)果為[1,4,7]。
語法是:range(start,stop[,step])
參數(shù)說明:
(1)start:計數(shù)從start開始,默認是從0開始。例如range(5)等價于range(0,5);
(2)stop:計數(shù)到stop結(jié)束,但不包括stop。例如:range(0,5)是[0,1,2,3,4]沒有5;
(3)step:步長,默認為1。例如:range(0,5)等價于range(0,5,1)。
因此,range(1,10,3)的意思是1到10之間的tuple,間隔為3,所以結(jié)果是(1,4,7)。
列表(List)是最常用的Python數(shù)據(jù)類型,它可以作為一個方括號內(nèi)的逗號分隔值出現(xiàn)。
所以,list(range(1,10,3))執(zhí)行結(jié)果為[1,4,7]。
擴展資料
Python列表函數(shù)方法
Python包含以下函數(shù):
1、cmp(list1, list2):比較兩個列表的元素;
2、len(list):列表元素個數(shù);
3、max(list):返回列表元素最大值;
4、min(list):返回列表元素最小值;
5、list(seq):將元組轉(zhuǎn)換為列表。
Python包含以下方法:
1、list.append(obj):在列表末尾添加新的對象;
2、list.count(obj):統(tǒng)計某個元素在列表中出現(xiàn)的次數(shù);
3、list.extend(seq):在列表末尾一次性追加另一個序列中的多個值(用新列表擴展原來的列表);
4、list.index(obj):從列表中找出某個值第一個匹配項的索引位置;
5、list.insert(index, obj):將對象插入列表;
6、list.pop([index=-1]):移除列表中的一個元素(默認最后一個元素),并且返回該元素的值;
7、list.remove(obj):移除列表中某個值的第一個匹配項;
8、list.reverse():反向列表中元素;
9、list.sort(cmp=None, key=None, reverse=False):對原列表進行排序。