小編給大家分享一下PostgreSQL去重的方法有哪些,相信大部分人都還不怎么了解,因此分享這邊文章給大家學習,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去學習方法吧!
創(chuàng)新互聯(lián)服務項目包括魚臺網(wǎng)站建設、魚臺網(wǎng)站制作、魚臺網(wǎng)頁制作以及魚臺網(wǎng)絡營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術優(yōu)勢、行業(yè)經(jīng)驗、深度合作伙伴關系等,向廣大中小型企業(yè)、政府機構等提供互聯(lián)網(wǎng)行業(yè)的解決方案,魚臺網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟效益。目前,我們服務的客戶以成都為中心已經(jīng)輻射到魚臺省份的部分城市,未來相信會繼續(xù)擴大服務區(qū)域并繼續(xù)獲得客戶的支持與信任!
PostgreSQL怎么去重
方法一:
通過group by分組,然后將分組后的數(shù)據(jù)寫入臨時表然后再寫入另外的表,對于沒有出現(xiàn)再group by后面的field可以用函數(shù)max,min提取,效率較高
推薦:PostgreSQL教程
--適合情況:這種情況適合重復率非常高的情況,一般來說重復率超過5成則可以考慮用這個方法
--優(yōu)點:對于重復率高的數(shù)據(jù)集的去重,十分推薦用這種方法
--缺點:uuid不能用max或min提取,如果需要去重的數(shù)據(jù)集中包含uuid則十分尷尬
create temp table tmp_data1 as select [field1],[field2]...,max(field_special),min(field_special) from group by [field1],[field2]...; insert into [table] select * from tmp_data1;
方法二:
通過union去除完全重復的行,效率較高
--適合情況:這種方法只適合去除完全重復的行
select * from table1 union select * from table1;
方法三:
通過group by加id加not in,即先用group by分組,然后取出該分組下最大或最小的id組成集合,然后配合not in過濾掉重復的數(shù)據(jù),效率很低,可以嘗試配合臨時表(測試發(fā)現(xiàn)依舊很慢)
--適合情況:由于該種方法效率很低,所以不推薦使用,如果數(shù)據(jù)量不大的情況下可以用這種方法,數(shù)據(jù)量只要上了100萬就會很慢很慢
delete from [table] where id not in (select max(id) from table1 group by [field1],[field2]...);
方法四:
通過group by加having加in,即先用group by分組,然后用having count(*)>1取出分組數(shù)量大于1的行(即重復的行),然后用in刪除重復行,效率較高
--適合情況:一條數(shù)據(jù)大概只有一到兩三條重復,這種方法一次只能刪除重復數(shù)據(jù)的一條,如果有些數(shù)據(jù)有幾百次重復那就會累死,其實也可以使用函數(shù)做一個循環(huán),但這樣的效率就不高了
delete from [table] where id in (select max(id) from [table] group by [field1],[field2]... having count(*)>1);
方法五:
使用窗口函數(shù)加id,即可以使用窗口函數(shù)將數(shù)據(jù)分組,并將每個分組按行排號,并將行號與id(唯一id)存入一個集合里,這樣就可以根據(jù)這個集合來取處重復行的id,即通過行號>1,
-- 然后根據(jù)id刪除重復行,效率很高(100萬數(shù)據(jù),重復9萬,時間: 14.596s)
--適合情況:該種方法效率很高,特別推薦使用,但需要了解窗口函數(shù)以及其中的一些關鍵詞的意義
--row_number() 為返回的記錄定義個行編號
--over 與row_number()函數(shù)配套使用
--partition by [field1],[field2]... 根據(jù)指定的字段分組
delete from [table] where id in (select id from (select row_number() over (partition by [field1],[field2]...), id from [table]) as t where t.row_number>1);
以上是PostgreSQL去重的方法有哪些的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學習更多知識,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道!