Postgresql去重函数distinct的用法说明
在项目中我们常会对数据进行去重处理,有时候会用in或者EXISTS函数。或者通过groupby也是可以实现查重
不过Postgresql还有自带去重函数:distinct
下面是distinct的实例:
1、创建表:user
CREATETABLE`user`( `name`varchar(30)DEFAULTNULL, `age`int(11)DEFAULTNULL )ENGINE=InnoDBDEFAULTCHARSET=utf8; INSERTINTO`user`VALUES('张三',20); INSERTINTO`user`VALUES('李四',22); INSERTINTO`user`VALUES('李四',20); INSERTINTO`user`VALUES('张三',22); INSERTINTO`user`VALUES('张三',20);
查询结果:
SELECT*FROMuser 张三20 李四22 李四20 张三22 张三20
2、根据name查询去重后的数据:
SELECTdistinctnameFROMuser 张三 李四
3、根据name和age查询去重后的数据:
SELECTdistinctname,ageFROMuser 张三20 李四22 李四20 张三22
4、根据name,age查询重复数据数:
SELECTdistinctname,age,count(*)数据条数FROMuserGROUPBYname,age 张三202 张三221 李四201 李四221
二、查出重复数据后,我们需要删除重复数据
删除重复数据一般几种方式,一般采用临时表或者根据某个字段,例如id等,通过max或者min函数去重。
补充:基于postgresqlctid实现数据的差异同步
项目背景:
最近在做异构数据同步方面(非实时)的工作,从oracle,gbase,postgresql向mysql数据库中同步,对于没有自增字段(自增ID或时间字段)的业务表,做差异同步是一件非常麻烦的事情,主要体现在记录的新增、更新与删除上
备注:源库只提供一个只读权限的用户
ctid在pg中的作用
ctid是用来指向自身或新元组的元组标识符,怎么理解呢?下面能过几个实验来测试一下
satdb=#createtabletest_ctid(idint,namevarchar(100)); satdb=#insertintotest_ctidvalues(1,‘a'),(1,‘a'); satdb=#insertintotest_ctidvalues(2,‘a'),(3,‘a');
查看记录的ctid值
satdb=#selectid,name,ctidfromtest_ctid; id|name|ctid ----±-----±------ 1|a|(0,1) 1|a|(0,2) 2|a|(0,3) 3|a|(0,4) (4rows)
对id为2的记录进行更新
satdb=#updatetest_ctidsetname=‘b'whereid=2; UPDATE1
这里可以看到id=2的记录指向了新的元组标识符(0,5)
satdb=#selectid,name,ctidfromtest_ctid; id|name|ctid ----±-----±------ 1|a|(0,1) 1|a|(0,2) 3|a|(0,4) 2|b|(0,5) (4rows) satdb=#select*fromtest_ctidwherectid='(0,1)'; id|name ----±----- 1|a (1row)
删除id=3的记录后,对应的ctid(0,4)不存在了
satdb=#deletefromtest_ctidwhereid=3; DELETE1 satdb=#select*,ctidfromtest_ctid; id|name|ctid ----±-----±------ 1|a|(0,1) 1|a|(0,2) 2|b|(0,5) (3rows)
再插入一条记录时,看看会不会使用(0,4)这个标识符
satdb=#insertintotest_ctidvalues(3,‘d'); INSERT01 satdb=#select*,ctidfromtest_ctid; id|name|ctid ----±-----±------ 1|a|(0,1) 1|a|(0,2) 2|b|(0,5) 3|d|(0,6)
这里新插入的记录不会使用(0,4),而是直接分配新的标识符(0,6)
总结:
1、ctid的作用与oraclerowid类似,可以唯一标识一条记录
2、记录的更新后,后生产新的ctid
3、记录删除后,新插入的记录不会使用已经删除记录的ctid
4、基于ctid可以实现记录的去重操作
5、基于ctid可以实现差异增量同步(新增、删除、更新)
以上为个人经验,希望能给大家一个参考,也希望大家多多支持毛票票。如有错误或未考虑完全的地方,望不吝赐教。