sql 如何过滤重复记录

请各位大侠帮忙了
问题1：对于以下几个记录
ID
123456
123123
123456
123456
123789

所有执行完SQL后的结果顺序与原ID顺序相同，另外由于涉及到数十万条记录的操作，要求速度要快
要求结果1：去除重复ID，显示记录结果为
123456
123123
123789
要求结果2：去掉重复ID，显示结果为
123123
123789 （与结果1不同的是将所有123456都去除了，而结果1进行了保存）
要求3：根据阈值的不同，决定是否进行重复过滤，例如阈值设置为2，由于123456的重复个数为3，那么由于3》2
结果为
123123
123789
如果阈值为4，由于3《4
结果为
123456
123123
123456
123456
123789

要求结果4：上面提到的过滤均是整个字段的过滤，如果有如下新的需求，只针对字段的前三位进行过滤，上面字段的前三位均是123，那么过滤结果是这6个字符串都是相同的（因为只取前三位作为比较依据），最终输出结果就是这六个字符串，
而如果选择前四位进行过滤，上面字段中有三个是相同的，1234开头的，最终输出结果就是这三个字符串

举报该问题

推荐答案 2018-04-04

问题背景

在一个多表查询的sql中正常情况下产生的数据都是唯一的，但因为数据库中存在错误(某张表中存在相同的外键ID)导致我这边查询出来的数据就会有重复的问题

下面结果集中UserID：15834存在多个

查询Sql如下：

SELECT *FROM (SELECT ROW_NUMBER() OVER ( ORDER BY T.USERID asc )AS Row
,T.USERID
,T.CreateTimeFROM UserInfo TLEFT JOIN DiseaseInfo i ON i.UserID=T.UserID
) TT WHERE TT.Row between 0 AND 20 ORDER BY UserID DESC

解决方法：

参考下面新的解决方案

在网络上了解到MSSql中通过关键字“PARTITION BY”可以将查询结果集进行分区处理,然后在查询结果集时就可以过滤掉重复的记录了(如果有指定分区字段则区ID相同)

通过更改后的Sql,在Over中添加PARTITION BY T.USERID以UserID进行分区,然后在查询结果集时通过DISTINCT ROW ,过滤掉重复的分区ID号

SELECT DISTINCT ROW ,*FROM (SELECT ROW_NUMBER() OVER (PARTITION BY T.USERID ORDER BY T.USERID asc )AS Row
,T.USERID
,T.CreateTimeFROM UserInfo TLEFT JOIN DiseaseInfo i ON i.UserID=T.UserID
) TT WHERE TT.Row between 0 AND 12 ORDER BY UserID DESC

查询时未过滤重复分区IDDISTINCT ROW ,下面的结果集跟上面的结果集不同(Row是进行过分区的所有有重复Row)

在查询结果集时过滤掉重复的分区ID号 DISTINCT ROW ,

新解决方案：

由于在Sqlserver中如果多表联合查询中除非所有的字段都完全相同否则在使用DISTINCT 用进行去重时还是会当成两个不同的数据集进行处理,因此DISTINCT会失效即

如下面的结果集，虽然 USERID和其他字段内容相同但HID是不相同的所以无法使用DISTINCT进行去重

出现这种问题是因为数据库设计的错误(正常情况下关联表HospitalInfo中只可能存在一条ClinicInfo表对应的记录)

Sql语句：

SELECT *FROM (SELECT ROW_NUMBER() OVER ( order by T.USERID asc )AS Row
,T.USERID
,LEFT(T.Patient_Tel1,5)+'00000000' AS Tel
,T.CreateTime
,h.HName
,h.HID
fromUserInfo TLEFT JOIN ClinicInfo c ON c.UserID=T.UserID AND C.Disabled=1LEFT JOIN HospitalInfo H ON H.HID=c.VisitHospital WHERE T.Disabled=1AND t.UserID>=17867 AND T.UserID<=17875--(T.Patient_Tel1 like '%13800000000%')) TT WHERETT.Row between 0and20

可以看到上面的结果集中Row是有重复的，其他Row为2的是跟第一个是重复的

因为数据库涉及到其他业务和人员因此我只能提交该问题给相关的技术，但在该问题解决前不能影响到我这边也出现此问题

于是在原sql基础上进行处理,虽然HospitalInfo表中不重复记录但表的自增ID是不可能重复的那我只需要最新的一条记录即可

如果通过DISTINCT过进行去重则就无法成功，因为数据存在差别，可以看到第一条和最后一条数据还是重复的

SELECT DISTINCT row,*FROM (SELECT ROW_NUMBER() OVER ( partition by T.USERID order by T.USERID asc )AS Row
,T.USERID
,LEFT(T.Patient_Tel1,5)+'00000000' AS Tel
,T.CreateTime
,h.HName
,h.HID
fromUserInfo TLEFT JOIN ClinicInfo c ON c.UserID=T.UserID AND C.Disabled=1LEFT JOIN HospitalInfo H ON H.HID=c.VisitHospital WHERE T.Disabled=1AND t.UserID>=17867 AND T.UserID<=17875--(T.Patient_Tel1 like '%13800000000%')) TT WHERE--row=1 ANDTT.Row between 0 and 20

更改后的Sql

SELECT *FROM (--partition by T.USERID 以UserID对结果集进行分区SELECT ROW_NUMBER() OVER ( partition by T.USERID order by T.USERID asc )AS Row
,T.USERID
,LEFT(T.Patient_Tel1,5)+'00000000' AS Tel
,T.CreateTime
,h.HName
,h.HID
fromUserInfo TLEFT JOIN ClinicInfo c ON c.UserID=T.UserID AND C.Disabled=1LEFT JOIN HospitalInfo H ON H.HID=c.VisitHospital WHERE T.Disabled=1AND t.UserID>=17867 AND T.UserID<=17875--(T.Patient_Tel1 like '%13800000000%')) TT WHERE--因为之前已经以UserID对结果集进行分区,所以如果存在重复的字段则row的值会不相同--row=1 ANDTT.Row between 0 and 20

USERID=17867相同经过分区后会存在不同的Row值

在对结果集再次过滤时添加条件 : row=1,已经将重复记录中旧的数据过滤掉了 (HID:78)

根据新的解决方案解决了重复的问题，但又出现的新的问题即Row分区后都是重复的，而我再进行分页的时候就无效了(因为此时结果集中的Row都是为1)

解决方案：在结果集再加一层查询并加上ID号然后再对结果集进行分页处理

-- 新增一层查询解决过滤掉重复数据后无法分页的问题SELECT * FROM (SELECT ROW_NUMBER() OVER (ORDER BY userid) AS RowNum,*FROM (--partition by T.USERID 以UserID对结果集进行分区SELECT ROW_NUMBER() OVER ( partition by T.USERID order by T.USERID asc )AS Row
,T.USERID
,LEFT(T.Patient_Tel1,5)+'00000000' AS Tel
,T.CreateTime
,h.HName
,h.HID
fromUserInfo TLEFT JOIN ClinicInfo c ON c.UserID=T.UserID AND C.Disabled=1LEFT JOIN HospitalInfo H ON H.HID=c.VisitHospital WHERE T.Disabled=1AND t.UserID>=17867 AND T.UserID<=20875--(T.Patient_Tel1 like '%13800000000%')) TT
)AS TWHERE--过滤重复数据Row=1--对结果进行分页AND RowNum between 13 and 24

参考：

MSDN: OVER 子句 (Transact-SQL)

stackoverflow sql query distinct with Row_Number

SQL Trick: row_number() is to SELECT what dense_rank() is to SELECT DISTINCT

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/vWjvv7WBv.html

其他回答

第1个回答推荐于2017-11-23

要求结果1：
如果只取ID列 select distinct ID from table1
如果还有其他列，在id相同情况下，取col1最小的记录。
select ID,col1 from table1 t1 where not exists(select * from table1 where ID=t1.ID and col1>t1.col1)
要求结果2：
select ID from table1 t1 where not exists (select * from table1 where ID=t1.ID)
select ID from table1 t1 where (select count(*) from table1 where ID=t1.ID)=1
要求3：例如阈值设置为2
select ID from table1 t1 where (select count(*) from table1 where ID=t1.ID)<=2
要求结果4：选择前四位进行过滤
select distinct ID=left(ID,4) from table1
只要把前面语句中的ID换成left(ID,4)就可以了。本回答被提问者采纳

第2个回答 2011-01-30

1楼第一个结果还不错，也可以用
SELECT First(test1.id)
FROM test1
GROUP BY test1.id

后面的用HAVE子句比较方便, 不用2个SQL

结果2
SELECT First(test1.id)
FROM test1
GROUP BY test1.id
HAVING Count(test1.id)=1;

结果3
SELECT First(test1.id)
FROM test1
GROUP BY test1.id
HAVING Count(test1.id)<=2;
<=阈值

结果4 同样用LEFT：
1
SELECT First(test1.id)
FROM test1
GROUP BY left(test1.id,4)

后面的用HAVE子句比较方便, 不用2个SQL

结果2
SELECT First(test1.id)
FROM test1
GROUP BY left(test1.id,4)
HAVING Count(left(test1.id,4))=1;

结果3
SELECT First(test1.id)
FROM test1
GROUP BY left(test1.id,4)
HAVING Count(left(test1.id,4))<=2;

相似回答

sql 如何过滤重复记录?答：在网络上了解到MSSql中通过关键字“PARTITION BY”可以将查询结果集进行分区处理,然后在查询结果集时就可以过滤掉重复的记录了(如果有指定分区字段则区ID相同)通过更改后的Sql,在Over中添加PARTITION BY T.USERID以UserID进行分区,然后在查询结果集时通过DISTINCT ROW ,过滤掉重复的分区ID号 SELECT DISTIN...

sql查询去掉重复记录答：1、打开要去掉重复数据的数据库，这里新建一张含有重复数据的user表做示例，如下图所示：2、输入“select * from user where name in (select name from user group by name having count(name) > 1) ”sql语句，点击运行可以看到查询出了数据库中user表的重复数据。3、通过“delete from user whe...

sql中如何删除一个表中重复的记录?答：sql中删除一个表中的重复记录可以采用如下步骤：1、把a_dist表的记录用distinct去重，结果放到临时表中。select distinct * into #temp from a_dist;2、把a_dist表的记录全部删除。delete from a_dist;3、把临时表中的数据信息导进到a_dist表中，并删除临时表。insert into a_dist select *...

SQL查询中如何剔除重复答：1，存在两条完全相同的纪录这是最简单的一种情况，用关键字distinct就可以去掉 example： select distinct * from table(表名) where (条件)2，存在部分字段相同的纪录（有主键id即唯一键）如果是这种情况的话用distinct是过滤不了的，这就要用到主键id的唯一性特点及group by分组 example:select * ...

SQL查询语句,怎样查询重复数据答：1、第一步，打开数据库，并创建一个包含重复数据的新用户表，见下图，转到下面的步骤。2、第二步，执行完上面的操作之后，输入如下红框中的SQL语句，然后单击运行按钮，以查看数据库中用户表中的重复数据，见下图，转到下面的步骤。3、第三步，执行完上面的操作之后，查找出了具有重复名称的数据，见...

SQL如何去重?答：5、distinct除了过滤整个表不重复的记录之外，还可以对指定列去重复，多个列使用逗号分开即可 select distinct Col1 from #tmp1;select distinct Col1, Col2 from #tmp1;6、如果想返回临时表中Col1列不重复的记录行数，该如何书写sql语句呢？使用下面的sql，从运行结果来看，并没有达到预期的效果 sel...

sql 过滤重复记录并按倒序排列答：Select Max(id) As Id,Title From TableName Group By Title Order By Id DescDistinct是去掉完全相同的记录,因为你的id不同,所以没用.我是这样理解的,按id降序排序,按Title分组,相同的取ID最大,能达到你要的效果,查询不止一个字段时,其他字段分别加上Max()或者Min()Select Max(id) As Id...

求SQL语句 过滤重复记录 只显示一条答：这里第二次用name字段进行分组并用Max函数找出各组中自动ID字段值最大的那条记录。到此，我们已经过滤字段name重复值并且选取number 最大值并得到与记录准确对应的自动ID值，自动ID降序排序任务交由第三层查询实施（若在此时实施会导致第二层查询失败）(SELECT Max(biao.id) AS id,biao.name,Max(t....

sql server 过滤重复记录的语法答：select * from chengji a where not exists(select 1 from chengji where Name=a.Name and age=a.age and ID>a.ID)--取大ID值 --or select * from chengji a where ID=(select min(ID) from chengji where Name=a.Name and age=a.age )--取小ID值,可用max(ID)delete时 delete a ...

大家正在搜

删除重复sql如何过滤重复 sql如何过滤重复 sql过滤重复行 sql按条件过滤重复 sql过滤重复数据 sql语句过滤重复数据 sql查询字段中过滤重复数据 sql查询重复记录 Sql查询语句过滤重复的数据