T-SQL技术收集——删除重复数据

领域专家: 数据库技术领域

2012-06-28 02:06:34

由于不知道怎么发图片，所以这贴只是简要，详细请看：
http://blog.csdn.net/dba_huangzj/article/details/7699166

在工作和面试中，经常出现如何查询或者删除重复数据的问题，如果有主键，那还好办一点，如果没有主键，那就有点麻烦。
当一个表上没有辅助键时，如果使用SSMS界面来删除，就会报错

因为在创建表后插入数据是没有做判断。但是在删除时，为了保证数据库的一致性，RDBMS还是会做判断从而拒绝执行这类操作。
说明：
要解决这种问题，除了在设计的过程中做好之外，还可以在数据没有重复数据的情况下，使用ALTER TABLE ADD Constraint语句来增加约束。
但是要删除现有的重复值，使用SSMS界面是无法实现的，就算能实现，当数据量到达一定程度，也是不现实的。此时只能使用T-SQL语句，搭配SET ROWCOUNT 1让数据的处理方式一次一行或这使用DELETE TOP (1)的方式删除，注意，括号是必须的。
SET ROWCOUNT { number | @number_var }：使 SQL Server 在返回指定的行数之后停止处理查询。如果需要取消限制，只需要使用SET ROWCOUNT 0就可以。
下面是例子：
--使用set rowcount 3设定，查询所有数据
SET ROWCOUNT 3
SELECT * FROM AdventureWorks.HumanResources.Department
--结果仅返回3行

--使用set rowcount 3，修改所有数据
UPDATE AdventureWorks.HumanResources.Department
SET name=name
(3 行受影响)
--回复原有设置
SET ROWCOUNT 0

最后使用TOP (N)设定搭配INSERT /UPDATE /DELETE ，注意这部分只适合2005以后。
--使用TOP(3)设置，查询所有数据，注意是要有括号的
SELECT TOP(3) * FROM AdventureWorks.HumanResources.Department
--结果返回3行

UPDATE TOP(3) AdventureWorks.HumanResources.Department SET name =name
(3 行受影响)

另外，SQLServer提供了一个系统函数@@ROWCOUNT来返回影响行数。以下是例子：
--使用@@rowcount系统函数返回影响行数
SELECT EmployeeID,Title
FROM AdventureWorks.HumanResources.Employee
WHERE Title LIKE '%Manager%'
GO
SELECT @@ROWCOUNT 'Result'

解决方法：
首先创建一个测试表和插入测试数据：
USE tempdb
GO
CREATE TABLE MyT
(
[SID] INT,
sname VARCHAR(10),
sdt DATETIME
)
GO
--插入测试数据
INSERT INTO MyT VALUES (1,'Lu','2012/01/01');
INSERT INTO MyT VALUES (1,'Lu','2012/07/08');
INSERT INTO MyT VALUES (1,'Lu','2012/04/03');
INSERT INTO MyT VALUES (2,'Tian','2012/03/01');
INSERT INTO MyT VALUES (2,'Tian','2012/05/09');
INSERT INTO MyT VALUES (2,'Tian','2012/01/01');
INSERT INTO MyT VALUES (3,'AD','2012/01/08');
INSERT INTO MyT VALUES (3,'AD','2012/03/01');
INSERT INTO MyT VALUES (4,'Sun','2012/02/01');
INSERT INTO MyT VALUES (1,'Lu','2012/01/01');
INSERT INTO MyT VALUES (1,'Lu','2012/07/08');
INSERT INTO MyT VALUES (1,'Lu','2012/04/03');
INSERT INTO MyT VALUES (2,'Tian','2012/03/01');
INSERT INTO MyT VALUES (2,'Tian','2012/05/09');
INSERT INTO MyT VALUES (2,'Tian','2012/01/01');
INSERT INTO MyT VALUES (3,'AD','2012/01/08');
INSERT INTO MyT VALUES (3,'AD','2012/03/01');
INSERT INTO MyT VALUES (4,'Sun','2012/02/01');
GO

第一种方法：
使用SET ROWCOUNT 1方法来删除重复数据：
需要搭配WHILE 1=1无限循环，搭配BREAK作为终止。针对找出来的重复数据，使用GROUP BY 和HAVING COUNT(1)>1作为筛选条件，可以避免所有数据被删除。
ET ROWCOUNT 1
WHILE 1=1
BEGIN
DELETE FROM MyT
WHERE [sid] IN
(
SELECT [sid] FROM MyT
GROUP BY [sid],sname
HAVING COUNT(1)>1
)
IF @@ROWCOUNT=0
BREAK
END
SET ROWCOUNT 0

--可以发现，重复的数据已经删除
SELECT * FROM MyT

第二种方法：
使用DELETE TOP(N)方法，先把刚才插入测试数据的脚本再执行，可以多执行几次。DELETE TOP(1)可以用来替代SET ROWCOUNT 1：
WHILE 1=1
BEGIN
DELETE TOP(1) FROM MyT
WHERE [sid] IN
(
SELECT [sid] FROM MyT
GROUP BY [sid],sname
HAVING COUNT(1)>1
)
IF @@ROWCOUNT=0
BREAK
END

结果和上面的一样。

扩充：保留最近的一行数据：
有时候不仅仅要去掉重复数据，也要保证剩下的是最新的数据（日期最大），此时可以借助索引，使用索引排序，然后把日期最小的那些删掉，只保留日期最大的那一笔。
--建立复合索引，利用索引将数据以编号和日期升序排序
CREATE INDEX IDX_DT ON MyT([sid],sdt ASC)
GO
--修改删除语句，搭配with index查询提示
WHILE 1=1
BEGIN
DELETE TOP(1) FROM MyT
WHERE [sid] IN
(
SELECT [sid] FROM MyT WITH (INDEX(idx_dt))
GROUP BY [sid],sname
HAVING COUNT(1) >1
)
IF @@ROWCOUNT=0
BREAK
END

查询结果：
SELECT * FROM MyT

注意：
为了向后兼容，括号在 SELECT 语句中是可选的。
我们建议您始终对 SELECT 语句中的 TOP 使用括号，这样，就可以与在 INSERT、UPDATE、MERGE 和 DELETE 语句中需要使用括号保持一致（在这种情况下括号是必需的）。
（出自SQL SERVER 2012联机丛书）

...全文

245 10 打赏收藏转发到动态举报

写回复

用AI写文章

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

lao_bulls 2012-07-01

打赏
举报

支持一下

發糞塗牆 2012-06-29

打赏
举报

[Quote=引用 7 楼的回复:]

还是写点更好技术收集贴吧，这种东西，论坛的人都贴得满天飞了。
[/Quote]谢谢提醒，我不否认这些东西早就有，但是就想行转列的问题一样，总会有很多人发帖。如果不能保证每个人都能找到以前的好帖，那么就偶尔发一下，这样最起码可以保证那段时间段附近的人都能解决他们的问题。我反而觉得偶尔有人发一下，能更好地帮助别人。

liangCK 2012-06-28

打赏
举报

还是写点更好技术收集贴吧，这种东西，论坛的人都贴得满天飞了。

SQL777 2012-06-28

打赏
举报

UPP一下。重复数据的删除一般都处理少量的.

叶子 2012-06-28

打赏
举报

不错，支持一下。

發糞塗牆 2012-06-28

打赏
举报

[Quote=引用 3 楼的回复:]

在以后的版本中将会去掉SET ROWCOUNT 功能

一般的重复，如保留id最大/最下日期最大/最小的
可以直接
SQL code

delete t from tb t where exists(select 1 from tb where name=t.name and id>t.id)

删除行重复(出现多行数据都一样的)，可以使用row_number 生成行号后删……
[/Quote]

也不错的思路，但是没试过你的和我的性能上会不会对大数据量都不好。不过我觉得这种情况的发生几率比较小，一般都在开发初期，所以数据量都应该不会太大。

筱筱澄 2012-06-28

打赏
举报

在以后的版本中将会去掉SET ROWCOUNT 功能

一般的重复，如保留id最大/最下日期最大/最小的
可以直接



delete t from tb t where exists(select 1 from tb where name=t.name and id>t.id)

删除行重复(出现多行数据都一样的)，可以使用row_number 生成行号后删除

; with t as

(

select *,row_id=row_number() over(partiton by name order by id ) from tb

)

delete from t where row_id>1

闹铃 2012-06-28

打赏
举报



学习啦 新的思路 不错

--小F-- 2012-06-28

打赏
举报

这是一个跨平台脚本，可将 Synology Note Station 的笔记转换为 Markdown 文件。脚本使用 Python 编写，可在任何桌面平台上运行。转换后您将获得： 1、以导出的笔记本命名的文件夹； 2、这些文件夹中以所有内联图片原位存储的 Markdown 语法纯文本文件笔记； 3、在笔记文本开头处分配标签和附件链接； 4、所有图片和附加文件都位于笔记本目录下的媒体子目录中。

详细介绍及样例数据：https://blog.csdn.net/li514006030/article/details/162965929

科易网基于40亿+科创知识图谱数据库，深度探索AI技术在技术转移、成果转化、技术经纪、知识产权、产业创新、科技招商等垂直领域的多样化应用场景，研究科技创新领域的AI+数智化解决方案，推动科技创新与产业创新智能化发展。

易语言源码读取天气预报-模块

内容概要：本文围绕“面向高精度电流控制的PMSM多参数PSO辨识模型研究”，系统阐述了基于Simulink的永磁同步电机（PMSM）多参数辨识方法，重点采用粒子群优化算法（PSO）实现对电机关键内部参数的高精度辨识。研究构建了完整的PMSM控制系统仿真模型，结合智能优化算法，解决了传统参数辨识中精度低、收敛慢的问题，有效提升了电流环控制的动态性能与稳态精度。该方法特别适用于对控制精度和响应速度要求较高的工业应用场景，如高性能伺服系统、电动汽车驱动系统等，具有较强的工程实用价值和科研参考意义。文中提供了完整的Simulink仿真模型与配套代码，确保了研究内容的可复现性和实践操作性。; 适合人群：具备电机控制、自动化或电气工程等相关专业背景，熟悉MATLAB/Simulink仿真环境，从事电机驱动系统研发、控制算法设计或相关领域科研工作的工程师及研究生，尤其适合工作1-5年、希望深入理解先进参数辨识技术的研发人员。; 使用场景及目标：①开展高精度PMSM控制系统的设计与参数辨识研究；②学习并掌握PSO等智能优化算法在电机系统参数辨识中的具体实现与调优技巧；③完成学术论文复现、科研项目验证、毕业设计或工程原型开发，提升对现代电机控制核心技术的理解与应用能力。; 阅读建议：建议读者结合提供的Simulink模型与源代码进行动手实践，按照文档逻辑逐步搭建与调试仿真系统，重点关注PSO算法与电机模型的交互机制、目标函数设计及参数收敛过程，通过对比不同工况下的辨识结果，深入理解算法性能与控制精度之间的内在联系。

MS-SQL Server

34,875

社区成员

254,639

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章