海量大数据,重复数据如何高效的删除

oHanson123 2014-03-26 02:43:39
加精

哥哥们,我有事请教
我有一个表超1.5亿条数据,中间有很多很多的重复数据,而且 没有建索引和键,你说我有没有办法 删除重复的数据 。
还是说已经宣布没的救了。
...全文
19209 68 打赏 收藏 转发到动态 举报
写回复
用AI写文章
68 条回复
切换为时间正序
请发表友善的回复…
发表回复
1973Spring 2016-05-17
  • 打赏
  • 举报
回复
请问楼主最后的解决方案是怎么样的?我也是遇到同样的问题:有48个txt文件,每个文件有1000w+用户的数据,单个文件内无重复,但是文件之间存在完全重复的数据,我要怎么快速地删除这些完全重复的数据,并且保留一行就行?
还寝梦佳期 2014-04-19
  • 打赏
  • 举报
回复
有空研究研究一下
hi_web 2014-04-14
  • 打赏
  • 举报
回复
引用 50 楼 oHanson123 的回复:
我原先查其中一条记录发现有重复记录185条,也就是说原先的数据连续重复写入了185次。我的JOB是一天一跑,相当于半年每天都 在重复插数据,导致数据表几何增长。 值得高兴的是,我用别的电脑 去重后,数据表从1.5亿条数据降为332万条。原表占用容量从70G降到了1.4G. 数据库SHINK后,空间从110G降到了16G.
楼主最终的解决方案是什么?可否分享下。
xwj 2014-04-02
  • 打赏
  • 举报
回复
网上有专门工具,找一找
  • 打赏
  • 举报
回复
ccqq3 2014-03-30
  • 打赏
  • 举报
回复
楼主使用的数据库是??如果是GP数据库是可以做到的
guoshuang60 2014-03-28
  • 打赏
  • 举报
回复
引用 19 楼 oHanson123 的回复:
我打算用下面的脚本执行。 现在刚开始跑,我明天上班来看结果。


insert into tb_preparedlist_tmp

	select [OrderID],[PartNo],[Qty],[GRN],[ScanTime],[PreparedBy],[PreparedID],[WorkCell],[BayNum],[Sloc],[Model],[Sets],[UploadBy],[UploadTime],[CheckFlag],[CheckTime],[CheckBy],[QtyUpdateRmk],[FlagGroup],[HostName],[Feeder],[Step],[RuleFlag],[Line_No],NEWID() as Rec_ID
	from Tb_PreparedList 
    where orderid is not null and grn is not null 
	group by [OrderID],[PartNo],[Qty],[GRN],[ScanTime],[PreparedBy],[PreparedID],[WorkCell],[BayNum],[Sloc],[Model],[Sets],[UploadBy],[UploadTime],[CheckFlag],[CheckTime],[CheckBy],[QtyUpdateRmk],[FlagGroup],[HostName],[Feeder],[Step],[RuleFlag],[Line_No]

你这个分组语句肯定效率低。。。。。。。。
xiaoxiangqing 2014-03-28
  • 打赏
  • 举报
回复
这么大的数据,去重要点时间。
my03131302 2014-03-28
  • 打赏
  • 举报
回复
CJ_Company 2014-03-28
  • 打赏
  • 举报
回复
版主给的就是可以的拉 我以前遇到都是这么类似的处理情况。其他的操作 完全不太合适
oHanson123 2014-03-28
  • 打赏
  • 举报
回复
好了,结贴给分。谢谢哥哥们。
oHanson123 2014-03-28
  • 打赏
  • 举报
回复
国外一哥们也遇到这个问题,以下为引用: I had the same problem a while ago. I was lucky that my first step was to backup the database. I stopped SQL, deleted the MDF and LDF files, restarted SQL and then restored from my backup, and then re-ran my updates (after dropping the indexes that were killing my update query). But ugly way to go ...
發糞塗牆 2014-03-28
  • 打赏
  • 举报
回复
我是说你挂起的那个库》。。。
oHanson123 2014-03-28
  • 打赏
  • 举报
回复
引用 52 楼 DBA_Huangzj 的回复:
那试试停了服务,然后把mdf/ldf文件移走,再启动服务
把文件强制移走,系统数据库不会影响吗?master, msdb,啥 的。
oHanson123 2014-03-28
  • 打赏
  • 举报
回复
哥哥们教训的是。
發糞塗牆 2014-03-28
  • 打赏
  • 举报
回复
不头破血流几次,成不了高手
whb147 2014-03-28
  • 打赏
  • 举报
回复
引用 19 楼 oHanson123 的回复:
我打算用下面的脚本执行。 现在刚开始跑,我明天上班来看结果。


insert into tb_preparedlist_tmp

	select [OrderID],[PartNo],[Qty],[GRN],[ScanTime],[PreparedBy],[PreparedID],[WorkCell],[BayNum],[Sloc],[Model],[Sets],[UploadBy],[UploadTime],[CheckFlag],[CheckTime],[CheckBy],[QtyUpdateRmk],[FlagGroup],[HostName],[Feeder],[Step],[RuleFlag],[Line_No],NEWID() as Rec_ID
	from Tb_PreparedList 
    where orderid is not null and grn is not null 
	group by [OrderID],[PartNo],[Qty],[GRN],[ScanTime],[PreparedBy],[PreparedID],[WorkCell],[BayNum],[Sloc],[Model],[Sets],[UploadBy],[UploadTime],[CheckFlag],[CheckTime],[CheckBy],[QtyUpdateRmk],[FlagGroup],[HostName],[Feeder],[Step],[RuleFlag],[Line_No]

不死才怪 要用 select * into #tb1 from tb
oHanson123 2014-03-28
  • 打赏
  • 举报
回复
引用 49 楼 DBA_Huangzj 的回复:
那就重启sql服务,然后drop吧
重启服务后发现agent停止运行了,而且 也不能启动。我觉得还是得等 回滚结束 后才能恢复 。 这个教训太大了。
發糞塗牆 2014-03-28
  • 打赏
  • 举报
回复
那试试停了服务,然后把mdf/ldf文件移走,再启动服务
oHanson123 2014-03-28
  • 打赏
  • 举报
回复
引用 49 楼 DBA_Huangzj 的回复:
那就重启sql服务,然后drop吧
我重启了没用。 提示正在恢复数据库。这中间啥 也不能干 ,只有等 。
加载更多回复(45)
数据在健康医疗行业中应用价值 1 健康医疗数据平台 2 健康医疗数据应用 3 4 健康数据发展趋势及智能医疗 智能医疗数据全文共20页,当前为第1页。 2 健康医疗数据概述 健康医疗数据平台架构 健康医疗数据的采集处理与存储 健康医疗数据平台 智能医疗数据全文共20页,当前为第2页。 1. 健康医疗数据概述 健康医疗数据是指所有与医疗卫生和生命健康活动相关的数据集合,既包括个人 从出生到死亡的全生命周期过程中,因免疫、体检、治疗、运动、饮食等健康相关 活动所产生的数据,又涉及医疗服务、疾病防控、健康保障和食品安全、养生保 健等多方面数据的聚合 临床诊疗数据 医疗机构是健康医疗数据的最主要来源,基于电子病历的临床诊疗数据是健康医疗数据的核 心,目前医疗卫生机构中存在大量处理业务的信息系统,如医院内的医院信息系统(HIS)、临 床信息系统(CIS)、电子病历系统(EMR)、检验信息系统(LIS)、放射信息系统(RIS)、 影像信息系统(PACS)等,临床诊疗数据便是这类系统产生的最主要数据。 医学影像数据 图像存储与传输系统(PACS)是应用于医院的数字医疗设备如CT、MRI(核磁共振)、US(超 声成像)、X光机、DSA(数字减影)、CR(计算机成像)等设备所产生的数字化医学图像信息 的采集、存储、管理、诊断以及信息处理的综合应用系统,该系统会产生大量的医学影像文件。 www.iresearch.com.c 智能医疗数据全文共20页,当前为第3页。 1. 健康医疗数据概述 基因检测数据 随着基因测序成本的降低,基因测序服务迅速开展,数据越来越多,基因检 测数据成了健康医疗数据的重要组成部分。 公共卫生机构数据 医疗卫生系统中,除医院、基层医疗卫生机构之外,还有数量众多的专业公 共卫生机构,如疾病预防控制中心、妇幼保健机构、专科疾病防治院(所、 站)、卫生监督所(中心),这类机构的数据也是健康医疗数据的重要组 成部分 智能健康电子产品、可穿戴设备、健康医疗移动应用产生的数据 随着物联网、移动互联网、医疗硬件技术的发展,越来越多的智能健康电子 产品、可穿戴设备、健康医疗移动应用于健康、亚健康人群以及疾病患者的 日常健康或疾病管理过程中,这类软硬件均会高频次地产生海量的健康医疗 数据,这类数据可以作为个人电子健康档案的有力补充 其他健康相关数据 www.iresearch.com.c 智能医疗数据全文共20页,当前为第4页。 健康管理 基因 院外数据 辅助 诊断 临床诊疗 智能监测 测序 基因数据 影像 电子病历 就医行为 健康档案 血糖 智能化 血压 其他 健康医疗数据分为三大类,院外数据、院内数据以及基因数据。 健康医疗数据分类及应用 消费基因 精准医疗 疾病早筛 ….. 预防预警 保险控费 疾病图谱 …… 慢病管理 在线问诊 健康干预(饮食、健身等) 区域信息化 外联平台 供应链管理 精准营销 患者管理 …… 医学影像 病理影像 …… 1. 健康医疗数据概述-健康医疗数据分类及应用 智能医疗数据全文共20页,当前为第5页。 2. 健康医疗数据平台架构 构建健康医疗数据平台。平台通过数据开放服务与数据共享服务,分别向医疗 机构、社会公众、政府、企事业单位和患者提供数据服务。 智能医疗数据全文共20页,当前为第6页。 2. 健康医疗数据平台架构 智能医疗数据全文共20页,当前为第7页。 2. 健康医疗数据平台架构 智能医疗数据全文共20页,当前为第8页。 3. 健康医疗数据的采集处理与存储 如何高效、准确地获取这些异构的健康医疗数据是健康医疗数据中心首先要解 决的问题。 健康医疗数据源采集的难点 数据分散在多个系统,不同的数据库,结构和数据格式也各不相同 部分乡镇或社区医疗机构无信息化系统,数据采集无法进行 部分基层医疗机构HIS等系统厂家复杂,很多已无后续技术支持,难以获取相 关医疗数据 大型医院仅提供简单的数据接口,无法获得深度的医疗数据 部分医疗数据如影像、基因测序数据文件巨大 部分医疗数据对实时性要求较高。 智能医疗数据全文共20页,当前为第9页。 3. 健康医疗数据的采集处理与存储 健康医疗数据采集方法 智能医疗数据全文共20页,当前为第10页。 3. 健康医疗数据的采集处理与存储 健康医疗数据的存储 健康医疗数据具有数据类型多,结构复杂、数据量大。 要求提供关系型数据库(RDBMS)、NoSQL数据库、分布式文件系统、内存数 据库等多种方式的存储, 同时要求系统具备快速搭建能力、监控能力、调优能力、管理能力等。 数据清洗 1)数据去重:将各个来源的健康医疗数据重复的个体或医疗记录删除。 2)数据补全:将健康医疗数据中缺失的部分通过计算逻辑

22,207

社区成员

发帖
与我相关
我的任务
社区描述
MS-SQL Server 疑难问题
社区管理员
  • 疑难问题社区
  • 尘觉
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧