500W数据去重复

我在你看不到的天空 2014-01-02 09:25:36

有个文本文档，里面一行是一条数据，大概有560多W条，数据库有张表，有一列对应文本的数据，怎么找出文本文档里面有，数据库却没有的数据

...全文

575 21 打赏收藏转发到动态举报

写回复

用AI写文章

21 条回复

切换为时间正序

请发表友善的回复…

发表回复

ebaker1024 2014-02-12

打赏
举报

500W 记录对于现代数据库来说实在算不上大事。用几个临时表，很快就解决了。假设原始数据库在这两个表中： tab01, tab02; 可建立以下临时工作表：tmp00, tmp_total -- 建立索引以提高后面的汇总速度 Create Index i01tmp ON tab01(uid); Create Index i02tmp ON tab02(uid); -- 拷贝tab01 中的记录，去掉重复值 Insert into tmp00 (uid, flag) Select uid, 1 From tab01 Group by uid; -- 拷贝tab02 中的记录，去掉重复值 Insert into tmp00 (uid, flag) Select uid, 2 From tab02 Group by uid; -- 建立索引以提高后面的汇总速度 Create Index i00tmp ON tmp00(uid); -- 分组汇总 Insert into tmp_total ( uid, flag ) Select uid, sum(flag) From tmp_all Group by uid; -- 根据flag字段的汇总值可分3类情况 -- 找出仅存在于tab01 中的uid值 Select uid From tmp_total Where flag=1; -- 找出仅存在于tab02 中的uid值 Select uid From tmp_total Where flag=2; -- 找出两个表的交集部分 Select uid From tmp_total Where flag=3;

花谢尊前不敢香 2014-01-03

打赏
举报

可以考虑用key-value这样的数据库去封装下。然后再查询比较

MiceRice 2014-01-03

打赏
举报

引用楼主 lizeping1992 的回复:

有个文本文档，里面一行是一条数据，大概有560多W条，数据库有张表，有一列对应文本的数据，怎么找出文本文档里面有，数据库却没有的数据

什么数据库？如果是Oracle的话，直接用SQL Loader把560W数据装入数据库，接着建立索引，最后剩下的就是一句Select的问题了。借助数据库来完成大数据集运算，总体性能应该是最好的。程序处理的话，因为你文本文件每行数据并非定长，所以想搞什么并行计算也很麻烦，基本上就只能顺序处理。相当于要进行560W次的数据库检索，虽然有索引的情况下单词检索性能极高，但是估计也要跑个半天。大致方法如下： 1、数据库表中能对应文本的列，建立索引； 2、BufferReader + FileReader打开文件，每次readLine； 3、Select 数据库表看是否存在该行记录（有索引的情况下都是毫秒级执行），没有则写入另一个文件（记录所有不在表中的记录）； 4、循环处理下一行。为了尽量消除网络开销，程序如果能直接在数据库服务器上执行最好。

teemai 2014-01-03

打赏
举报

不要用程序了，用数据库处理吧，把文本信息存到另一个表里。用数据库去操作比较

你好毒你好毒 2014-01-03

打赏
举报

我觉得，先将文本文件的数据插入到临时表(用存储过程进行插入的话，500W数据大概要3-5分钟)，然后再去通过sql语句取出相同的部分，至于取出来之后怎么用就看楼主的了

骑士的崛起 2014-01-03

打赏
举报

1.开A线程把文本一行行读出来，把每20个一组放到一个集合里。 2.开n个B线程不停的从集合里取一组，再删除这组数据，执行sql：in(.....),返回结果判断如果不存在，保存到数据库里的另一个表里。如果表数据不多这么搞速度应该不错。如果表数据太多，就拆分，办法也有。

致知Fighting 2014-01-03

打赏
举报

500w单列数据才大？直接内存一放，数据库数据读出来放内存，两个一比就好了

ghostkngiht 2014-01-03

打赏
举报

有个思路，不知可不可行。 1.把数据库里的数据读出来存到文件里（能排序最好，不能也无所谓）。 2.对数据库导出的文件(如果没有排序)和原有文本文件用相同的方式排序分别生成新的文件（这么大的数据量排序可以用外排序的方式实现）。 3.对2中生成的两个排序好的文件逐行判断（这个操作大学数据结构里应该学），这样做耗费的时间应该不多。

suciver 2014-01-03

打赏
举报

利用数据库自带的对比

___________小P 2014-01-03

打赏
举报

先读出来然后去掉重复我去..好多信息..

别闹腰不好 2014-01-03

打赏
举报

写个程序吧你可以吧文本文件一行一行的读出来，每读一行查一次数据库，看看是否有，没有你就把这行文本写到另一个文件，也可以写到数据库。

coolbamboo2008 2014-01-03

打赏
举报

好大的文件……这样数据库也要很大吧

我在你看不到的天空 2014-01-03

打赏
举报

引用 7 楼 ghostkngiht 的回复:

有个思路，不知可不可行。 1.把数据库里的数据读出来存到文件里（能排序最好，不能也无所谓）。 2.对数据库导出的文件(如果没有排序)和原有文本文件用相同的方式排序分别生成新的文件（这么大的数据量排序可以用外排序的方式实现）。 3.对2中生成的两个排序好的文件逐行判断（这个操作大学数据结构里应该学），这样做耗费的时间应该不多。

这个可以有。我是直接再再数据库分表做的，500W在一张表中，删一条都好慢。。分表了快多了

我在你看不到的天空 2014-01-03