大数据量比较

guotao1982 2006-06-16 01:19:13

现有一个需求：
有一个文本文件，有几十万手机号码，需要跟数据库里面的黑名单（七八十万），无效号（一两百万）进行比较过滤，黑名单，无效号存在两个单独的表,不知道通过java程序有什么好的解决方案，能够提高其速度

...全文

645 17 打赏收藏转发到动态举报

写回复

17 条回复

切换为时间正序

请发表友善的回复…

发表回复

darkula 2006-10-31

打赏
举报

回复

一看处理手机号...SP的吧?...来,同行握手先;

给你几个我现在在用的处理方案:

1.扩大JVM的虚拟内存，按楼上几位说的,一次性读入一个SET,然后做比较;

2.导出数据为文本，一地区一个或多个文本,你下发时也是按地区发吧?就这样按地区过滤;

3.写成一个黑名单处理系统，用户上传黑名单,然后一个个黑名单文件/表来进行过滤,生成过滤后的文本给用户;

awded 2006-09-25

打赏
举报

回复

这样的数据量，只有排序、建索引才能解决了。HashMap在数据量比较大的情况下，速度会非常的慢，肯定无法解决你的问题

allright_flash 2006-09-21

打赏
举报

回复

sql处理最好了！

hbwhwang 2006-08-09

打赏
举报

回复

1000万的hashmap我都用过？强～～
我的才100万就outofmemory了

at4zhx 2006-08-01

打赏
举报

回复

1000万的hashmap我都用过,没有问题的,但java读文件的io开销会比较大.把文本导入数据库,建立索引,利用数据库查询也很快,看你是用一次还是经常用,是否部分更新文本里面的内容而定.

master_jt 2006-07-21

打赏
举报

回复

直接数据库查吧200W条记录不算什么，建了索引2000w都很快

enenend 2006-07-19

打赏
举报

回复

二百万的hashmap,牛啊。索引才是正道！

XiXiangHou 2006-07-13

打赏
举报

回复

HashMap 过了几万就非常缓慢！！！

xxu 2006-07-09

打赏
举报

回复

将到"黑名单（七八十万），无效号（一两百万）"全部抓到内存,并以HashMap保存.
然后逐条检查"文本文件，有几十万手机号码"

marcal_z 2006-07-04

打赏
举报

回复

查查数据结构呢。

xzwsun 2006-07-03

打赏
举报

回复

建索引，排序，写sql

echohere 2006-06-29

打赏
举报

回复

建立索引是最快的。

XiXiangHou 2006-06-27

打赏
举报

回复

如果字节使用JAVA程序，可以考虑，使用跳转表模式。
long l = Long.parsLong(手机号码）。

黑名单[]=new byte[MAX];
黑名单[l手机号]=1;

然后将需要比较的手机号上数组里找。
如果内存消耗太大，将它转换成位描述。

另外，强烈建议使用数据库模式进行处理

li_zero 2006-06-26

打赏
举报

回复

导入数据库，建索引，查询搞定。

Student02370236 2006-06-23

打赏
举报

回复

如果要在效率上提高的话就要去查一下有没有好的算法
或者进行分块处理

guotao1982 2006-06-20

打赏
举报

回复

还有哪位高手回答吗

ll42002 2006-06-16

打赏
举报

回复

导入数据库，然后用sql语句实现。
这个估计是最快的。

从数据分析的岗位需求出发，从轻量级数据分析，大数据分析多角度夯实基础理论知识，让学员在预科期间就可以提前掌握实用技能。通过大数据分析入门精讲，实现数据分析师编程语言入门，并能够独立完成网络数据爬取，...

逻辑：循环把数据存放入set集合，在循环需要对比的数据，通过set集合的add方法添加数据，若集合大小没有发生变化则表示数据存在，若集合大小发生变化则数据不存在，这个可以根据个人具体业务来进行判断。注意：使用...

标题写的有些大了……我做的一个Web网站用的是Sqlite数据库，昨天某网站采集了4039篇文章，发现页面打开速度慢的要死，看了一下耗时，发现sqlite在数据量比较大(4000算大？……我觉得挺大的了)的时候执行orderby xxx...

在不同数据线、不同数据点的情况下，任意情况下出现不能够使图表进行流畅的放大缩小的现象，即可认为其数据量大。当放大缩小无法流畅地进行时，也意味着图表的数据交互，包括数据点的拖拽、图表平移、显示鼠标悬浮处...

这之前通过游标scroll的方式进行大数据量的查询，虽然不受配置的最大返回记录数的限制，但是数据量超过10W时，翻页越往后越慢。理论上是可以通过此方式查询出全量数据的，除非数据量太大，出现OOM /** ...

249

社区成员

6,554

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章