怎么解决1000万条数据(key,value)插入到map容器中作统计时间慢的问题

jieyangchenjian 2013-04-30 08:28:12

...全文

979 36 打赏收藏转发到动态举报

写回复

36 条回复

切换为时间正序

请发表友善的回复…

发表回复

jieyangchenjian 2013-05-01

打赏
举报

回复

或是有没有其他方法可以作类似的统计，就是映射那种

jieyangchenjian 2013-05-01

打赏
举报

回复

有1000个设备，每个设备有10000个时间点，每个设备的时间间隔都不一样（用随机数生成，保存在set中），同一个设备的时间间隔一样，我想统计有哪些不同的时间点，每个时间点都对应哪些设备和相应该设备在该时间点测试的属性值（用随机数模拟）

qq120848369 2013-05-01

打赏
举报

回复

哈希桶不够你想想就知道单桶里有多长的拉链了

jieyangchenjian 2013-05-01

打赏
举报

回复

#include<iostream>
#include<unordered_map>
#include<set>
#include<windows.h>
#include<ctime>
using namespace std;

const int MAX=1500;
const int MAXN=5000000;
int main()
{
	cout<<"测试1000个设备，每个设备有10000条数据用map统计每个时间点对应哪些设备及相应的数据…………"<<endl;
	int i;
	set<long long> nset;
	unordered_map<long long,unordered_map<int,float>> nmap;
	set<long long>::const_iterator iter;
	unordered_map<long long,float>::iterator iter1;
	unordered_map<long long,unordered_map<int,float>>::iterator iter2;
	
	//产生1000个时间间隔，保存在set中
	srand(time(NULL));

	while(nset.size()!=1000)
	{
		nset.insert(((rand()*rand())%MAX));
	}
	cout<<"开始生成数据……"<<endl;
	
	DWORD stime = GetTickCount();
	for(i=0,iter=nset.begin();i<1000&&iter!=nset.end();i++,iter++)
	{
		unordered_map<long long,float> map1;
		srand(time(NULL));
		for(int j=0;j<10000;j++)
		{
			map1.insert(pair<long long,float>((*iter)*j,((rand()*rand())%MAXN)));
		}

		for(iter1=map1.begin();iter1!=map1.end();iter1++)
		{
			if((iter2=nmap.find(iter1->first))!=nmap.end())
				iter2->second.insert(pair<int,float>(i+1,iter1->second));
			else
			{
				unordered_map<int,float> map2;
				map2.insert(pair<int,float>(i+1,iter1->second));
				nmap.insert(pair<long long,unordered_map<int,float>>(iter1->first,map2));
			}
		}
	}
	DWORD etime = GetTickCount();
	cout<<"10000000条数据用unordered_map统计共花费"<<etime-stime<<"毫秒"<<endl;

}

大神帮忙看一下……

FancyMouse 2013-05-01

打赏
举报

回复

引用 3 楼 jieyangchenjian 的回复:

[quote=引用 1 楼 FancyMouse 的回复:] 用unordered_map

还是和原来一样很慢，很慢……[/quote] 如果慢到分钟级别的话，上代码。一般都是代码写扯了。如果只是几秒钟觉得慢的话，那没办法。再要快就没法用STL只能自己根据数据特点来设计专用数据结构了。

jieyangchenjian 2013-05-01

打赏
举报

回复

引用 1 楼 FancyMouse 的回复:

用unordered_map

还是和原来一样很慢，很慢……

jieyangchenjian 2013-05-01

打赏
举报

回复

引用楼主 jieyangchenjian 的回复:

还是和原来一样很慢，很慢……

FancyMouse 2013-05-01

打赏
举报

回复

用unordered_map

cqdjyy01234 2013-05-01

打赏
举报

回复

引用 35 楼 jieyangchenjian 的回复:

[quote=引用 34 楼 cqdjyy01234 的回复:] 呵呵，我觉得还可以优化。不过这个就得你自己弄了！

多线程什么的吗？[/quote] 我指的是预先分配内存方面。当然你说的也对。

jieyangchenjian 2013-05-01

打赏
举报

回复

引用 34 楼 cqdjyy01234 的回复:

呵呵，我觉得还可以优化。不过这个就得你自己弄了！

多线程什么的吗？

cqdjyy01234 2013-05-01

打赏
举报

回复

呵呵，我觉得还可以优化。不过这个就得你自己弄了！

jieyangchenjian 2013-05-01

打赏
举报

回复

引用 32 楼 jieyangchenjian 的回复:

[quote=引用 31 楼 cqdjyy01234 的回复:]

关键是你要用release跑，debug会慢很多很多很多

我用“运行不调试”跑，是release的意思吗？[/quote]

哦哦，我懂了，我一直都是在Debug模式下进行的，即便我按了开始执行不调试……
我换了Release之后，突然快了好多啊……

jieyangchenjian 2013-05-01

打赏
举报

回复

引用 31 楼 cqdjyy01234 的回复:

关键是你要用release跑，debug会慢很多很多很多

我用“运行不调试”跑，是release的意思吗？

cqdjyy01234 2013-05-01

打赏
举报

回复

关键是你要用release跑，debug会慢很多很多很多

cqdjyy01234 2013-05-01

打赏
举报

回复

引用 28 楼 jieyangchenjian 的回复:

[quote=引用 27 楼 cqdjyy01234 的回复:] [quote=引用 25 楼 jieyangchenjian 的回复:] [quote=引用 23 楼 cqdjyy01234 的回复:] [quote=引用 21 楼 jieyangchenjian 的回复:]

讲emplace_back(a,b)换成emplace_back(make_pair(a,b))或者push_back(make_pair(a,b))[/quote] 大哥，你有在你的机子上跑一下需要多久吗？[/quote]

[/quote] 能给一下你机子的配置吗？我在我自己的机子上跑了半天都没出来时间……你13秒已经算很快了[/quote] Intel(R) Core(TM)2 Quad CPU

jieyangchenjian 2013-05-01

打赏
举报

回复

不知道跑时占用内存多少？有没有超过500M……

jieyangchenjian 2013-05-01

打赏
举报

回复

引用 27 楼 cqdjyy01234 的回复:

[quote=引用 25 楼 jieyangchenjian 的回复:] [quote=引用 23 楼 cqdjyy01234 的回复:] [quote=引用 21 楼 jieyangchenjian 的回复:]

讲emplace_back(a,b)换成emplace_back(make_pair(a,b))或者push_back(make_pair(a,b))[/quote] 大哥，你有在你的机子上跑一下需要多久吗？[/quote]

[/quote] 能给一下你机子的配置吗？我在我自己的机子上跑了半天都没出来时间……你13秒已经算很快了

cqdjyy01234 2013-05-01

打赏
举报

回复

引用 25 楼 jieyangchenjian 的回复:

[quote=引用 23 楼 cqdjyy01234 的回复:] [quote=引用 21 楼 jieyangchenjian 的回复:]

讲emplace_back(a,b)换成emplace_back(make_pair(a,b))或者push_back(make_pair(a,b))[/quote] 大哥，你有在你的机子上跑一下需要多久吗？[/quote]

FancyMouse 2013-05-01

打赏
举报

回复

引用 21 楼 jieyangchenjian 的回复:

debug测性能没意义。数据生成代码放在测时外面，测时只测hashtable性能。

jieyangchenjian 2013-05-01

打赏
举报

回复

引用 23 楼 cqdjyy01234 的回复:

[quote=引用 21 楼 jieyangchenjian 的回复:]

讲emplace_back(a,b)换成emplace_back(make_pair(a,b))或者push_back(make_pair(a,b))[/quote] 大哥，你有在你的机子上跑一下需要多久吗？

加载更多回复（16）

一、慢操作分析 redis 的慢操作已经有了，如果没有，我们可以自己去 redis 服务器查看历史的慢日志操作，或者有对应的慢操作监控系统也可以发现问题，这里不做展开。接下来我们就要看一看为什么这么慢。看了下项目中的实现代码，结合日志一分析，发现是一个 redis bigkey。一个 redis key，对应的是一个 map, 里面防了几十万的 key/value。删除的时候一把直接删除，自然是慢的。本文带大家一起分析下 redis bigkey 删除的解决方案，希望你工作中遇到类似问题提供一个解决

随机产生10万个数据，数据范围在1~1000，统计每个数据出现的次数？思路：随机产生10万个数据：Math.random() ArrayList存放数据：要统计每个数据出现的次数，查询的效率要高，所以使用ArrayList 做统计：HashMap应用：key：存放当前数据；value：存放当前数据出现的次数对HashMap的遍历，打印统计结果 public class HashMap...

第一种:Map map = new HashMap();Iterator iter = map.entrySet().iterator();while (iter.hasNext()) {Map.Entry entry = (Map.Entry) iter.next();Object key = entry.getKey();Object val = entry.getValue();}效率高,以...

HashMap应用场景、存在1~1000之间的数据共1万个，统计每个数据出现的次数

前言之前聊到自己做过的功能优化，就说了通讯录同步的优化，详细见通讯录同步效率优化，提到用Mybatis批量插入数据，把上限1万条数据一次性的插入到表中。面试官对一次性插入1万条数据有疑问，认为不可以插入这么多数据，但是我做这个功能的时候确实是成功的，那具体能一次插入数据的上限我也不确定，后面就找时间做了下面这个实验。首先自己搭建了SpringBoot+Mybatis的项目测试的，搭建步骤如下 1. 搭建测试工程 idea构建SpringBoot+MyBatis项目 gitee上代码：http

数据结构与算法

33,027

社区成员

35,336

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章