【亿级数据】求 A中不存在B 的区间高效算法

qqzeng-ip 2013-09-04 12:53:10

闭区间排好序了的递增

———————A———————————--
[2,10]
[11,30]
[35,48]
[49,50]
[54,70]
[73,100]
几十万个区间 [m,n] n最大值为几十亿的了

———————B———————————--
[1,8]
[10,20]
[21,30]
[32,48]
[49,50]
[51,66]
[69,121]
几十万个区间 [m,n] n最大值为几十亿的了

—————找 A中不存在B 的区间 ——结果如下：—————————————————---

[1,1]
[32,34]
[51,53]
[71,72]
[101,121]

注：如果几十亿一个个枚举的话 cpu 和内存不够！
A B 区间各有几十万，区间数量不一定相等！

所以只能求高效算法

...全文

216 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

大尾巴猫 2013-09-04

打赏
举报

数据放在A.txt和B.txt 结果写入C.txt

#include <iostream>
#include <fstream>

using std::pair;
using std::ifstream;
using std::ofstream;
typedef pair<unsigned int, unsigned int> Upair;

inline unsigned Min(unsigned int x, unsigned int y) {return x < y ? x : y;}
inline unsigned Max(unsigned int x, unsigned int y) {return x > y ? x : y;}
ifstream& getpairfromfile(ifstream& ifs, Upair& inoutpair);
Upair left(Upair& uall, const Upair& ua);

int main()
{
	ifstream inA("A.txt");
	ifstream inB("B.txt");
	ofstream outC("C.txt");
	
	Upair upa, upb(0, 0), upc, upall(1, -1);
	//设置b(0,0)是为了第一次去读b
	//c是当前处理的区间
	//all是整个正整数区间
	while (inB)
	{
		if (inA)  //A文件没读完，要分区，否则直接把剩余的区间作为当前区间
		{
			getpairfromfile(inA, upa);
			upc = left(upall, upa);
		}
		else
			upc = upall;
		
		while (inB && upc.second >= upb.second && upc.first <= upc.second)  
                //当前区间还有空间而且右边界比B区间大，否则去读A文件继续划分区间
		{	
			while(inB && upc.first > upb.second) //B区间在当前区间的左边
			{
				getpairfromfile(inB, upb);    //读取B区间
			}
			if (!inB)
				break;
			
			//计算当前区间和B区间重复的部分，并写入c文件
			unsigned int low, high;
			low = Max(upc.first, upb.first);
			high = Min(upc.second, upb.second);
			outC << '[' << low << ',' << high << ']' << std::endl;
			upc.first = high + 1; //当前区间左边界重新计算
		}
	}

	inA.close();
	inB.close();
	outC.close();
	printf("done.\n");
	return 0;
}

ifstream& getpairfromfile(ifstream& ifs, Upair& inoutpair)
{
	//读文件一行，取得区间
	char buff[128];
	ifs.getline(buff, 128);
	sscanf(buff, "[%u,%u]", &inoutpair.first, &inoutpair.second);
	return ifs;
}

Upair left(Upair& uall, const Upair& ua)
{
	//把整个区间根据A的区间分成2部分
	Upair ret;
	ret.first = uall.first;
	ret.second = ua.first - 1;
	uall.first = ua.second + 1;
	return ret;
}

A.txt

[2,10]
[11,30]
[35,48]
[49,50]
[54,70]
[73,100]

B.txt

[1,8]
[10,20]
[21,30]
[32,48]
[49,50]
[51,66]
[69,121]

处理结果 C.txt

[1,1]
[32,34]
[51,53]
[71,72]
[101,121]

大尾巴猫 2013-09-04

打赏
举报

读一行，判断一行的，不需要全部读进来。

soulx 2013-09-04

打赏
举报

如果数据量很大的话，不可能一次读到内存中。可以一次读取一部分数据，而且区间是排好序，然后一个个计算A和B的区间不就可以了吗。

dbhme 2013-09-04

打赏
举报

这个跟n的大小没关系啊，复杂度只跟区间个数有关

dbhme 2013-09-04

打赏
举报

既然排好序了从小到大比较不就得了，O（N）的复杂度还不够？

本文是王争老师的《算法与数据结构之美》的学习笔记，详细内容请看王争的专栏。有不懂的地方指出来，我做修改。数据结构与算法思维导图数据结构指的是“一组数据的存储结构”，算法指的是“操作数据的一组方法”。数据结构是为算法服务的，算法是要作用再特定的数据结构上的。最常用的数据结构预算法: 数据结构：数组、链表、栈、队列、散列表、二叉树‘、堆、跳表、图、Tire树算法：递归...

思路1：排序法　　对集合A和集合B进行排序（升序，用快排，平均复杂度O(N*logN)），设置两个指针p和q，同时指向集合A和集合B的最小值，不相等的话移动*p和*q中较小值的指针，相等的话同时移动指针p和q，并且记下相等的数字，为交集的元素之一，依次操作，直到其中一个集合没有元素可比较为止。　　优点：操作简单，容易实现。　　缺点：使用的排序算法不当，会耗费大量的时间，比如

用带头结点的单链表表示整数集合，完成以下算法并分析时间复杂度：（1）设计一个算法求两个集合A和B的差集运算，即C=A-B，要求算法的空间复杂度为O（1），并释放单链表A和B中不需要的结点。（2）假设集合中的元素按递增排列，设计一个高效算法求两个集合A和B的差集运算，即C=A-B，要求算法的空间复杂度为O（1），并释放单链表A和B中不需要的结点。 #include #include ty

而图算法、字符串匹配算法和近似算法等复杂算法则可用于解决涉及网络、文本搜索和组合优化等各种复杂领域的挑战。持续学习和深入研究这些高级数据结构和算法，将帮助您更好地理解计算机科学的深奥之处，并提高解决实际问题的能力。随着问题的复杂性不断增加，对于更高级的数据结构和算法的需求也逐渐增加。本文将深入学习和探索一些高级数据结构和复杂算法，包括B+树、线段树、Trie树以及图算法、字符串匹配算法和近似算法等。图算法是处理图结构数据的算法，常用于解决各种复杂网络问题，如最短路径、最小生成树、图着色等。

本题会给你一段长度为N的整数序列，并进行K次询问。每次询问要求你给出区间a到b的和（序列下标由1到N）。由于区间和可能较大，请你输出它对10000019取模的结果。（注意：如果你想不到高效的做法，可以用朴素算法得到一部分分，但本题满分需要你用一个比较高效的做法。）输入格式: 首先一行整数N，代表序列长度。接下来一行N个整数，为序列内容。接下来一行整数K，代表对区间和的询问次数。接下来K行...

数据结构与算法

33,027

社区成员

35,335

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章

【 亿级数据 】求 A中不存在B 的区间 高效算法

【亿级数据】求 A中不存在B 的区间高效算法