看起来简单的问题

lily604 2008-03-15 12:23:24

有这样一个字符串　a b c d ,每个字符都对应０或１，１代表存在该字符，０代表不存在
如a b c d
　０１１１
　１１１０
　１０１１
　１１００
可以看成是一个矩阵，我想要做的是统计同时出现某个子串的个数
如上：
在第一行和第二行同时出现子串bc,也就是bc子串出现两次．在第二行和第四行同时出现ab，一行和三行同时出现cd.我想把这个思路扩展到任意大小的０１组成的矩阵，然后统计各个子串的同时出现在不同行的个数，我想了很久也没有一个好办法，请大家帮忙
如果改成下面的形式，则bcd也是满足条件的，这里个数的阈值设为２了，也就是同时出现在两行的字符串才符合条件，而cd的计数则增加为３，当然也满足条件
a b c d
0 1 1 1
1 1 1 1
1 0 1 1
1 1 0 0

...全文

352 23 打赏收藏转发到动态举报

写回复

用AI写文章

23 条回复

切换为时间正序

请发表友善的回复…

发表回复

lily604 2008-03-16

打赏
举报

恩你说的对其实我写的就是这个意思啊

lily604 2008-03-16

打赏
举报

将那种没有相连的1的串删除
..................................
这是什么意思啊
你的意思是这样吗？如０１０１，１没有相连就删掉吗，这样不行的

freeCodeSunny 2008-03-16

打赏
举报

先扫描一遍，你的阀值不是2吗？将那种没有相连的1的串删除。在将给的串匹配，如 a,b,c,d就相当与1111，就是复杂度可能有点大

ttlyfast 2008-03-16

打赏
举报

接分

blankfang 2008-03-16

打赏
举报

交叉比较好！个人意见！

abupie 2008-03-15

打赏
举报

不知道楼主的考虑点是实现功能还是性能。

如果只是实现功能，你循环统计所有子串就好了。用-表示不关心，用1表示关心，需要遍历的就是：
1 1 - -; 1 - 1 -; 1 - - 1; - 1 1 -; ....
比如对于子串- 1 1 - ，遍历所有行看是否匹配。匹配的条件可以用字符直接匹配指定的位置。比如:

如果还需要考虑性能，你把每行的字符看成2进制，用数字表示，每列就是数字的每1位，比如
0 1 1 1 就是2进制111, 也就是5。比较的时候用位运算。
比如验证0111是否有子串-11- 就可以用 (0111 & 0110 == 0110)来验证（这里的数字表示2进制，为了方便阅读）。

我推荐后者。

野男孩 2008-03-15

打赏
举报

描述倒是基本清楚。只是不知道lz说的扩大矩阵是扩大行呢还是列，或者两者都扩大。

不管怎样扩，我觉得就是一层一层的往下找子串。按说的话，一个字符应该也算子串吧？
所以先看第一行，找到b,然后扫描一下每一行，那些有b的，统计记录下来，然后发现c也有，于是扫描每行的bc,然后扫描bcd，再然后就是cd。这些子串都记录下来，下面扫第二行的子串时，可以只找a开头的，b,c,d开头的检查一下记录就知道都已经在第一行找过了。

baihacker 2008-03-15

打赏
举报

描述得不知所云

abupie 2008-03-15

打赏
举报

[Quote=引用 8 楼 lily604 的回复:]
我确信上面方法可以解决这个问题，如果是一个m行n列的矩阵，我想问问你们的算法的时间和空间复杂度问题．三楼的朋友的意思我可不可以理解成这样：扫描每一行，在每一行中把是１的字符串当成是一个大的子串，如例子的第一行bcd全部为１，即１１１，然后产生它的子串，bc,bd,cd,分别和所有行进行匹配，并记录子串的数目，我这里不用考虑长度为１的子串．
然后扫描第二行．．．直到结尾，每一行扫描的子串都要和所有行进行匹配，是…
[/Quote]
是肯定会循环至少1次的。

如果楼住主要是要求时间复杂度最小，我想到的最优方法是用空间换时间：

先形成一个要匹配的序列:比如1111, 1110, 1100, 1000, 0111, 0110, 0100等等
然后循环每一行，在这一行中判断是否符合要匹配的序列，这样，这1行完了就ok了。

其实，我觉得用数字匹配，不存在时间复杂度的问题了。。。位运算，很快的。

ryfdizuo 2008-03-15

打赏
举报

是的，呵呵，正如你说的，
要全部穷举的话，时间空间太浪费了，
但是，如果你只是求某个子串出现的频率还是可行的，

lily604 2008-03-15

打赏
举报

六楼的朋友很感激你写了这么多代码，我看了可以解决我的提出的例子，但是如果我矩阵是１０列或者更多就麻烦了啊
如果是１０列，最坏的情况（也就是全部为１），它的子串应该有２的十次幂减１，再减去１０（也就是所有的一项子集，因为我上面刚提过不用包含长度为１的子串），这样的话怎么枚举啊，有１０００个还多的子集，大家再看看有没有优化的办法，如果没有我就按你们想法编程了．

zhoufuguo8802 2008-03-15

打赏
举报

有点看不懂！

lily604 2008-03-15

打赏
举报

我确信上面方法可以解决这个问题，如果是一个m行n列的矩阵，我想问问你们的算法的时间和空间复杂度问题．三楼的朋友的意思我可不可以理解成这样：扫描每一行，在每一行中把是１的字符串当成是一个大的子串，如例子的第一行bcd全部为１，即１１１，然后产生它的子串，bc,bd,cd,分别和所有行进行匹配，并记录子串的数目，我这里不用考虑长度为１的子串．
然后扫描第二行．．．直到结尾，每一行扫描的子串都要和所有行进行匹配，是这个意思吧！这样的话时间复杂度大了些，能不能再进行一下优化啊！
　　　　　　　　　　　　　

lily604 2008-03-15

打赏
举报

楼上的兄弟好幽默啊

feiniao619 2008-03-15

打赏
举报

ryfdizuo 2008-03-15

打赏
举报



//如果只是统计字串的数目，穷举算了；

 #define Len(a) sizeof (a)/sizeof(a[0])

 int main()

 {

 	enum Index {ab, ac, ad, bc, bd, cd, abc, abd, bcd};

	char Table[][5]={"ab", "ac", "ad", "bc", "bd", "cd", "abc", "abd", "bcd"};

 	char cDest[]={'a', 'b', 'c', 'd'};

 	int iSrc[][4]={

 			{0,1,1,1},

 			{1,1,1,1},

 			{1,0,1,1},

 			{1,1,0,0}

 	};

 	int iDest[9]={0};

 	for(int i=0; i<Len(iSrc); i++)

 	{

		int sum=0;

 		for (int k=0; k<4; k++)

			sum+=iSrc[i][k];

		

		if(sum==4)

			for (int j=0; j<Len(iDest); j++)

				iDest[j]++;

		if(sum==3)

		{

			if(iSrc[i]['a'-'a']&&iSrc[i]['b'-'a']&&iSrc[i]['c'-'a'])

				iDest[abc]++;



			if(iSrc[i]['a'-'a']&&iSrc[i]['b'-'a']&&iSrc[i]['d'-'a'])

				iDest[abd]++; 



			if(iSrc[i]['b'-'a']&&iSrc[i]['c'-'a']&&iSrc[i]['d'-'a'])

				iDest[bcd]++; 

			

			sum--;

		}

		if(sum==2)

		{

			if(iSrc[i]['a'-'a']&&iSrc[i]['b'-'a'])

				iDest[ab]++; 

			if(iSrc[i]['a'-'a']&&iSrc[i]['c'-'a'])

				iDest[ac]++;

			if(iSrc[i]['a'-'a']&&iSrc[i]['d'-'a'])

				iDest[ad]++; 

			if(iSrc[i]['b'-'a']&&iSrc[i]['c'-'a'])

				iDest[bc]++; 

			if(iSrc[i]['b'-'a']&&iSrc[i]['d'-'a'])

				iDest[bd]++; 

			if(iSrc[i]['c'-'a']&&iSrc[i]['d'-'a'])

				iDest[cd]++; 

		}

 	}

 	for (int i=0; i<Len(iDest); i++)

 	{

		cout<<Table[i]<<"'s\tnumber is: ";

 		cout<<iDest[i]<<endl;

 	}

 

 	return 0;

 }

billy1985 2008-03-15

打赏
举报

MARK

Inhibitory 2008-03-15

打赏
举报

"如果还需要考虑性能，你把每行的字符看成2进制，用数字表示，每列就是数字的每1位，比如
0 1 1 1 就是2进制111, 也就是5。比较的时候用位运算。
比如验证0111是否有子串-11- 就可以用 (0111 & 0110 == 0110)来验证（这里的数字表示2进制，为了方便阅读）。"

这个方法不错.

最后再建立一个表, 里面是如: abcd的按这个字母顺序的子字符串,每个串对应一个数字, 上面方法得出的结果从这个表中取得是哪个子串就行了.