★★★★★挑战极限,显示你的功力,一个简单而又常见的算法问题★★★★★

linuxyf 2005-01-12 10:16:57
我有10000个字段名,现在放在一个arrayList里,现在我要检查是否有重名?如何检查,效率能达到最高,我目前的解决方案是:

循环比较,第一个字段名和余下的9999个比较,第二个和余下的9998个比较。。。。。。
这种方法效率比较低下。

还有没有其它的方法???

高手们进来讨论讨论?
...全文
437 35 打赏 收藏 转发到动态 举报
写回复
用AI写文章
35 条回复
切换为时间正序
请发表友善的回复…
发表回复
sixu0520 2005-01-13
  • 打赏
  • 举报
回复
可以使用快速查找法!因为快速排序法在内部排序里面是最快的!所以可以去查找一些快速排序法的书籍这样就可以仿照去做快速查找!
test22004 2005-01-13
  • 打赏
  • 举报
回复
换一种集合吧..
Ivony 2005-01-13
  • 打赏
  • 举报
回复
楼上的说的对,不过在泛型引入后,可能会有一些性能增益。
huwei001982 2005-01-13
  • 打赏
  • 举报
回复
随便找个支持快速查找的Collection中就行了,你的算法怎么快,也比上不ms类库的底层实现,这样的功能ms类库早就给你实现好了.
-------------------------------
这位兄台的话有些过了, ms类库的很多算法都是用模板实现以便适应各种数据类型的, 所以通用性好
速度比不上专门为一种数据类型而写的算法
如果你不信, 自已写一个快速排序, 然后和 qsort 比较一下就知道了
naner_china 2005-01-13
  • 打赏
  • 举报
回复
学习...
Ivony 2005-01-12
  • 打赏
  • 举报
回复
当然,抛开算法,你一开始就放在SortedList中而不是ArrayList中,那就更快了。
flcandclf 2005-01-12
  • 打赏
  • 举报
回复
select distinct 列名 into 新表 from 重表
在新表中的数据就是不重复的
Ivony 2005-01-12
  • 打赏
  • 举报
回复
上述方式将排序和比较在一起运行,在C++中可能会很快,但在C#中由于字符串的处理方式不同,又不支持指针,可能会很慢。。。。
Ivony 2005-01-12
  • 打赏
  • 举报
回复
做一个树来排序比较。

例如第一个字符串是"abc"

把'a'截掉放在'a'树中,

假设第二个字符串是"abd",先取第一个字符'a',与'a'树根结点("abc")进行比较,不同,则取第二个字母'b',查询'a'数是否有'b'子树,如果没有,则截掉'a'和'b'把它放在'a'树的'b'子树下。

以此类推。

在比较时,先比较字符串长度,如长度不等,则一定不同。长度相等,再将字符串前面截掉树的深度与树结点进行比较。
powbcom 2005-01-12
  • 打赏
  • 举报
回复
同意写进数据库,然后选择不重复的内容!
jimh 2005-01-12
  • 打赏
  • 举报
回复
使用SortedList,
SortedList sl = new SortedList();
foreach (string s in arraylist)
{
if (sl.Keys.Contain(s))
{
//重复处理代码
}
else
{
sl[s] = null;
}
}
andyzc 2005-01-12
  • 打赏
  • 举报
回复
先用排序算法肯定快,因为搂主的那种比较方法,相当于一种最慢的排序方法。
timiil 2005-01-12
  • 打赏
  • 举报
回复
还要什么算法? 把10000个字段名塞到SortedList里边,用字段名值做键。若重复会抛出异常的。SortedList里边已经做了排序阿那些步骤了。
xiao88yan 2005-01-12
  • 打赏
  • 举报
回复
将整个数组分成两部分a[i],b[j] i+j=n(n为数组长度)
for (i=0,i<a.lengh-1;i++)
for(j=0,j<b.lengh-1,j++)
进行比较

不知道结果会怎样,大体算了一下,共需比较n*n/4次,楼主算法要多少次?
tiaoci 2005-01-12
  • 打赏
  • 举报
回复
这个开销是必须的,快不快试一下就知道了,

不过只有这么点数据,根本看不出快不快
limit 2005-01-12
  • 打赏
  • 举报
回复
1.往数据库写进这10000个字段名,一个sql语句搞定。
2.先排序,然后检查一遍,就可以了。
linuxyf 2005-01-12
  • 打赏
  • 举报
回复
楼上的兄弟,方法确实不错,但排序的时间开销大吗?
webserv2 2005-01-12
  • 打赏
  • 举报
回复
可以用hashtable 速度肯定快
tiaoci 2005-01-12
  • 打赏
  • 举报
回复
排序后再查,一遍就够了
The123 2005-01-12
  • 打赏
  • 举报
回复
mark

出去嘘嘘先
加载更多回复(15)
​什么是共识算法背景分布式系统集群设计中面临着一个不可回避的问题,一致性问题对于系统中的多个服务节点,给定一系列操作,如何试图使全局对局部处理结果达成某种程度的一致?这个一致性问题大致有如下的场景:节点之间通讯不可靠的,延迟和阻塞节点的处理可能是错误的,甚至节点自身随时可能宕机节点作恶举例说明,就比如有两家电影院同时售卖总量一定的电影票,在这样的场景下,要如何设计方式来保证两家电影院协调同步不出现超卖或者错卖的问题呢?共识算法,就是解决对某一提案(目标,投票等各种协作工作),大家达成一致意见的过程比如上述的买票问题,就可以有如下的设计:1.每次卖票打电话给其他电影院,确认当前票数2.协商售卖时间,比如一三五A卖,二四六B卖3.成立个第三方存票机构,它统一发票通过以上的设计,可以看出一个很重要的解决一致性算法的解决思路,即:将可能引发不一致的并行操作进行串行化,就是现在计算机系统里处理分布式一致性问题基础思路和唯一秘诀 著名的共识设计理论FLP 不可能性原理  共识算法的理论下限提出该定理的论文是由 Fischer, Lynch 和 Patterson 三位作者于 1985 年发表,该论文后来获得了 Dijkstra(就是发明最短路径算法的那位)奖。FLP 原理认为对于允许节点失效情况下,纯粹异步系统无法确保一致性在有限时间内完成。三人三房间投票例子三个人在不同房间,进行投票(投票结果是 0 或者 1)。三个人彼此可以通过电话进行沟通,但经常会有人时不时地睡着。比如某个时候,A 投票 0,B 投票 1,C 收到了两人的投票,然后 C 睡着了。A 和 B 则永远无法在有限时间内获知最终的结果。如果可以重新投票,则类似情形每次在取得结果前发生带入到计算机领域就是说,即便在网络通信可靠情况下,一个可扩展的分布式系统的共识问题的下限是无解。即可靠性的下限是0%CAP  分布式系统领域的重要原理CAP 原理最早由 Eric Brewer 在 2000 年,ACM 组织的一个研讨会上提出猜想,后来 Lynch 等人进行了证明• C(一致性):所有的节点上的数据时刻保持同步,即数据一致• A(可用性):每个请求都能在一定时间内接受到一个响应,即低延迟• P(分区容错):当系统发生分区时仍然可以运行的定理:任何分布式系统只可同时满足二点,没法三者兼顾。即数据一致,响应及时,可分区执行不可能同时满足。举个例子:一个分布式网路上,某一个节点有一组依赖数据A,当网络无延迟,无阻塞时,依赖于X的操作可正常进行。但网络无延迟阻塞在现实世界中是没法100%保证的,那么当网络异常时,必然会产生分布式系统的分区和孤岛,那当一个执行操作在A分区之外时,如果要保证P,即当系统发生分区时仍可运行,就需要在分布式系统中多个节点有X的备份数据,以应对分区情况。则这时候就需要在C,A之间做出选择。假如选择C,即要保证数据在分布式网络中的一致性,那么就需要在X每次改动时,需要将全网节点的X数据同步刷新成最新的状态,那么在等待数据刷新完成之前,分布式系统是不可响应X的依赖操作的,即A的功能缺失假如选择A,即要突出低延迟的实时响应。那么在响应的时候,可能全节点的X数据并没有同步到最新的状态,则会导致C的缺失。上面看上去有些绕,那么你只要记住这句话,CAP原理在分布式网络系统的应用讨论,其实就是讨论在允许网络发生故障的系统中,该选择一致性还是可靠性?如果系统重视一致性,那么可以基于ACID原则做系统设计即 Atomicity(原子性)、Consistency(一致性)、Isolation(隔离性)、Durability(持久性)。ACID 原则描述了对分布式数据库的一致性需求,同时付出了可用性的代价。• Atomicity:每次操作是原子的,要么成功,要么不执行;• Consistency:数据库的状态是一致的,无中间状态;• Isolation:各种操作彼此互相不影响;• Durability:状态的改变是持久的,不会失效相应的有一个BASE原则,(Basic Availiability,Soft state,Eventually Consistency)则强调了可用性。 经典的共识算法设计业内,针对节点异常的情况,会有两种分类1.故障的,不响应的节点,成为非拜占庭错误2.恶意响应的节点,称为非拜占庭错误Paxos 最早的共识算法  非拜占庭算法的代表Paxos有三种角色:• proposer:提出一个提案,等待大家批准为结案。客户端担任该角色;• acceptor:负责对提案进行投票。往往是服务端担任该角色;• learner:被告知结案结果,并与之统一,不参与投票过程。即普通节点系统运行由proposer驱动,当合法提案在一定时间内收到1/2以上投票后达成共识。因此,可得出无法达成共识的条件:1.proposer故障2.二分之一以上acceptor故障拜占庭问题与BFT(Byzantine Fault Tolerant) 算法Leslie Lamport 1982 年提出用来解释一致性问题一个虚构模型。拜占庭是古代东罗马帝国的首都,由于地域宽广,守卫边境的多个将军(系统中的多个节点)需要通过信使来传递消息,达成某些一致的决定。但由于将军中可能存在叛徒(系统中节点出错),这些叛徒将努力向不同的将军发送不同的消息,试图会干扰一致性的达成。拜占庭问题即为在此情况下,如何让忠诚的将军们能达成行动的一致。对于拜占庭问题来说,假如将军总数为 N,叛变将军数为 F,则当N>=3F+1 时,问题才有解,即叛变的将军不超过1/3时,存在有效的算法,如BFT,不论叛变者如何折腾,忠诚的将军们总能达成一致的结果。这是一个数学论证的结论,有兴趣的同学可以自行推导。PBFT  一种高效拜占庭容错共识算法PBFT是Practical Byzantine Fault Tolerance的缩写,意为实用拜占庭容错算法。该算法是Miguel Castro 和Barbara Liskov(2008年图灵奖得主)在1999年提出来的,解决了原始拜占庭容错算法效率不高的问题。他的核心思想是:对于每一个收到命令的将军,都要去询问其他人,他们收到的命令是什么。如上图,假设命令由A将军分发,假如A是作恶异常,分发给B,C,D的操作分别是1,2,3.意图扰乱共识。拜占庭容错算法上设计实现是,当B,C,D收到命令后,相互之间也会沟通从A收到的命令是否一致,从而达到识破干扰的目的。其容错的极限值就是N>=3F+1。PBFT 在区块链上的实现区块链的节点分为记账节点和普通节点两个角色记账节点负责向全网提供记账服务,并维护全局账本,每过一段时间从记账节点中选一个议长,进行命令的分发,其他记账节点则作为议员进行验证将军就是记账节点,拥有全局账本,并验证交易的有效性,过互相传达验证结果,在f共识的一般流程如下:1.任一节点接收到发送者签名的交易数据请求后,向全网广播2.所有记账节点均独立监听全网的交易数据,并记录在内存3.议长在经过t后发送共识请求提案request4.议员在收到提案后,进行相关验证,发送响应response5.任意节点在限定时间内收到至少F+1个response后,共识达成,把交易记录入区块并发布给全网,如果超时,则更换视图和议长6.任意节点在收到完整区块后,把包含的交易从内存中删除开始下一个共识循环区块产生间隔t,    记账节点n,  可容错节点数f, 视图编号v,  区块高度h, 议长编号p,  议员编号i p=(h-v)%n  未来的发展POW算法建立了比特币帝国,具有划时代的意义。但其能耗和速度问题却是制约区块链普及的两大难以解决的问题。目前POS算法是一大趋势,以太坊的Casper,EOS的DPos等都是借鉴了上述前人的设计理念做的基于应用场景的优化改造,但万变不离其宗,我和大家一样,需要不断的学习和思考,没准,能有发明出自己的共识算法的一天呢。 

110,537

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧