数据查询效率的问题
是关于判断某url是否已采集的问题。
现在是有个表专门存放已经采集的url地址,总共大概10万条。
采集一个新内容的时候,会判断这个新的url地址是否已经存在在这个url表中,若已存在则不再操作。由于现在数据太多了,请问怎么判断效率会高些和准确些?
目前直接是url='"&nowurl&"'这种sql查询方式,但由于有的url可能比较长,所以查询起来是不是效率很低?
我现在想的是能不能将表中的url通过md5加密后单独放在一个字段,然后新的url也通过md5加密后再去对照查询,这样效率会不会高些?或者还有其他什么好的办法没有?