当数据量特别大时怎么办?高分求助,分不够再加.

Cipherliu 2002-12-27 12:29:10

我在做一个简单的数据库存录入系统.
表A是目标表,其中有一个字段 City,另外有一个辅助表 Cities,只有一个字段CityName,但这个表有几十万条记录(全世界的城市实在太多了).
要求在录入表A的City字段时,得到辅助录入的功能.大家都会想到用DBComboBox,将Cities表中的数据装入 DBComboxBox.items ,在数据量小的情况下,这简单实用.但是现在数据量实在太大了,装入数据需要的时间需要长达数十分钟,难以接受的.也就是说不可能把Cities表的数据全部装入内存来提供服务.只能让它存在于数据库中.将数据固化在窗口中也不可行,资源太大,编译\运行都困难,程序保存也要半天.真是没办法了.
那应该怎样才能实现这样的功能呢?
请高手帮帮忙吧.
City字段的内容并不和Citys表发生关联,可以是任意内容,只需要辅助录入功能.

...全文

87 14 打赏收藏转发到动态举报

写回复

用AI写文章

14 条回复

切换为时间正序

请发表友善的回复…

发表回复

gggic 2003-01-07

打赏
举报

金山词霸组合框用的是模糊查询技术吧！
有相似相近的单词就显示在组合框里！
mzyp2002(雪刀浪子)的方法不错，只能细分CITY啦，不同的国家有不同的城市！

zhangweibase 2003-01-07

打赏
举报

用TDBLookupComboBox

gzyzljk 2003-01-07

打赏
举报

建一临时表或内存表,生成用户输入时相匹配的记录,加入下拉框,源表建好索引!

idilent 2003-01-07

打赏
举报

你试一下只选择前几条数据sql server 是top(n) ，oracle是rownum < n，而且应该是用户输入之后调用sql.不敢确定效果

关注

xjspa 2003-01-07

打赏
举报

同意 Haiwer(海阔天空) 的观点。我再作系统是也是把多纪录表再细分的。

昵称被占用了 2003-01-07

打赏
举报

道理是这样的，具体的分法你自己结合实际。

昵称被占用了 2003-01-07

打赏
举报

世界各国的城市有没有重名？我想是有的，所以一个城市名字段是不足以表示一个城市的。
你的Cities,只有一个字段CityName，至少应该加国家名字段（可能还可以加州名、地区名等），输入的时候也应该有国家名，DBComboBox的内容可以动态绑定，在选择国家名候选出这个国家的城市。

hangguojun 2003-01-07

打赏
举报

将字段扩展成多字段，比如:
CityName, ParentCityName, 等
在查询是使用Filter过滤，应该比SQL要快一些。

你不妨试试。

goodloop 2003-01-07

打赏
举报

xiaocuo_zrf 2003-01-07

打赏
举报

我记得我当年做进销存的时候也碰到商品资料库过大的问题，不过当时我给了个商平名称的助记码（五码或拼音，自动生成的），然后过模糊匹配的结果返回回来！而且当时我用DataGrid来代替下拉匡（利用DataGrid的Visible用户一但在text区域内输入了商品的助记码，DataGrid显示，用户在Grid里选中后，将选中付入Text，Grid隐藏）当然详细还有很多比如用户按下Esc时Grid隐藏等等！

siyu2002 2003-01-06

打赏
举报

学习

Cipherliu 2002-12-29

打赏
举报

谢谢My_first.但我的问题还是没法解决。
想请教一下，比方说金山词霸里，输入组合框里的数据是怎么加进去了，应该不可能一次全部把所有的词汇装进去，应该怎么使用缓存技术呢？

mzyp2002 2002-12-29

打赏
举报

把CITY再细分。如按省、地区

My_first 2002-12-27

打赏
举报

1 逻辑数据库和表的设计
　　数据库的逻辑设计、包括表与表之间的关系是优化关系型数据库性能的核心。一个好的逻辑数据库设计可以为优化数据库和应用程序打下良好的基础。

　　标准化的数据库逻辑设计包括用多的、有相互关系的窄表来代替很多列的长数据表。下面是一些使用标准化表的一些好处。

A:由于表窄，因此可以使排序和建立索引更为迅速
B:由于多表，所以多镞的索引成为可能
C:更窄更紧凑的索引
D:每个表中可以有少一些的索引，因此可以提高insert update delete等的速度，因为这些操作在索引多的情况下会对系统性能产生很大的影响
E:更少的空值和更少的多余值，增加了数据库的紧凑性由于标准化，所以会增加了在获取数据时引用表的数目和其间的连接关系的复杂性。太多的表和复杂的连接关系会降低服务器的性能，因此在这两者之间需要综合考虑。
　　定义具有相关关系的主键和外来键时应该注意的事项主要是：用于连接多表的主键和参考的键要有相同的数据类型。

　　2 索引的设计
A:尽量避免表扫描
检查你的查询语句的where子句，因为这是优化器重要关注的地方。包含在where里面的每一列（column)都是可能的侯选索引，为能达到最优的性能，考虑在下面给出的例子：对于在where子句中给出了column1这个列。
下面的两个条件可以提高索引的优化查询性能！
第一：在表中的column1列上有一个单索引
第二：在表中有多索引，但是column1是第一个索引的列
避免定义多索引而column1是第二个或后面的索引，这样的索引不能优化服务器性能
例如：下面的例子用了pubs数据库。
SELECT au_id, au_lname, au_fname FROM authors
WHERE au_lname = ’White’
按下面几个列上建立的索引将会是对优化器有用的索引
?au_lname
?au_lname, au_fname
而在下面几个列上建立的索引将不会对优化器起到好的作用
?au_address
?au_fname, au_lname
考虑使用窄的索引在一个或两个列上，窄索引比多索引和复合索引更能有效。用窄的索引，在每一页上
将会有更多的行和更少的索引级别（相对与多索引和复合索引而言），这将推进系统性能。
对于多列索引，SQL Server维持一个在所有列的索引上的密度统计（用于联合）和在第一个索引上的
histogram（柱状图）统计。根据统计结果，如果在复合索引上的第一个索引很少被选择使用，那么优化器对很多查询请求将不会使用索引。
有用的索引会提高select语句的性能，包括insert,uodate,delete。
但是，由于改变一个表的内容，将会影响索引。每一个insert,update,delete语句将会使性能下降一些。实验表明，不要在一个单表上用大量的索引，不要在共享的列上（指在多表中用了参考约束）使用重叠的索引。
在某一列上检查唯一的数据的个数，比较它与表中数据的行数做一个比较。这就是数据的选择性，这比较结果将会帮助你决定是否将某一列作为侯选的索引列，如果需要，建哪一种索引。你可以用下面的查询语句返回某一列的不同值的数目。
select count(distinct cloumn_name) from table_name
假设column_name是一个10000行的表，则看column_name返回值来决定是否应该使用，及应该使用什么索引。
Unique values Index

5000 Nonclustered index
20 Clustered index
3 No index

镞索引和非镞索引的选择

<1:>镞索引是行的物理顺序和索引的顺序是一致的。页级，低层等索引的各个级别上都包含实际的数据页。一个表只能是有一个镞索引。由于update,delete语句要求相对多一些的读操作，因此镞索引常常能加速这样的操作。在至少有一个索引的表中，你应该有一个镞索引。
在下面的几个情况下，你可以考虑用镞索引：
例如：某列包括的不同值的个数是有限的（但是不是极少的）
顾客表的州名列有50个左右的不同州名的缩写值，可以使用镞索引。
例如：对返回一定范围内值的列可以使用镞索引，比如用between,>,>=,<,<=等等来对列进行操作的列上。
select * from sales where ord_date between ’5/1/93’ and ’6/1/93’
例如：对查询时返回大量结果的列可以使用镞索引。
SELECT * FROM phonebook WHERE last_name = ’Smith’

当有大量的行正在被插入表中时，要避免在本表一个自然增长（例如，identity列）的列上建立镞索引。如果你建立了镞的索引，那么insert的性能就会大大降低。因为每一个插入的行必须到表的最后，表的最后一个数据页。
当一个数据正在被插入（这时这个数据页是被锁定的），所有的其他插入行必须等待直到当前的插入已经结束。
一个索引的叶级页中包括实际的数据页，并且在硬盘上的数据页的次序是跟镞索引的逻辑次序一样的。

<2:>一个非镞的索引就是行的物理次序与索引的次序是不同的。一个非镞索引的叶级包含了指向行数据页的指针。
在一个表中可以有多个非镞索引，你可以在以下几个情况下考虑使用非镞索引。
在有很多不同值的列上可以考虑使用非镞索引
例如：一个part_id列在一个part表中
select * from employee where emp_id = ’pcm9809f’
查询语句中用order by 子句的列上可以考虑使用镞索引

3 查询语句的设计

SQL Server优化器通过分析查询语句，自动对查询进行优化并决定最有效的执行方案。优化器分析查询语句来决定那个子句可以被优化，并针对可以被优化查询的子句来选择有用的索引。最后优化器比较所有可能的执行方案并选择最有效的一个方案出来。
在执行一个查询时，用一个where子句来限制必须处理的行数，除非完全需要，否则应该避免在一个表中无限制地读并处理所有的行。
例如下面的例子，
select qty from sales where stor_id=7131
是很有效的比下面这个无限制的查询
select qty from sales
避免给客户的最后数据选择返回大量的结果集。允许SQL Server运行满足它目的的函数限制结果集的大小是更有效的。
这能减少网络I/O并能提高多用户的相关并发时的应用程序性能。因为优化器关注的焦点就是where子句的查询，以利用有用的索引。在表中的每一个索引都可能成为包括在where子句中的侯选索引。为了最好的性能可以遵照下面的用于一个给定列column1的索引。
第一：在表中的column1列上有一个单索引
第二：在表中有多索引，但是column1是第一个索引的列不要在where子句中使用没有column1列索引的查询语句，并避免在where子句用一个多索引的非第一个索引的索引。
这时多索引是没有用的。
For example, given a multicolumn index on the au_lname, au_fname columns of the authors table in
the pubs database,
下面这个query语句利用了au_lname上的索引
SELECT au_id, au_lname, au_fname FROM authors
WHERE au_lname = ’White’
AND au_fname = ’Johnson’
SELECT au_id, au_lname, au_fname FROM authors
WHERE au_lname = ’White’
下面这个查询没有利用索引，因为他使用了多索引的非第一个索引的索引
SELECT au_id, au_lname, au_fname FROM authors
WHERE au_fname = ’Johnson’

除了上面，还要加上缓存更新。少用dbcombobox，这些数据感知控件。原因在于不好控制.还不如直接写.