200分：在海量数据中查询有无，应该用什么技术路线才能实现尽可能的快？

hpygzhx520 2019-04-14 02:37:22

数据库用了多年，但理解一直很粗浅。现在涉及一个场景，才在方案讨论阶段，有些问题没有头绪，所以请教一下数据库专家。谢谢。

假定数据库其中一个表就两个字段，第一个字段是一个32个字符的条形码（唯一值，不允许重复），第二个字段是时间（其实第一个字段条形码中有190414这样的固定部分，也可以当做时间）。
这个表可能是无限大的，但是我不需要从所有数据中查询，否则查询应该会随着数据量增多而变慢的吧？
我需要查最近半年的数据，用日期过滤，过滤后的数据行数上限是50万行，也就是半年内的数据不可能大于50万行。我需要查询某个条码在这50万行中是否存在，应该怎么设计才会让这个查询尽可能的快，比如2秒内？

初步构思;
方案1：常规方法，直接select count(barcode) from t_barcode where opttime <sysdate-150;
方案2：把数据先读入内存datatable,程序在开启的时候做这个读入操作，这个阶段就算消耗一些时间也可以接受，内存消耗大一些也可以接受。查询的时候使用某种手段在datatable中查询。
方案3：既然barcode是主键，我就不管时间，直接操作插入这个数据，报主键重复错误则表示重复。
方案4……n都不知道了。

请教专家们，应该用什么方法实现这个目标？（自己搭建测试环境主要担心自己的电脑和服务器的性能差异导致测试结果没有参考性）。

不胜感激！

...全文

401 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

hpygzhx520 2019-04-15

打赏
举报

回复

非常感谢各位的回复！我会认真学习的。

nayi_224 2019-04-15

打赏
举报

回复

也可以再参考一下函数索引、索引组织表。

AHUA1001 2019-04-15

打赏
举报

回复

ORACLE对海量数据的处理，常见的就3种。
1、索引。
2、分区。
3、存储，就是把你需要的结果，存储在某个字段中，每次数据有变化，都需要维护这个字段。也就是把查询成本，转移到添删改上了。
您的需求，应该只适用于前两种。
用日期做分区，用条码做索引。
按照你的要求，应该是按月做分区。
如何正确的使用索引和分区，就是另外一个问题了，上网百度一下，应该不难。
你如果只想知道有没有，可以在count语句的where里，增加rownum <= 1,这样做的目的，就是为了在扫描到一条结果后，马上返回，不再搜索其它的内容了，以此来提高搜索速度。

学海无涯-回头是岸 2019-04-14

打赏
举报

回复

前面的数据，作用大吗？可以分表，如定时rename一下 create一个新表。用楼上的分区表也可以。

hpygzhx520 2019-04-14

打赏
举报

回复

感谢回复，我先百度学习下分区表。

卖水果的net 2019-04-14

打赏
举报

回复

楼主这个情况，可以考虑一下分区表，每个月一个分区，再你的 barcode 列，创建本地索引唯一。

其核心思想是：使用41bit作为毫秒数，10bit作为机器的ID（5个bit是数据中心，5个bit的机器ID），12bit作为毫秒内的流水号，最后还有一个符号位，永远是0。比如A表分表为A1表和A2表，我们可以单独的创建一个MySQL数据库，在这个数据库中创建一张表，这张表的ID设置为自动递增，其他地方需要全局唯一ID的时候，就先向这个这张表中模拟插入一条记录，此时ID就会自动递增，然后我们获取刚生成的ID后再进行A1和A2表的插入。因此，如果是双主或者多主，就会增加MySQL入口，提升了主库的可用性。

可以发现MySQL 5.7二进制日志较之原来的二进制日志内容多了last_committed和sequence_number，last_committed表示事务提交的时候，上次事务提交的编号，如果事务具有相同的last_committed，表示这些事务都在一组内，可以进行并行的回放。MySQL会有一个集合变量来存储事务修改的记录信息（主键哈希值），所有已经提交的事务所修改的主键值经过hash后都会与那个变量的集合进行对比，来判断改行是否与其冲突，并以此来确定依赖关系，没有冲突即可并行。

数据库大数据量、高并发、高可用解决方案，十万字图文详解mysql、redis、kafka、elasticsearch（ES）多源异构不同种类数据库集成、数据共享、数据同步、不同中间件技术实现与方案，如何构建数据仓库、数据湖、数仓一体化？Delta Lake、Apache Hudi和Apache Iceberg数仓一体化技术架构实现。

开发阶段，由于本公共交通查询系统不属于大型系统，常规的电脑就可完成开发，不用购置相关硬件设备。系统的正常运行离不开数据的支撑，因此，在本系统中添加了数据插入功能，数据库中数据的缺失，会直接影响到数据的查询结果，查询结果错误又会导致逻辑处理出现偏差，最终导致系统性错误或故障，所以在对系统进行数据添加操作时，必须要对数据进行合法性校验，确定此条数据是否有惟一的主关键字和字段是否允许为空等等，若数据库表中不允许某字段为空，而程序没有进行该字段非空逻辑校验，那么就会出现数据存储失败，可能因此造成严重系统后果。

对比分析主要是指将两个相互联系的指标数据进行比较，从数量上展示和说明研究对象的发展情况（规模大小、水平高低、速度快慢等），通过相同维度下的指标对比，可以发现、找出业务在不同阶段的问题。【注意】绝对数据意义不大，要看相对数据。举个例子，某产品的用户满意度达到了30%，这个结果是好还是不好？单一的数值并不能说明什么问题，因为并不能判断这个30%的满意度到底是高还是低？是升了还是降了？只有通过对比分析，才能让数据变得有意义。（1）理解两个关键词维度：看问题的角度。

Oracle 高级技术

3,499

社区成员

18,709

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章