两亿条记录会有什么后果，没分了，会追加

jronald 2008-03-01 12:13:15

先说明一下，是单词统计，记录需要一起参与统计
有两个疑问
1.加记录，有聚集索引，到后面是否会严重影响记录追加速度？
2.简单查询（无子查询，最多加个DISTINCT，如(

SELECT COUNT(DISTINCT name) FROM t WHERE ...

)
，速度会怎样?

...全文

128 10 打赏收藏转发到动态举报

写回复

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

华芸智森 2008-03-03

打赏
举报

回复

2亿还用数据库?
用OLAP统计.

rqrq 2008-03-03

打赏
举报

回复

为什么每次都要COUNT？用一张表来记录数量不是很好吗？

welove1983 2008-03-03

打赏
举报

回复

直接挂掉 ...!
- -
分库吧

过百万的数据使用 count基本上就是老汉推车了
大数据量使用count是极度慢的.

如果有ID
那么按ID 分
每XXXX条记录为一段
取个count
然后多个 count+起来
别一起count

rqrq 2008-03-03

打赏
举报

回复

从a-z，建立26个表吧

flairsky 2008-03-03

打赏
举报

回复

1、name 在插入待查询表的时候换成对应nameid
nameid name 形成关系表
2、nameid上建立聚集索引
3、distinct 2亿，不符合数据库设计规则……
4、有索引插入当然慢，何况数据如此大，建议做水平分区，分别置于不用IO设备上
5、返回结果量如果很小，建议索引做大做全，插入操作在空闲时进行，累积一定量插入后，删除索引后一次性插入，再建立索引。

seemon 2008-03-03

打赏
举报

回复

NAME上做clustered index可能会好点吧，不过应该还是够慢的

fcuandy 2008-03-01

打赏
举报

回复

distinct 或者 group by 去重的效率是很低的(跟直接select 相比)
两亿条数据,没有实用的经验,所以不知道.

tianyan316 2008-03-01

打赏
举报

回复

没试过那大的数据``但你用DISTINCT效率肯定不会高``插入数据效率也低

jacklee_888 2008-03-01

打赏
举报

回复

在開table 架構時把此問題考慮在內﹐就可以不用這么寫。那么多資料這么寫肯定速度不會好到哪里

samson_www 2008-03-01

打赏
举报

回复

用sql2005的分区表应该速度影响会小些不?

PHP中file_put_contents追加和换行的实现方法在PHP的一些应用中需要写日志或者记录一些信息，这样的话。可以使用fopen(),fwrite()以及 fclose()这些进行操作。也可以简单的使用file_get_contents()和file_put_contents().file_put_contents()写文件。默认的是重新写文件，也就是会替换原先的内容。追加的话使用参数...

摘要：单日总数据处理量超 10 万亿，峰值大概超过每秒 3 亿，OPPO 大数据平台研发负责人张俊揭秘 OPPO 基于 Apache Flink 构建实时数仓的实践，内容分为以下四个方面...

无索引数据有几十G，用sqoop导入进度太慢，等待很久map还是0% 所以才去分而治理 1、先用mysql导入到csv文件中，顺序扫描并保存到文件中 select * from t_swmx_sl into outfile 't_swmx_sl.csv' fields terminated by '\001' lines terminated by '\n' ; 用时间：11:17-> 2、后加载到hadoop中 3、创建hive表 4、再加载到hive中 5、创建hive分区表 6、用

前言 q时间，以前的同事问我，Mysql能不能导入3亿的数据。我脑子当时翁的一下，不太确定的说应该可以导入的吧！只是导入进去以后，可能会出现查询过慢的情况。于是马上百度了一下，发现有人干过这种事情，在Mysql上面导入亿级的数据（文章链接）。根据这篇文章的介绍，知道了原有的几个坑。第一个注意事项：索引第一个注意事项就是索引。建表的时候除了主键不要给别的字段建立索引。因为索引也需要创建，当我们数据量过大的时候就要注意，这个时候创建索引会导致我们的数据导入时间无限拉长。只需要留下一个自增ID做主

一、拉链表介绍 1.什么是拉链表拉链表：记录每条信息的生命周期，一旦一条记录的生命周期结束，就重新开始一条新的记录，并把当前日期放入生效开始日期。如果当前信息至今有效，在生效结束日期中填入一个极大值（如9999-99-99），如下表（表1）： image.png 2.为什么要做拉链表拉链表适合于：数据会发生变化，但是大部分是不变的。比如：订单信息从未支付、已支付、未发货、已完成等状态经历了一周，大部分时间是不变化的。如果数据量有一定规模，无法按照每日全量的方式保存。比如：1亿用户*

34,587

社区成员

254,588

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章