社区
MS-SQL Server
帖子详情
两亿条记录会有什么后果,没分了,会追加
jronald
2008-03-01 12:13:15
先说明一下,是单词统计,记录需要一起参与统计
有两个疑问
1.加记录,有聚集索引,到后面是否会严重影响记录追加速度?
2.简单查询(无子查询,最多加个DISTINCT,如(
SELECT COUNT(DISTINCT name) FROM t WHERE ...
)
,速度会怎样?
...全文
128
10
打赏
收藏
两亿条记录会有什么后果,没分了,会追加
先说明一下,是单词统计,记录需要一起参与统计 有两个疑问 1.加记录,有聚集索引,到后面是否会严重影响记录追加速度? 2.简单查询(无子查询,最多加个DISTINCT,如( SELECT COUNT(DISTINCT name) FROM t WHERE ...) ,速度会怎样?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
10 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
华芸智森
2008-03-03
打赏
举报
回复
2亿还用数据库?
用OLAP统计.
rqrq
2008-03-03
打赏
举报
回复
为什么每次都要COUNT?用一张表来记录数量不是很好吗?
welove1983
2008-03-03
打赏
举报
回复
直接挂掉 ...!
- -
分库吧
过百万的数据 使用 count基本上就是老汉推车了
大数据量使用count是极度慢的.
如果有ID
那么 按ID 分
每XXXX条记录为一段
取个count
然后 多个 count+起来
别一起count
rqrq
2008-03-03
打赏
举报
回复
从a-z,建立26个表吧
flairsky
2008-03-03
打赏
举报
回复
1、name 在插入待查询表的时候换成对应nameid
nameid name 形成关系表
2、nameid上建立聚集索引
3、distinct 2亿 ,不符合数据库设计规则……
4、有索引插入当然慢,何况数据如此大,建议做水平分区,分别置于不用IO设备上
5、返回结果量如果很小,建议索引做大做全,插入操作在空闲时进行,累积一定量插入后,删除索引后一次性插入,再建立索引。
seemon
2008-03-03
打赏
举报
回复
NAME上做clustered index可能会好点吧,不过应该还是够慢的
fcuandy
2008-03-01
打赏
举报
回复
distinct 或者 group by 去重的效率是很低的(跟直接select 相比)
两亿条数据,没有实用的经验,所以不知道.
tianyan316
2008-03-01
打赏
举报
回复
没试过那大的数据``但你用DISTINCT效率肯定不会高``插入数据效率也低
jacklee_888
2008-03-01
打赏
举报
回复
在開table 架構時把此問題考慮在內﹐就可以不用這么寫。那么多資料這么寫肯定速度不會好到哪里
samson_www
2008-03-01
打赏
举报
回复
用sql2005的分区表应该速度影响会小些不?
php file_put_contents 换行
追加
,PHP中file_put_contents
追加
和换行的实现方法
PHP中file_put_contents
追加
和换行的实现方法在PHP的一些应用中需要写日志或者
记录
一些信息,这样的话。可以使用fopen(),fwrite()以及 fclose()这些进行操作。也可以简单的使用file_get_contents()和file_put_contents().file_put_contents()写文件。默认的是重新写文件,也就是
会
替换原先的内容。
追加
的话使用参数...
单日处理10万
亿条
数据,OPPO 实时数仓揭秘
摘要:单日总数据处理量超 10 万亿,峰值大概超过每秒 3 亿,OPPO 大数据平台研发负责人张俊揭秘 OPPO 基于 Apache Flink 构建实时数仓的实践,内容分为以下四个方面...
mysql单表2亿无索引数据,迁移到hive中并分区存放
无索引数据有几十G,用sqoop导入进度太慢,等待很久map还是0% 所以才去分而治理 1、先用mysql导入到csv文件中,顺序扫描并保存到文件中 select * from t_swmx_sl into outfile 't_swmx_sl.csv' fields terminated by '\001' lines terminated by '\n' ; 用时间:11:17-> 2、后加载到hadoop中 3、创建hive表 4、再加载到hive中 5、创建hive分区表 6、用
Mysql 导入3亿数据
前言 q时间,以前的同事问我,Mysql能不能导入3亿的数据。我脑子当时翁的一下,不太确定的说应该可以导入的吧!只是导入进去以后,可能
会
出现查询过慢的情况。 于是马上百度了一下,发现有人干过这种事情,在Mysql上面导入亿级的数据(文章链接)。根据这篇文章的介绍,知道了原有的几个坑。 第一个注意事项:索引 第一个注意事项就是索引。建表的时候除了主键不要给别的字段建立索引。因为索引也需要创建,当我们数据量过大的时候就要注意,这个时候创建索引
会
导致我们的数据导入时间无限拉长。只需要留下一个自增ID做主
数仓中拉链表(压缩存储)
一、拉链表介绍 1.什么是拉链表 拉链表:
记录
每条信息的生命周期,一旦一条
记录
的生命周期结束,就重新开始一条新的
记录
,并把当前日期放入生效开始日期。 如果当前信息至今有效,在生效结束日期中填入一个极大值(如9999-99-99),如下表(表1): image.png 2.为什么要做拉链表 拉链表适合于:数据
会
发生变化,但是大部分是不变的。 比如:订单信息从未支付、已支付、未发货、已完成等状态经历了一周,大部分时间是不变化的。如果数据量有一定规模,无法按照每日全量的方式保存。比如:1亿用户*
MS-SQL Server
34,587
社区成员
254,588
社区内容
发帖
与我相关
我的任务
MS-SQL Server
MS-SQL Server相关内容讨论专区
复制链接
扫一扫
分享
社区描述
MS-SQL Server相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章