千万级数据入库问题求解决

雨中的看客 2015-12-29 05:51:34
现每个月有一张EXCEL表,数据量大约在800W行左右,需要按分公司每月导入数据库(有6家分公司,数据加在一起需要导入的有5000万条)。其中还有各种逻辑,需要按记录中的某字段取出比例信息进行计算,计算结果与原表中数据进行对比,如果大于原来的值不更新。。。等等等等。。。。

求高效方法、工具或者思路
...全文
593 点赞 收藏 5
写回复
5 条回复
走在冷风中_南山南 2015年12月30日
引用 3 楼 qeppykqsn 的回复:
[quote=引用 1 楼 sinat_27650399 的回复:] 建议你先看看800W行的数据EXCEL放不放得进去?EXCEL放进去了,什么样的机器能打开这个EXCEL 或许是放在EXCEL本身就是不合理的,是否考虑使用CSV文件存储,然后通过读CSV文件的方式分批LOAD处理呢?这样处理起来就轻松很多了
不好意思,我这边描述有问题,我首先是通过CSV分批导入价格表(Price),然后Price表有800W条记录,现在要用这Price表的数据关联机构表(dept)、品牌表(brand)、品牌价格比例表(BrandRatio,该表中存在三个价格比例)得出三个新的价格与存放有5000万条记录的newPrice表进行关联,从而修改表newPrice中的价格(关联字段有多个 机构编码、产品编码、产品名称、品牌ID)。请问这个怎么分批执行呢?[/quote] 怎么分批要看你具体的业务,根据你的表述,是不是从800W的数据获取,进行逻辑运算,然后保存到newPrice里? 产品表有多少个产品呢?分批处理的方式是,假设你有100W的产品,每次分页取200个产品,进行逻辑运算然后入库,也就是写入1000次数据库,每次批量提交,这样你所谓的大数据一个小时之内肯定是可以处理完的
回复 点赞
雨中的看客 2015年12月30日
引用 2 楼 sinat_27650399 的回复:
[quote=引用 1 楼 sinat_27650399 的回复:] 建议你先看看800W行的数据EXCEL放不放得进去?EXCEL放进去了,什么样的机器能打开这个EXCEL 或许是放在EXCEL本身就是不合理的,是否考虑使用CSV文件存储,然后通过读CSV文件的方式分批LOAD处理呢?这样处理起来就轻松很多了
分批读CSV比分批读EXCEL要简单很多[/quote] 不好意思,我这边描述有问题,我首先是通过CSV分批导入价格表(Price),然后Price表有800W条记录,现在要用这Price表的数据关联机构表(dept)、品牌表(brand)、品牌价格比例表(BrandRatio,该表中存在三个价格比例)得出三个新的价格与存放有5000万条记录的newPrice表进行关联,从而修改表newPrice中的价格(关联字段有多个 机构编码、产品编码、产品名称、品牌ID)。请问这个怎么分批执行呢?
回复 点赞
雨中的看客 2015年12月30日
引用 1 楼 sinat_27650399 的回复:
建议你先看看800W行的数据EXCEL放不放得进去?EXCEL放进去了,什么样的机器能打开这个EXCEL 或许是放在EXCEL本身就是不合理的,是否考虑使用CSV文件存储,然后通过读CSV文件的方式分批LOAD处理呢?这样处理起来就轻松很多了
不好意思,我这边描述有问题,我首先是通过CSV分批导入价格表(Price),然后Price表有800W条记录,现在要用这Price表的数据关联机构表(dept)、品牌表(brand)、品牌价格比例表(BrandRatio,该表中存在三个价格比例)得出三个新的价格与存放有5000万条记录的newPrice表进行关联,从而修改表newPrice中的价格(关联字段有多个 机构编码、产品编码、产品名称、品牌ID)。请问这个怎么分批执行呢?
回复 点赞
走在冷风中_南山南 2015年12月29日
建议你先看看800W行的数据EXCEL放不放得进去?EXCEL放进去了,什么样的机器能打开这个EXCEL 或许是放在EXCEL本身就是不合理的,是否考虑使用CSV文件存储,然后通过读CSV文件的方式分批LOAD处理呢?这样处理起来就轻松很多了
回复 点赞
走在冷风中_南山南 2015年12月29日
引用 1 楼 sinat_27650399 的回复:
建议你先看看800W行的数据EXCEL放不放得进去?EXCEL放进去了,什么样的机器能打开这个EXCEL 或许是放在EXCEL本身就是不合理的,是否考虑使用CSV文件存储,然后通过读CSV文件的方式分批LOAD处理呢?这样处理起来就轻松很多了
分批读CSV比分批读EXCEL要简单很多
回复 点赞
发动态
发帖子
高性能WEB开发
创建于2008-07-01

2.4w+

社区成员

4356

社区内容

高性能WEB开发
社区公告
暂无公告