大量数据内存group问题？

fxfeiyi 2010-09-28 02:18:19

通常我们是在数据库，用sql的group来完成大量数据的分组，但是我的问题是：

在一个DBF文件中，有几列做联合主键，如果主键相同则将记录进行分组。
也就是主键相同的记录，按某个字段求和
现在限于解析DBF的java api过于简单，只能一次性“顺序”读出所有记录到java内存，想利用java某个算法group。

此需求过于苛刻，出于性能考虑，想争取解决方案和办法。

或者有什么好的解析DBF的好方法也行。

...全文

44 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

1、从numpy库进行数据存储和基本操作包含切片，级联，索引，聚合等操作熟练使用，解析numpy的广告播机制；2、使用pandas库的数据分析工具开始利用高性能工具对数据进行加载、清理、转换、合并以及重塑；利用matpIotlib创建散点图以及静态或交互式的可视化结果；3、利用pandas的groupby功能对数据集进行切片、切块和汇总操作；处理各种各样的时间序列数据。

好久没来写博客了改天看下mardown语法试试用这个写博客比较清晰，以前写过都忘了正题上个月在做一个基于nodejs的数据发送和解析，用mqtt做中转，短时间读取大量数据nodejs经常出现内存溢出的情况，发送端读取大量的文件数据加密传输，接收端收到数据后解码存储到数据库先说发送端，首先记录一下nodejs异步导致的信息不对称，用闭包的方式解决了。 nodejs默认内存只有1...

由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。举例：一个 Flink 作业包含 200 个 Task 节点，其中有 199 个节点可以在很短的时间内完成计算。但是有一个节点执行时间远超其他结果，并且随着数据量的持续增加，导致该计算节点挂掉，从而整个任务失败重启。我们可以在 Flink 的管理界面中看到任务的某一个 Task 数据量远超其他节点。大数据框架的特性不怕数据大，怕数据倾斜。jobs数比较多的作业运行效率相对比较低，如子查询比较多。

找了很多天的解决方法，一直被分页查询绕进去了，其实数据都能查出来的，真正卡的地方是ExcelExportUtil类下调错了方法。最开始调用的是这个方法，最主要的地方就是我标记的地方 workbook = new HSSFWorkbook();和workbook = new XSSFWorkbook();我先说说这两个方法作用：1.HSSFWorkbook:是操作Excel2003以前（包括200...

clickhouse group by 优化神器 clickhouse中有时候会有对大量分散数据进行group by后再筛选的需求比如3亿条数据按照字段A进行group by,还有2亿条，再根据其他字段的count结果进行筛选： select A，count(*) from table t1 group by A having count(*)>8 因为字段A的分散性，group by 会非常耗费内存且慢优化方法！！！将表t1的分片字段改为A，那么表中的数据就会自动按照A值的不同分布在不同

高性能WEB开发

25,985

社区成员

4,366

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章