大数据量的文件和数据比对算法

wasuka 2007-06-01 02:32:12

有一文件，每行的格式相同，都为：“用户ID,学校名称”。例如：
27,北师大
6559,复旦
大约46万行；

数据表包含学校ID、学校名称字段。例如：
1 北京师范大学
2 复旦大学
大约2000行；

文件中的学校名称可能是简写，表中为全称；
现要找出文件内的学校名称不存在于表中的行，要考虑到简写和文字顺序情况。例如：“北师大”匹配“北京师范大学”，但不匹配“师范大学北区”。

　　我目前的做法是：先将表内的学校名称数据全部读出存成字符串$school，其中每个学校名称之间用"|"分隔；然后分批读取文件（例如每次200行），explode(",",$str)后再将学校名称部分$str[1]与$school做正则比对。
　　考虑到中文简称问题，$str[1]中的每一个汉字间又要插入".*"，还要考虑到学校名称的间隔符"|"……
　　测试效率非常低，200行的文件数据用时大概1分钟。

　　求一个高效率的算法，谢谢。

...全文

843 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

ImN1 2007-06-01

打赏
举报

回复

这个例子会对你有所启发

http://community.csdn.net/Expert/TopicView3.asp?id=5421276

wasuka 2007-06-01

打赏
举报

回复

对。就是说“北师大”这三个字之间可以有别的字，但顺序必须保持一致

adenr 2007-06-01

打赏
举报

回复

你把文件中的北师大作为条件查询阿 %北%师%大%，结果会出现北京师范大学，而不是师范大学北区吧

在处理大数据量的排序操作时，优化临时文件的使用是提高 PostgreSQL 性能的关键。我们可以通过增加内存配置、使用索引、调整排序算法、使用分区表和优化查询语句等方法来减少对临时文件的依赖，提高查询的性能。就像在建造一座高楼大厦时，我们需要打下坚实的基础，合理地设计结构，选择合适的材料，才能建造出一座坚固、美观的大厦。同样，在优化 PostgreSQL 的性能时，我们需要综合考虑各种因素，选择合适的优化方法，才能提高系统的性能，满足业务的需求。

最近接到一个需求，需要从服务器中导出大量数据到Excel中，数据量大概为50万行，50列，借助这个机会，就想对使用使用低内存导出大数据量的方案进行探索，总结出一个通用可行性方案，以方便日后随时可以使用，同时也分享一下探索的过程。降低存入到内存中的数据，使用分批次查询、分批次插入数据的方式。尽可能的减少并发，避免使用多线程操作Excel，同时，还可以通过队列做异步和限流，排队处理导出请求。考虑到Excel文件过大无法操作，可以将一个大文件拆分为多个小文件。

解决文件比对慢难题，Java 12 Files.mismatch()的偏移特性大幅提升性能。适用于大文件逐字节对比场景，通过定位首个差异字节减少冗余读取，显著降低耗时。核心方法简洁高效，兼容NIO优化机制，值得收藏。

在当今的互联网应用中，数据量不断增长，如何高效地处理大数据量成为了开发人员面临的重要挑战。MyBatis 作为 Java 开发中常用的持久层框架，其处理大数据量的能力直接影响到系统的性能和响应速度。本文的目的是介绍 MyBatis 处理大数据量的各种技巧，涵盖从基本的查询优化到高级的批量操作和流式处理等方面。范围包括原理分析、代码实现以及实际应用场景的说明，旨在为开发者提供全面的指导。本文将按照以下结构进行组织：首先介绍核心概念与联系，包括 MyBatis 的基本架构和处理大数据量的相关概念；

堆排序和快速排序的比较堆排序是接近nlgn的下界，而快排有性能坏的情况，为何还是快排表现更优秀呢？ 1.堆排序是处理数组中相隔较远的数据，快速排序是根据两个指针按序遍历的，根据寄存器、高速缓存的热cache、局部性原理，快排更好 2.快排的极端情况太难复现，而且可以用随机基准数 3.快排还有各种优化的方案基数排序的性能在低数据量的时候，性能很不错；但是非...

21,889

社区成员

140,337

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章