【大数据匹配-求高效处理思路】

woluge 2016-05-03 10:49:22
各位大神好,需求前景如下:
**电信运营商每小时给出**省份用户接入数据,大约7千多万,数据中有地理位置字段(LAC),小区ID(CI),**省份的小区对应表数据为20多万,我现在要通过后台程序实现根据用户地理位置(LAC),小区ID(CI),在小区对应表中匹配用户所在小区,这个查询匹配量很大,如果我只是简单的将小区对应表缓存到内存中检索,那效率肯定不行,
请大神们指点更优的缓存机制
小区对应表如下:


...全文
521 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
woluge 2016-05-03
  • 打赏
  • 举报
回复
引用 5 楼 cancerser 的回复:
如果你非要采用缓存处理,并且要处理7000万条的话,我给你几个建议 1.先将7000万排序并分组去重复(如果可能的话,估计你的内存吃不下,请无视此条) 2.将20万分组,通过LAC进行分组。匹配每一条时,到相应的LAC去查找CI,这样你单次匹配的数量级就降到了 LAC的组数+相应LAC组的CI数,要远小于20万。或则有更精细的特征码,你可以继续分组,分组越详细匹配的数量级越小 3.内存中LAC 和CI 都转成整型,别用字符串。值类型比较要比字符串快的多的多。 -------- 4.如果7000万是实时的,也就是每时每刻都在同步,那么,个人建议你实时插入本地数据库,然后和20万左连接就好 5.如果7000万事分时的,也就是每小时来一次,那么恭喜你,除非是分布式匹配,任何方法都快不到哪里去 给你个简单思路,多建几个数据库,把20万分到几个数据库里(LAC分组),然后7000根据不同特征码插到不同的数据库,一个视图搞定。当然这种分组方式也适用123 6.我通常的做法适用123建几个webservice,每个同事机器上装一个,7000万几个人一分 很快就完事
感谢分享,我这边是按小时给出的数据包,对数据要进行地市分组,黑名单剔除,重复用户迁移路线归类,8G虚拟内存,先跑起来看看
cancerser 2016-05-03
  • 打赏
  • 举报
回复
如果你非要采用缓存处理,并且要处理7000万条的话,我给你几个建议
1.先将7000万排序并分组去重复(如果可能的话,估计你的内存吃不下,请无视此条)
2.将20万分组,通过LAC进行分组。匹配每一条时,到相应的LAC去查找CI,这样你单次匹配的数量级就降到了 LAC的组数+相应LAC组的CI数,要远小于20万。或则有更精细的特征码,你可以继续分组,分组越详细匹配的数量级越小
3.内存中LAC 和CI 都转成整型,别用字符串。值类型比较要比字符串快的多的多。
--------
4.如果7000万是实时的,也就是每时每刻都在同步,那么,个人建议你实时插入本地数据库,然后和20万左连接就好
5.如果7000万事分时的,也就是每小时来一次,那么恭喜你,除非是分布式匹配,任何方法都快不到哪里去
给你个简单思路,多建几个数据库,把20万分到几个数据库里(LAC分组),然后7000根据不同特征码插到不同的数据库,一个视图搞定。当然这种分组方式也适用123
6.我通常的做法适用123建几个webservice,每个同事机器上装一个,7000万几个人一分 很快就完事

woluge 2016-05-03
  • 打赏
  • 举报
回复
嗯,感谢,我实现下
  • 打赏
  • 举报
回复
就是你用memorycache了?数据量不是很大的话也可以
woluge 2016-05-03
  • 打赏
  • 举报
回复
引用 1 楼 starfd 的回复:
放到redis不行么?用sortedset,lac和ci直接组合成score,这样你就是直接用score进行查找
感谢版主回答,刚我也想到了合并lac,ci用作唯一key,然后根据key的最后一位数的奇偶,进行缓存分组,再匹配,如果不使用redis,直接使用hash表,是否够好了?
  • 打赏
  • 举报
回复
放到redis不行么?用sortedset,lac和ci直接组合成score,这样你就是直接用score进行查找
**Python Django大数据应届生职系统** 此资源是一套完整的Python Django开发的应届生职系统,旨在帮助毕业生高效地寻找工作机会。该系统集成了大数据技术,能够根据用户的职意向和行为,智能推荐匹配度高的职位信息。同时,系统还提供了简历管理、职位搜索、公司分析等实用功能,帮助用户更好地展示自己并找到理想的工作。 论文部分详细阐述了系统的需分析、设计思路、实现技术和测试结果,为相关领域的学术研究提供了有价值的参考。毕设源代码则包含了系统的所有关键模块和核心功能,保证了代码的可重用性和可维护性。 该系统具有以下特点: 1. **大数据驱动**:利用大数据技术分析用户行为和职市场趋势,为用户提供个性化的职位推荐。 2. **用户友好**:界面简洁明了,操作流程符合用户习惯,降低了使用难度。 3. **功能丰富**:除了基本的职功能外,还提供了一系列增值服务,如职业规划、面试技巧培训等。 4. **安全可靠**:采用了严格的权限控制和数据加密技术,确保用户信息安全。 5. **可扩展性强**:采用模块化设计,方便后期根据用户需进行二次开发和定制。 此资源的下载和使用完全免费,但请注意遵守相关的版权法规。我们非常期待您在使用过程中提出宝贵的意见和建议,以便我们不断完善和优化这套系统。
大数据医疗现状及趋势全文共47页,当前为第1页。 战略分析思路 一、政策解读 二、医疗行业痛点 三、大数据医疗发展现状 四、大数据医疗发展趋势 五、标杆分析 大数据医疗现状及趋势全文共47页,当前为第2页。 医疗大数据成为国家战略 12/23/2022 时间 政策/文件/会议 内容概要 2016.6 《国务院办公厅关于促进和规范健康医疗大数据应用发展指导意见》 大力推动政府健康医疗信息系统和公众健康医疗数据互联融合、开放共享,消除信息孤岛,积极营造促进健康医疗大数据安全规范、创新应用的发展环境,通过"互联网+健康医疗"探索服务新模式、培育发展新业态。 到2020年,建成国家医疗卫生信息分级开放应用平台,实现……基础数据资源跨部门、跨区域共享,医疗、医药、医保和健康各相关领域数据融合应用取得明显成效;统筹区域布局,依托现有资源建成100个区域临床医学数据示范中心,基本实现城乡居民拥有规范化的电子健康档案和功能完备的健康卡——医疗大数据正式纳入国家战略 2016.1 《国务院关于整合城乡居民基本医疗保险制度的意见》 完善信息系统:整合现有信息系统,支撑城乡居民医保制度运行和功能拓展。推动城乡居民医保信息系统与定点机构信息系统、医疗救助信息系统的业务协同和信息共享,做好城乡居民医保信息系统与参与经办服务的商业保险机构信息系统必要的信息交换和数据共享。 2015.9 《国务院关于印发促进大数据发展行动纲要的通知》 医疗健康服务大数据。构建电子健康档案、电子病历数据库,建设覆盖公共卫生、医疗服务、医疗保障、药品供应、计划生育和综合管理业务的医疗健康管理和服务大数据应用体系。探索预约挂号、分级诊疗、远程医疗、检查检验结果共享、防治结合、医养结合、健康咨询等服务,优化形成规范、共享、互信的诊疗流程。鼓励和规范有关企事业单位开展医疗健康大数据创新应用研究,构建综合健康服务应用。 社会保障服务大数据。建设由城市延伸到农村的统一社会救助、社会福利、社会保障大数据平台,加强与相关部门的数据对接和信息共享,支撑大数据在劳动用工和社保基金监管、医疗保险对医疗服务行为监控、劳动保障监察、内控稽核以及人力资源社会保障相关政策制定和执行效果跟踪评价等方面的应用。利用大数据创新服务模式,为社会公众提供更为个性化、更具针对性的服务。 大数据医疗现状及趋势全文共47页,当前为第3页。 医疗大数据成为国家战略 12/23/2022 时间 政策/文件/会议 内容概要 2015.6 人社部《关于全面推进基本医疗保险医疗服务智能监控经办规程》 以业务需为导向、信息系统建设为基础,用两年左右时间,在全国所有统筹地区普遍开展智能监控工作,逐步实现对门诊、住院、购药等各类医疗服务行为的全面、及时、高效监控。2016年,全国所有统筹地区开展智能监控工作。——医生不能再给患者"任意"开药了 2015.5 《深化医疗卫生体系体制改革2014年工作总结和2015年重点工作任务》 制定推进远程医疗服务的政策措施,统筹建设省、市、县级人口健康信息平台 2015.3 《全国医疗卫生服务体系规划纲要(2015-2020年)》 开展健康中国云服务计划,积极应用移动互联网、物联网、云计算、可穿戴设备等新技术,推动惠及全民的健康信息服务和智慧医疗服务,推动健康大数据的应用。到2020年,全面建成互联互通的国家、省、市、县四级人口健康信息平台,实现公共卫生、计划生育、医疗服务、医疗保障、药品供应、综合管理等六大业务应用系统的互联互通和业务协同。积极推动移动互联网、远程医疗服务等发展。 大数据医疗现状及趋势全文共47页,当前为第4页。 战略思路 一、政策解读 二、医疗行业痛点 三、大数据医疗发展现状 四、大数据医疗发展趋势 五、标杆分析 大数据医疗现状及趋势全文共47页,当前为第5页。 低效、混乱、难监管 12/23/2022 流动资金管理效率低下 缺少对药品流通环节及对医院购药和医生开药的管控,造成中间环节的非法返点 医院和药店的采购分散,无法形成规模优势 生产过程的无监督导致药品质量低劣 分销层级过多,效率低下 看病难 看病贵 体验差 缺乏完善的审核工具和监控手段,报销中存在欺诈、浪费、滥用的现象 小型本地经销商 病人 医保局 医院 医生 药房 药厂 大型经销商 小型经销商 网站、APP、客服中心 银行 审核批准后付款 报销审核/福利管理服务机构 过量开药、过渡诊断和治疗 并非结合疗效和成本考虑的最佳治疗方案 病患不匹配 劳动强度高 制度约束力强 大数据医疗现状及趋势全文共47页,当前为第6页。 医保基金缺口大 12/23/2022 数据来源:卫计委 图:2008-2015年城镇基本医疗保险基金收支情况(亿元) 近年来,医保基金支出增幅基本高于收入增幅,且医保支出占收入的比重远超过80%;老龄化比

62,041

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧