大数据的手机号码进行归属地查询，分类存储文件

du_23tiyanwang 2018-05-07 07:37:23

这边现在手头上有300万个手机号码存放在文件中，如何在JAVA中批量读取并判断手机号码进行34个省份归属地的存取啊？并且区分三大运营商，依次保存。

...全文

1165 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

顽固已死_有事烧纸 2018-05-08

打赏
举报

自己架webservice 提供接口给外部说不定还能卖点钱

r00_a2lBUR 2018-05-08

打赏
举报

可能有这样的接口

du_23tiyanwang 2018-05-08

打赏
举报

因为也存在一点机密情况考虑吧，能分享下代码么。邮3407254617@qq.com

大数据时代下的档案数据挖掘作者：徐涛李京林蓝传锜来源：《山东工业技术》2018年第05期摘要：在信息化高度发展的今天，随着纸质档案数字化转变，正确认识档案信息资源、对档案信息资源进行合理开发和利用、挖掘用户使用档案行为并进行分析以及关注焦点等信息，对研究档案的利用具有很大的价值。作为查档用户，通过需求调研发现，单纯的电子档案信息的调阅已经不能满足如今诸多时间紧任务重的工作环境，如何在尽可能少的时间内获取尽可能多的有用信息是用户关注的焦点。关键词：数据挖掘；档案；大数据 DOI：10.16640/j.cnki.37-1222/t.2018.05.116 1 档案数据挖掘的基本认识 1.1 档案数据挖掘的定义与特性数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。对数据化的档案资源进行数据挖掘，从而找到蕴藏在档案中的价值，获取档案中的知识和规律，这一过程可以说是从数据到新知识的蜕变。如，档案人员想要做好档案编研选题，不仅要对用户利用档案数据，包括档案调卷数量、档案利用次数、复制档案数量、制发档案证明数量等进行深度挖掘，而且还需要对用户访问记录，包括网页采用的关键字、下载记录、检索词、用户利用网页时间和频度等信息进行深度挖掘，然后利用分类功能及数据分析，建立档案编研选题的用户模型，一是按需确定不同类型的编研选题，提供个性化的服务；二是根据档案用户需求特点，预测其未来趋向，结合社会热点选定档案编研题目，从而使档案编研部门推出用户满意的编研成果[1]。在档案利用方面，对档案利用登记数据库进行深度挖掘，分别选取不同方面数据进行建模，可以得出不同档案利用形式的变化趋势，从而对档案利用趋势进行分析和预测，对利用频率高的档案进行全文数字化，既可以提高档案利用效率，又可以起到保护档案原件的作用。因此，档案数据的挖掘是大数据时代的主要特点，档案学的发展历程告诉我们，每一次重大的技术变革都必然影响着档案学的发展，如计算机和网络技术的引人，引起了档案管理理念与实践的变革，改变了文件与档案的处理流程。大数据技术对档案数据的深度挖掘为档案管理流程由粗放走向精细化提供了可能。 1.2 从数字化档案转变为数据化档案 "数据化"是近两年随着大数据的发展才逐渐被人们从"数字化"概念中逐渐分离并提出来。最初"数字化"和"数据化"是混为一谈的，数据化的提出不是对数字化的否定，而是在对数字世界认识逐步深化的基础上，对数字化理论的拓展与推进。可以说数字化带来了数据化，但是无法取代数据化。我国档案界探讨最多的是档案的数字化，在理论和实践方面都取得很多成果。国家在档案数字化方面出台了《电子文件归档与管理规范》和《纸质档案数字化技术规范》两个重要的标准规范。在实践中，我国档案数字化主要做了两方面工作：一是档案目录信息的数字化，即建立档案目录数据库，严格规范档案信息的著录标引，科学选定档案目录的数据库结构；二是档案全文信息的数字化，即采用扫描录入的方式将档案全文按照原貌逐页存储为图像文件并为其编制目录索引，或是经OCR（光学字符技术）识别后采用文本格式存储档案内容，辅之以全文检索数据库[2]。可见，我国在档案数字化过程里已经无意识地进行了部分档案的数据化，尽管所占的比例很小。 2 数据挖掘技术在档案信息管理中的应用档案数据挖掘过程中，会用到包括文本信息抽取、文本分类、文本聚类、文本数据处理等技术进行文本的数据挖掘工作[3]。比如以档案文本数据为基础资源知识库，根据档案发布的时间信息，分析档案产生的节点趋势以及政府部门针对某一政策的关联度；对档案类目信息或文本信息进行分词，运用文本分类和文本聚类技术，结合档案数据的基本属性（时间、所属部门等），对档案进行归类（如按照关键词、档案发布部门、主题等）；采用主题识别技术对档案数据进行抽取，以档案主题为中心，结合档案类别归属，找出与之关联的档案。基于上述资源，结合多策略的内容抽取，进行文档数据内容的对比，分析相关政策的影响力、执行力以及变化趋势，从而给政府部门提供相应的决策资源[4]。同时也可以通过知识管理技术，主要包括信息积累、知识挖掘、知识运用等，结合信息检索、分析及挖掘技术，将信息进行适当的分类及抽取或形成一组问答序列，并将这些信息进行提取，形成解决某一问题域的数据集，挖掘出一定的专门知识，作为决策的依据，进一步提升档案信息资源的再利用与档案编研工作者的工作效率[5 ]。 3 结语在信息爆炸的"互联网+"时代，档案工作仍面临三大矛盾：一是档案本质属性与管理理念的矛盾，智慧时代产生的档案信息以原生电子档案、多媒体档案为主，而档案部门仍按传统实体档

python解读出手机号的归属地、运营商、邮编、区号，此处是存储在excle表格里，xlsx文件内不能有中文名称，包括表头 from phone import Phone import xlrd import xlwt def Get_Excel_data(): file = 'C:\\Users\\Acheng\\Desktop\\工作簿4.xlsx' #手机号码所在的Excle文件，xlsx文件内不能有中文名称，包括表头 re1 = xlrd.open_workbook(file)

通过hash技术对rowkey进行分析处理，解决hbase的热点问题，协同coprocessor，解决系统的高吞吐量和查询负载问题以及如何避免中间结果导致通知风暴或死递归问题，让同学们体验到大数据技术在企业中实战应用

本文讲的是XFS：大数据环境下Linux文件系统的未来,Linux有好多种件系统，但往往最受关注的是其中两种：ext4和btrfs。XFS开发者Dave Chinner近日声称，他认为更多的用户应当考虑XFS。他谈到了为了解决XFS中最严重的可扩展性问题所做的工作，还谈到了他认为将来的发展走向。如果他说的一点都没错，接下来几年我们在XFS方面有望看到更多...

大数据服务的数据源不但来自归属于不同行业的组织之中，而且其类型还具有多样性（Variety）特征。多样性指的是大数据服务不仅包括例如姓名、年龄这样的结构化数据，还包括歌曲、电影这样的非结构化数据，此外网页、邮件这样的数据介于结构化和非结构化之间，属于半结构化数据，也是大数据服务的重要数据源。结构化数据来源于业务需求，系统分析员将需求中静态的“名词”提取出来并进行抽象，作为数据库表结构设计的...

Android

80,351

社区成员

91,288

社区内容

发帖

与我相关

我的任务

androidandroid-studioandroidx 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章