大数据的手机号码进行归属地查询,分类存储文件

du_23tiyanwang 2018-05-07 07:37:23
这边现在手头上有300万个手机号码存放在文件中,如何在JAVA中批量读取并判断手机号码进行34个省份归属地的存取啊?并且区分三大运营商,依次保存。
...全文
1165 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
自己架webservice 提供接口给外部 说不定还能卖点钱
r00_a2lBUR 2018-05-08
  • 打赏
  • 举报
回复
可能有这样的接口
du_23tiyanwang 2018-05-08
  • 打赏
  • 举报
回复
因为也存在一点机密情况考虑吧,能分享下代码么。邮3407254617@qq.com
大数据时代下的档案数据挖掘 作者:徐涛 李京林 蓝传锜 来源:《山东工业技术》2018年第05期 摘 要:在信息化高度发展的今天,随着纸质档案数字化转变,正确认识档案信息资源、对 档案信息资源进行合理开发和利用、挖掘用户使用档案行为并进行分析以及关注焦点等 信息,对研究档案的利用具有很大的价值。作为查档用户,通过需求调研发现,单纯的 电子档案信息的调阅已经不能满足如今诸多时间紧任务重的工作环境,如何在尽可能少 的时间内获取尽可能多的有用信息是用户关注的焦点。 关键词:数据挖掘;档案;大数据 DOI:10.16640/j.cnki.37-1222/t.2018.05.116 1 档案数据挖掘的基本认识 1.1 档案数据挖掘的定义与特性 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取 隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。对数据化的 档案资源进行数据挖掘,从而找到蕴藏在档案中的价值,获取档案中的知识和规律,这 一过程可以说是从数据到新知识的蜕变。 如,档案人员想要做好档案编研选题,不仅要对用户利用档案数据,包括档案 调卷数量、档案利用次数、复制档案数量、制发档案证明数量等进行深度挖掘,而且还 需要对用户访问记录,包括网页采用的关键字、下载记录、检索词、用户利用网页时间 和频度等信息进行深度挖掘,然后利用分类功能及数据分析,建立档案编研选题的用户 模型,一是按需确定不同类型的编研选题,提供个性化的服务;二是根据档案用户需求 特点,预测其未来趋向,结合社会热点选定档案编研题目,从而使档案编研部门推出用 户满意的编研成果[1]。在档案利用方面,对档案利用登记数据库进行深度挖掘,分别选 取不同方面数据进行建模,可以得出不同档案利用形式的变化趋势,从而对档案利用趋 势进行分析和预测,对利用频率高的档案进行全文数字化,既可以提高档案利用效率, 又可以起到保护档案原件的作用。 因此,档案数据的挖掘是大数据时代的主要特点,档案学的发展历程告诉我们 ,每一次重大的技术变革都必然影响着档案学的发展,如计算机和网络技术的引人,引 起了档案管理理念与实践的变革,改变了文件与档案的处理流程。大数据技术对档案数 据的深度挖掘为档案管理流程由粗放走向精细化提供了可能。 1.2 从数字化档案转变为数据化档案 "数据化"是近两年随着大数据的发展才逐渐被人们从"数字化"概念中逐渐分离 并提出来。最初"数字化"和"数据化"是混为一谈的,数据化的提出不是对数字化的否定 ,而是在对数字世界认识逐步深化的基础上,对数字化理论的拓展与推进。可以说数字 化带来了数据化,但是无法取代数据化。 我国档案界探讨最多的是档案的数字化,在理论和实践方面都取得很多成果。 国家在档案数字化方面出台了《电子文件归档与管理规范》和《纸质档案数字化技术规范》 两个重要的标准规范。在实践中,我国档案数字化主要做了两方面工作:一是档案目录 信息的数字化,即建立档案目录数据库,严格规范档案信息的著录标引,科学选定档案 目录的数据库结构;二是档案全文信息的数字化,即采用扫描录入的方式将档案全文按 照原貌逐页存储为图像文件并为其编制目录索引,或是经OCR(光学字符技术)识别后采 用文本格式存储档案内容,辅之以全文检索数据库[2]。可见,我国在档案数字化过程里 已经无意识地进行了部分档案的数据化,尽管所占的比例很小。 2 数据挖掘技术在档案信息管理中的应用 档案数据挖掘过程中,会用到包括文本信息抽取、文本分类、文本聚类、文本 数据处理等技术进行文本的数据挖掘工作[3]。比如以档案文本数据为基础资源知识库, 根据档案发布的时间信息,分析档案产生的节点趋势以及政府部门针对某一政策的关联 度;对档案类目信息或文本信息进行分词,运用文本分类和文本聚类技术,结合档案数 据的基本属性(时间、所属部门等),对档案进行归类(如按照关键词、档案发布部门 、主题等);采用主题识别技术对档案数据进行抽取,以档案主题为中心,结合档案类 别归属,找出与之关联的档案。基于上述资源,结合多策略的内容抽取,进行文档数据 内容的对比,分析相关政策的影响力、执行力以及变化趋势,从而给政府部门提供相应 的决策资源[4]。同时也可以通过知识管理技术,主要包括信息积累、知识挖掘、知识运 用等,结合信息检索、分析及挖掘技术,将信息进行适当的分类及抽取或形成一组问答 序列,并将这些信息进行提取,形成解决某一问题域的数据集,挖掘出一定的专门知识 ,作为决策的依据,进一步提升档案信息资源的再利用与档案编研工作者的工作效率[5 ]。 3 结语 在信息爆炸的"互联网+"时代,档案工作仍面临三大矛盾:一是档案本质属性与 管理理念的矛盾,智慧时代产生的档案信息以原生电子档案、多媒体档案为主,而档案 部门仍按传统实体档

80,351

社区成员

发帖
与我相关
我的任务
社区描述
移动平台 Android
androidandroid-studioandroidx 技术论坛(原bbs)
社区管理员
  • Android
  • yechaoa
  • 失落夏天
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧