文献检索

江湖人称大佬 2019-06-20 09:36:28
按照论文格式,对大数据方面的文献进行分析。 CNKI中关于大数据方面文献的分析 李志斌 摘 要 云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来.数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大数据已经成为普遍关注的话题.大数据的规模效应给数据存储、管理以及数据分析和数据的可视化带来了极大的挑战,数据管理方式上的变革正在酝酿和发生.对大数据的基本概念进行剖析,并对大数据的主要应用作简单对比.在此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析. 关键词:大数据 数据分析 可视化 一、引言 大数据具有规模大、种类多、生成速度快、价值巨大但密度低的特点.大数据应用就是利用数据分析的方法,从大数据中挖掘有效信息,为用户提供辅助决策,实现大数据价值的过程.本文从发表年度、研究层次、作者、机构、基金等几个方面进行分析。并且选择了我自己所喜欢的40篇相关文献从资源类型、学科、来源、基金、作者、机构等方面进行分析。 二、总体分析 数据来源:文献总数:84199 篇;检索条件:( ( (关键词=大数据) 或者 (关键词=数据分析) ) 或者 (关键词=可视化) ) (精确匹配),:全部; 数据库:文献 跨库检索。 图1 从检索出的文献结果来看,大数据、数据分析、可视化的相关技术的研究在2014年-2018年处于研究的高峰期,即所谓的学术热点,而在2018年稍有下降,但仍然处于研究的高峰阶段。 ​ 图2 主题是指在题名、关键词、摘要三个字段中出现。从主题上来看,大数据、数据分析、可视化等关键词仍然十分的热门,文献数量远远多于其他与其相关的技术的文献数量。 ​ 图3 从检索文献的发表年度分组浏览中,可以看出大数据、数据分析、可视化等相关技术的研究从2015年开始处于热门状态,在2018年,更是达到了目前大数据相关研究领域的峰值。 ​图4 从研究层次上来看,大数据研究用于工程技术(自科)的仍然占大多数。用于基础研究(社科)的占据第二位。这很符合大数据作为工程技术的本质和属性。凸显了大数据的理论研究热点,而非应用的研究热点。 ​图5 在作者分组浏览中发现,程平发表的与大数据云计算相关的文献较多。其他作者也发表的相对较多。 ​ 图6 从机构可以看出,目前发表与大数据有关的文献数量前3的机构分别是武汉大学、浙江大学、清华大学。 ​ 图7 从基金方面来分析,发表文献量处于前3的基金项目分别为国家自然科学基金、国家社会科学基金、国家高技术研究发展计划。基金论文往往代表了某研究领域的新趋势、“制高点”。 三、局部分析 ​ 图8 指数来源 ​ 图9 所选的40篇文献发表年度大多处在2013年到2019年,而这些文献的引证数量在该阶段形成一个峰值,尤其在2017年达到最大峰值,说明了这些文献的引用量较高,因此他们的质量和权威性也相对的较高。 ​ 图10 从资源类型分布上来看,所选文献中,都是是期刊。可见期刊是多么的重要。 ​ 图11 通过学科分布分析,所选文献中,信息科技学科的占比达到一半(50.0%),体现了大数据相关技术理论研究仍然处于主要地位。第二位为基础科学,占比为14.8%,体现了大数据、数据分析、可视化在信息科技的运用很多。 ​ 图12 通过来源可以看出,所选文献中,其他20篇,占比50.0%,而第二为计算机学报,有10篇,占比10.0% 。 ​ 图13 通过基金可以看出,国家自然科学基金22篇,占比36.1%、国家重点基础研究发展8篇,占比13.1%、跨世纪优秀人才培养计划2篇,占比3.3%、其他14篇,占比23.0%。 ​ 图14 通过机构分布可以看到,武汉大学、电子科技大学和中国科学院软件研究所各2篇,各占比为4.3%; 中国人民大学5篇,占比为10.9%;浙江大学、吉林大学和清华大学各3篇,各占比6.5;其他机构有17篇,占比为37.0% 。 四、结论 通过上述对大数据、数据分析、可视化等文献各个方面的分析,发现与大数据等相关技术的研究从2013年至今处于学术热点,一直处于快速的增长,而且吸引了越来越多的关注,预计在将来的一段时间内仍然是一个研究的热门领域。 关于本学期学习文献检索心得体会:我们学习了一门很特别而且很有用的学科,名字叫文献检索,这门课程给我带来了不少收获。文献检索课程是高校教学中不可缺少的一门课程,是素质教育中重要的组成部分,是当代大学生必须掌握的基本技能。文献检索教育是培养我们大学生的信息意识,使我们掌握用手工方式和计算机方式从各种文献或互联网中获取知识和信息的一-种科学方法学,是信息素养教育中重要的组成部分,是大学生素质教育中不可缺少的-一个环节。高校的文献检索课作为我国高校情报用户教育的主要形式,是学生学习信息知识、掌握信息检索技术、普及信息素质教育的基础课,它和外语、计算机等一样是当代大学生必须掌握的基本技能。所以,对我们来说,文献检索十分有必要。而且我们必须好好掌握这样-一门课程。 在学习的期间,通过网络学习,我们对计算机检索基础知识、中文数据库检索、专利基础知识及专利数据库检索、常用英文数据库检索等检索知识和方法有了一个深刻的了解;通过知网,经过实际操作,对清华数据库、方正电子图书数据库以及springer数据库、EI、 village2数据库等各类中英文数据库都加深了印象。同时,学习了具体的文献检索知识,对于我们的日常的学习也很有帮助,例如,当我们需要查询专业课程的相关文献用以学习的时候,我们便可以利用这些文献检索数据库来搜索到我们所需要的论文和书籍。另外,在必要的时候,为了方便搜索,我们还可以在高校图书馆,专门查询一些自己所需的不易随便下载的文献。学习了文献检索这门课程,我才发现,通过图书馆的电子资源,我们可以查询到许许多多的有用文献,对我们的学习具有相当大的作用,另外,还让我形成了借助这些数据库进行自主学习的习惯,只要有需要,我就会在这些数据库中查询自已感兴趣的东西,用来丰富自己的综合知识。 可以说,通过文献检索的学习,我了解到了很多我以前所不知道的东西,以前在需要学习资料的时候不知道在哪里找,而现在完全不用茫然无头绪了,各种数据库所包含的强大的检索功能和丰富的信息资源,给我提供了很大的帮助。当然,文献检索这门课程很有用,可是要学好也不是很容易,我们必须多练习、多搜索,经常去查询、去摸索,并且要仔细的静下心来学习,只有真正熟悉了各种数据库的检索方法,掌握正确的检索方法,才能够快速而准确的找到自己真正所需要的文献资料。 谢辞 时光飞逝,转眼间一学期的课程就要结束了,非常感谢郝志红老师辛苦的付出和教导! 郝志红老师认真教学的态度,以及对学问的精益求精的精神使我受益终身。感谢老师的精彩授课。郝志红老师在课堂上对我们的教导,使我们每一个人都受益匪浅。课堂上灵活的教学方式,使我们在上课中充满了兴趣。通过各种形式的作业,让我们主动去了解了更多书本之外的知识。在论文写作过程中,用到了很多老师在上课中讲授到的模型。对郝志红老师无私的教导表示诚挚的谢意!同时,还要感谢同学们,大家在学习中互相学习,互相帮忙,共同度过了一段完美难忘的时光。 此外,感谢参考文献中的作者们,通过他们的研究文章,使我对研究课题有了很好的出发点。
...全文
114 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
(1)本软件不能检查已发表文档,因为已发表的文档往往已经到处传播和引用开来。 ⑵.本软件的每检测400字需要6秒钟,一篇8000字的文档至少需要2分钟,需要一点点耐心。 ⑶.本软件检测结果存在误差,用更小的文档块进行检测,可以减少误差,但需要的时间会相应增加,经过我们在多家编辑部的试用情况,块数大小定为200-400字较为合适,此时误差率也是可以接受的,文档相似率一般是比实际的要低。 ⑷.如果某个相似块未显示,说明未检索到相似的文档。 ⑸.本软件每天检测字数不能超过10万字,否则服务器过载,将封锁IP。 ⑹.本软件后台数据库覆盖188亿个网页和490万篇论文。 ⑺.本软件检测文档不得超过4000字,如需要更长的文档支持,需要购买收费版。 ⑻.当软件未能联网时,软件检测按钮将变虚。 ⑼.本免费版由于服务器压力,有时候可能不能正常检测,出现这种情况,请速联系我们,或者由单位出面购买单位版或者豪华版。 ⑽.本软件检测结果只能作为一个参考,可以使用表格右键导出详细检查结果发送给被检查本人,本软件不对是否剽窃做结论,只是告诉你与现存文献相似度高于80%的文字比例所占文章总数比例是多少。 ⑾.我们将持续投入反剽窃的研究,本人已获批国家自科基金进一步反剽窃问题,我们将继续发表一系列论文,以及继续申请相关专利。软件不完善的地方敬请原谅。 欢迎提供反馈意见,我们将持续升级本软件。 我们的联系方式:runorsoft@163.com 我们的博客:http://hi.baidu.com/whusoft -------------------------------------------------------------------- 反剽窃系统是通过比对源文档和目标文档的相似性给出相似度结果的一种信息处理系统。由武汉大学信息管理学院出版科学系教师沈阳副教授研发的ROST 文档相似性检测工具可以有效检测论文的抄袭相似情况,经过六年的研发,终于推出了功能强劲的6.0版本,在定版过程中得到了武汉大学信息管理学院多位专家教授的宝贵意见。 目前ROST 反剽窃系统6.0版已经投入多家单位进行使用,反应良好,最大程度地杜绝了有抄袭可能的论文发表问世。 ROST反剽窃系统的技术特点: 1.覆盖面广,通过混合引擎覆盖约188亿个网页和490万篇论文。系统采用自研的ROST WebSpider算法实现了对互联网和期刊网的广度覆盖。但需要提醒您的是,本反剽窃系统不能覆盖所有文献。 2.模糊检测,柔性匹配,不管抄袭者如何替换部分字符,删除部分标点符号,系统都能通过相似度来进行判定,让抄袭者无所遁形。系统采用自研的ROST Similar算法实现高速相似性检测和度量。系统采用自研的QingQing算法提取信息指纹,在P3、512MBPC上,分词速度为13MB/S,已在互联网提供评测版供业内评测。 3.引文及参考文献去除,使得误判的可能性降至最低。 4.分块检测机制,将文章的每一文本块与其他文档的相似度都精确的表示出来了,每一文本块约为200字至400字不等,以红色表示极度相似(相似度大于80%),一目了然,清晰醒目。 5.相似文档模块跟踪技术,可以通过简单操作直接定位相似文档模块位置,直观明了。 6.方便的结果分析功能,自动分析文档相似结果,给出评价意见。 7.支持多种文件格式的文档,包括PDF、DOC、PPT、XLS、TXT等文档。 (PDF文件需另行安装ROST文件格式识别引擎) 8.可将分析结果进行存盘为专有数据文件,不用反复查找浪费时间。 9.应用范围广泛:可用于抄袭鉴定、科技查新、专利查新、引用查询、转载查询等多个领域,也可用于追查文献的流传图,绘制文献的传播发布路线。可以为多类学术机构、文献机构以及个人服务。 多年来,学术界的论文著作抄袭剽窃事件屡见不鲜,这是摆在我们面前的一个重大课题。目前多是靠偶然发现后,在书山文海中逐步查找,费力劳神,时效性差,工作量极大。为促进学术事业的健康发展,采用有效科学手段,发现和打击学术腐败,极有必要进行反剽窃和相似信息检测系统的研发和推广,提升刊物和出版单位的学术信誉,净化学术风气。目前国外已深刻认识到学术腐败对科技创新的危害性,也采取了切实有效的技术措施,对侵犯知识产权或违反学术道德的不端行为加以取证。而国内只有极少数专家从事反剽窃的技术与理论研究。武汉大学信息管理学院出版科学系推出的ROST反剽窃系统技术先进,功能实用,是守住学术道德底线的有效工具,能将用户的学术及经济风险降至最低。 研发人员还先后发现了剽窃省力、格式遗留、剽窃趋同、剽窃蔓延、剽窃习惯固定、相关引文剽窃等六种现象,总结了论文剽窃的主要方式,连续推出了三个原型系统,发表了《System of twice-gathering information and Research of information fingerprint Hashtrie》、《The Research of Anti-plagiarism Monitoring System Model》、《Research on Anti-plagiarism System and the Law of Plagiarism》等6篇相关论文,申请了“基于计算机网络的防转载或/和反剽窃监控方法”(专利号:200610019074.5)、“能加快反剽窃或转载文档检测速度的方法”(专利号:200610166577.5已授权)两项相关专利。

590

社区成员

发帖
与我相关
我的任务
社区描述
提出问题
其他 技术论坛(原bbs)
社区管理员
  • community_281
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧