第2章信息检索原理与技术.pptx下载

weixin_39821051 2021-10-04 19:31:59
第2章信息检索原理与技术.pptx , 相关下载链接:https://download.csdn.net/download/weixin_45365017/24329971?utm_source=bbsseo
...全文
13 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
第3 大数据存储技术 大数据技术及应用教学课件第3-大数据存储技术全文共34页,当前为第1页。 数据库 01 02 03 主要内容 分布式文件系统 存储技术的发展 数据仓库 04 大数据技术及应用教学课件第3-大数据存储技术全文共34页,当前为第2页。 3.1 存储技术的发展 数据存储介质分为磁带、磁盘和光盘三大类,由三种介质分别构成磁带库、磁盘阵列、光盘阵列三种主要存储设备,三种存储介质各有特点。 磁盘设备由于存取速度快、数据查询方便、简单易用、安全的磁盘阵列技术等占据一级存储市场的主要份额 磁带设备以技术成熟、价格低廉等优势占据了二级存储市场的重要地位 光盘设备同时具有二者特点 磁盘阵列(Redundant Arrays of Independent Disks,RAID),它由很多价格便宜的磁盘组成巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。 大数据技术及应用教学课件第3-大数据存储技术全文共34页,当前为第3页。 3.1.1 传统存储技术 直连式存储(Direct Attached Storage,DAS)是最为常见的存储形式之一。 DAS存储是通过服务器内部直接连接磁盘组,或者通过外接线连接磁盘阵列。这种方式通常需要通过硬件RAID卡或者软RAID的方式实现磁盘的冗余保护,防止由于磁盘故障导致整个存储系统的不可用而丢失数据。 大数据技术及应用教学课件第3-大数据存储技术全文共34页,当前为第4页。 3.1.1 传统存储技术 网络储存设备(Network Attached Storage,NAS),是通过以太网方式接入并进行访问的存储形式。 DAS存储是通过服务器内部直接连接磁盘组,或者通过外接线连接磁盘阵列。这种方式通常需要通过硬件RAID卡或者软RAID的方式实现磁盘的冗余保护,防止由于磁盘故障导致整个存储系统的不可用而丢失数据。 NAS存储设备可以直接连接在以太网中,之后在该网络域内具有不同类型操作系统的主机都可以实现对该设备的访问。使用者可以通过某种方式(例如linux下的mount命令)将存储服务挂载到本地进行访问,在本地呈现的就是一个文件目录树。我们所熟悉的NFS(Network File System)其实就是一种NAS存储形式,NFS服务器就是NAS存储设备。我们可以通过开源软件搭建该种类型的存储设备,当然市面上也有很多成熟的产品。 大数据技术及应用教学课件第3-大数据存储技术全文共34页,当前为第5页。 分布式存储架构由三个部分组成:客户端、元数据服务器和数据服务器。客户端负责发送读写请求,缓存文件元数据和文件数据。元数据服务器负责管理元数据和处理客户端的请求,是整个系统的核心组件。数据服务器负责存放文件数据,保证数据的可用性和完整性。 3.1.2 分布式存储 大数据技术及应用教学课件第3-大数据存储技术全文共34页,当前为第6页。 Hadoop Distributed File System,简称HDFS,是Hadoop架构下的一个分布式文件系统。HDFS是Hadoop的一个核心模块,有着高容错性、高吞吐量等优点,并且设计用来部署在低廉的硬件上,能够提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。 3.1.2 分布式存储 大数据技术及应用教学课件第3-大数据存储技术全文共34页,当前为第7页。 3.2.1 HDFS相关概念 1.块(block) 所有文件都是以块的形式存储在磁盘中,文件系统每次只能操作磁盘块大小的整数倍数据,HDFS中一般默认块大小为64MB。 2.元数据 元数据信息包括名称空间、文件到文件块的映射、文件块到数据节点的映射三个部分。 3.名称节点(NameNode) NameNode是HDFS系统中的管理者,负责管理文件系统的命名空间,记录了每个文件中各个块所在的数据节点的位置信息,维护文件系统的文件树及所有的文件和目录的元数据。这些信息以两种数据结构存储在本地文件系统中,即FsImage和EditLog。 大数据技术及应用教学课件第3-大数据存储技术全文共34页,当前为第8页。 3.2.1 HDFS相关概念 4.辅助名称节点(Secondary NameNode) 是NameNode发生故障时的备用节点,主要功能是进行数据恢复,它的职责是合并NameNode的EditLog到FsImage文件中。 Secondary NameNode工作原理 大数据技术及应用教学课件第3-大数据存储技术全文共34页,当前为第9页。 3.2.1 HDFS相关概念 5.数据节点(DataNode) DataNode根据需要存储并检索数据块,受客户端或NameNode调度,并定期向NameNode发送它们所存储的块的列表。同时,它会通过
第3 SQL Server2016基础 数据库系统原理chp3全文共23页,当前为第1页。 表3-1 SQL Server版本发布时间和开发代号 数据库系统原理chp3全文共23页,当前为第2页。 3.2.3 SQL Server 2016版本及对应功能 SQL Server 2016共有4个版本,主要包括:企业版、标准版、精简版和开发者版,类似于SQL Server 2014,其中Developer 和 Express是免费的。SQL Server 2016 的主要版本及其对应功能,如表3-2所示。 3.2 SQL Server 2016的功能及特点 数据库系统原理chp3全文共23页,当前为第3页。 3.2 SQL Server216的功能及特点 表3-2 SQL Server 2016主要版本及功能 数据库系统原理chp3全文共23页,当前为第4页。 3.3.1 SQL Server 2016的体系结构 1.客户机/服务器体系结构 2.数据库的三级模式结构 3.3 SQL Server 2016体系结构及文件 数据库系统原理chp3全文共23页,当前为第5页。 3. SQL Server 2016的组成结构 (1)SQL Server总体结构和组件 SQL Server 2016 组件包括: 数据库引擎(Database Engine)分析服务(Analysis Services)、集成服务(Integration Services)报表服务(Reporting Services)以及主数据服务(Master Data Services)组件等.各组件之间的关系如图3-3所示。 服务代理 主要核心 3.3 SQL Server 2016体系结构及文件 数据库系统原理chp3全文共23页,当前为第6页。 SQL Server2016的服务器组件及其对应功能 服务器组件 功 能 说 明 SQL Server 数据库引擎 包括数据库引擎(用于存储、处理和保护数据的核心服务)、复制、全文搜索、用于管理关系数据和XML数据的工具及 数据质量服务器(DQS) 分析服务AS 用于创建和管理联机分析处理 (OLAP) 以及数据挖掘应用程序的工具。 (一种透过数理模式分析企业储存的大量资料,找出不同客户或市场划分,分析消费者喜好和行为的方法) 报表服务RS 用于创建、管理和部署表格报表、矩阵报表、图形报表以及自由格式报表的服务器和客户端组件。RS还是一个可用于开发报表应用程序的可扩展平台。 集成服务IS 是一组图形工具和可编程对象,用于移动、复制和转换数据. 还包括IS的数据质量服务器(DQS) 组件 主数据服务(MDS) 针对主数据管理的 SQL Server 解决方案。包括复制服务、服务代理、通知服务和全文检索服务等功能组件,共同构成完整的服务架构。 可扩展标记语言 3.3 SQL Server 2016体系结构及文件 数据库系统原理chp3全文共23页,当前为第7页。 (2)SQL Server 2016主要管理工具 在实际应用中,常用SQL Server 2016的主要管理工具 管理工具 功 能 说 明 SSMS ( SQL Server Management Studio) 用于访问、配置、管理和开发 SQL Server 组件的集成环境。使各种技术水平的开发人员和管理员都能使用SQL Server。 SQL Server 配置管理器 为SQL 服务、服务器协议、客户端协议和客户端别名提供基本配置管理 SQL Server 事件探查器 提供一图形用户界面,用于监视数据库引擎实例或分析服务AS实 数据库引擎优化顾问 可以协助创建索引、索引视图和分区的最佳组合 数据质量客户端 提供一个简单和直观的图形用户界面,用于连接到 DQS 数据库并执行数据清理操作。还允许集中监视在数据清理操作过程中执行的活动。 数据库系统原理chp3全文共23页,当前为第8页。 管理工具 功 能 说 明 SQL Server 数据工具(SSDT) 包含"数据库项目", 为DB开发人员提供集成环境,以便在VS内为SQL平台(内部/外部)执行所有DB设计. 开发人员可用VS功能增强的服务器资源管理器,轻松创建或编辑DB对象和数据或执行查询 连接组件 安装用于客户端和服务器之间通信的组件,及用于DB-Library、ODBC和OLE DB的网络库. 数据库系统原理chp3全文共23页,当前为第9页。 4.数据库的存储结构及文件种类 (1)数据库的存储结构 数据库存储结构有两种,包括: 1)数据库的逻辑结构(DB对象,约束,规则) 2)数据库的物理结构(DB及文件) 3.3 SQL Server 2016体系结构及文件 数据库系统原理chp3全文共23页,当前为第
第7 大数据分析与挖掘技术 大数据项目组 2018年7月 华中科技大学软件学院 第7-大数据分析与挖掘技术---大数据基础全文共37页,当前为第1页。 目录 2 概述 推荐 聚类 分类 第7-大数据分析与挖掘技术---大数据基础全文共37页,当前为第2页。 数据挖掘简介 3 (1)分类分析:分类是指按照某种分类模型将具有相同特征的数据对象划分为同一类。 (2)聚类分析:聚类分析是一种创建数据对象集合的方法,这种数据集合也称为簇(Cluster),聚类分析力求使得同簇成员尽可能相似,异簇成员尽可能相异 (3)关联分析:关联分析是指找出多个事物之间具有的规律性(关联),这一概念最早是由Rakesh Apwal等人提出的。 (4)时序模式分析:时序模式分析反映的是属性在时间上的特征,属性在时间维度上如何变化,时序模式分析试图在这些历史数据中找到重复概率较高的模式,从而可以利用已知的数据预测未来的值,主要应用在产品生命周期预测,寻求客户等方面。 (5)偏差分析:偏差分析是指关注数据库中的异常点,因为对管理者来说,这些异常点往往是更需要给予关注的。 数据挖掘也称为知识发现,是目前数据科学领域的热点研究课题。数据挖掘,就是从海量数据中发现隐含的、不平凡的、具有价值的规律或模式。在人工智能、机器学习、模式识别、数据库管理和图像处理等专业领域,数据挖掘技术都是必不可少的技术支持。 数据挖掘 第7-大数据分析与挖掘技术---大数据基础全文共37页,当前为第3页。 数据挖掘流程 4 第7-大数据分析与挖掘技术---大数据基础全文共37页,当前为第4页。 Mahout 5 Mahout是Apache公司的开源机器学习软件库,其实现了机器学习领域的诸多经典算法,例如,推荐算法、聚类算法和分类算法。Mahout可以让开发人员更方便快捷地创建智能应用程序,另外,Mahout通过应用Hadoop库可以有效利用分布式系统进行大数据分析,大大减少了大数据背景下数据分析的难度。 目前Mahout着力与三个领域——推荐(协同过滤)、聚类、分类算法的实现上,尽管理论上它可以实现机器学习中的所有技术! 第7-大数据分析与挖掘技术---大数据基础全文共37页,当前为第5页。 Mahout安装与配置 6 (1)安装JDK+IDEA集成开发环境; (2)安装配置maven; (3)安装配置Mahout; (4)安装配置Hadoop伪分布式环境。 第7-大数据分析与挖掘技术---大数据基础全文共37页,当前为第6页。 Mahout程序开发流程(IDEA下) 7 (1)使用IDEA新建maven标准Java程序; (2)进入File Project Structure Project Settings Libraries,点击加号 Java; (3)选中自己安装的Mahout文件夹,全部导入; (4)在Java代码中使用Mahout类库中的类。 第7-大数据分析与挖掘技术---大数据基础全文共37页,当前为第7页。 目录 8 概述 推荐 分类 聚类 第7-大数据分析与挖掘技术---大数据基础全文共37页,当前为第8页。 推荐的定义与评估 9 推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西 最为典型的两种推荐模式,基于用户(User-based)的推荐和基于物品(Item-based)的推荐,Mahout的推荐程序中应用最广的也就是这两类。 第7-大数据分析与挖掘技术---大数据基础全文共37页,当前为第9页。 推荐的定义与评估 10 一个优秀的推荐程序,应该是在用户行动之前就能准确地获知用户喜欢的每一种物品的可能性,而且这些物品是用户并没有见过或者没有对其表达过喜好意见的。因此,可以用经典的信息检索(Information Retrieval)中的度量标准——查准率和查全率来对推荐进行评估 查准率(Precision Ratio)是在推荐结果中相关结果的比率,是衡量检索系统和检索者检出相关信息的能力; 查全率(Recall Ratio)是指所有相关结果中被推荐结果所占比例,是衡量检索系统和检索者拒绝非相关信息的能力。 第7-大数据分析与挖掘技术---大数据基础全文共37页,当前为第10页。 相似性 11 进行推荐时,常常要度量两个用户(物品)之间的相似程度,常用的相似性度量有以下几种:皮尔逊相关系数、欧氏距离、余弦相似性、斯皮尔曼相关系数、Jaccard系数(用于忽略了偏好值的数据)、对数似然比等 皮尔逊相关系数 第7-大数据分析与挖掘技术---大数据基础全文共37页,当前为第11页。 基于用户的推荐 12 基于用户的推荐本身的原理植根于用户之间的相似性,通过参考相似性最大的用户的偏好进行推荐。 for 用户u尚未表达偏好的每

12,781

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧