基于关联规则挖掘的分布式小文件存储方法下载

weixin_39821260 2019-10-03 05:30:15

Hadoop分布式文件系统(HDFS)设计之初是针对大文件的处理,但无法高效地针对小文件进行存储,因此提出了一种基于关联规则挖掘的高效的小文件存储方法——ARMFS。ARMFS通过对Hadoop系统的审计日志进行关联规则挖掘,获得小文件间的关联性,通过文件合并算法将小文件合并存储至HDFS;在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表提出预取算法来进一步提高文件访问效率。实验结果表明,ARMFS方法明显提高了NameNode的内存使用效率,对于小文件的下载速度和访问效率的改善十分有效。
相关下载链接：//download.csdn.net/download/qq_28339273/10516986?utm_source=bbsseo

...全文

7 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Hadoop分布式文件系统(HDFS)设计之初是针对大文件的处理,但无法高效地针对小文件进行存储,因此提出了一种基于关联规则挖掘的高效的小文件存储方法——ARMFS。ARMFS通过对Hadoop系统的审计日志进行关联规则挖掘,获得小文件间的关联性,通过文件合并算法将小文件合并存储至HDFS;在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表提出预取算法来进一步提高文件访问效率。实验结果表明,ARMFS方法明显提高了NameNode的内存使用效率,对于小文件的下载速度和访问效率的改善十分有效。

#资源达人分享计划#

Re: FastDFS 分布式文件系统部署 ============================== FastDFS 分布式存储主要功能有：文件存储，文件同步，文件访问（文件上传/下载）,特别适合以文件为载体的在线服务，如图片网站，视频网站等它的存储特点是对文件体积小或超小，同时文件的数量特别多的存储情况支持较好，（如果是大文件的存储就推荐使用 Glusterfs 分布式网络文件存储），所谓的小文件就是指网站的图片，文档或者小视频等等，体积范围在4K~500MB之间。所谓的大文件指软件的镜像包、电影等等。除了FastDFS存储文件特点之外，它同时具备自我负载均衡的能力，可以解决了运维自动化的关键问题。 # 块存储、文件存储、对象存储这三者的本质差别是什么？ 1）块存储：磁盘阵列，硬盘（块存储主要是将裸磁盘空间整个映射给主机使用的） 2）文件存储：FTP、NFS服务器（解决文件无法共享的问题） 3）对象存储：内置大容量硬盘的分布式服务器（解决容量、性能、可靠性等问题）多台服务器内置大容量硬盘，再装上对象存储软件，然后再额外搞几台服务作为管理节点，安装上对象存储管理软件。 # gluterfs主要运行场景：存储大文件，针对小文件或超小文件的支持比较差 KVM镜像视频文件 # FastDFS主要运行场景：存放文件size范围：4K~500MB # 对象存储 - GlusterFS、Ceph、FastDFS（非对象存储）必备技能：DRBD/NFS/MooseFS/ GlusterFS/ FastDFS/TFS（http://tfs.taobao.org/）/ # 访问客户端：只能专用API访问实现存放单元文件size范围：4K~500MB（阅读、声音、视频网站） # 典型用户： ... ...

关联规则是数据挖掘中的重要方法与技术，在关联规则挖掘中，频繁的 I/O 操作必定会影响关联规则的挖掘效率，减少 I/O 操作的方法主要是：减少扫描数据集的次数；降低需要计算支持度的候选项目集的数量，并使候选项目集的数量与频繁项目集的数量接近。候选项目集数量的减少可以节省处理部分候选项目集所需的计算时间和存储空间，但是随着网络和经济的发展，分布式系统越来越多，在进行数据挖掘时，分布式关联规则在各节点间的协商与竞争、信息利用和网络通讯效率上存在的问题日益突出，严重影响关联规则挖掘的应用。

互联网开放平台提供的用户信息授权服务得到了广泛应用，但其在满足第三方网站的数据挖掘需求时往往将用户隐私信息交由多方存储，因而加重用户隐私滥用与泄露风险。针对这一问题，提出了一种开放平台与网站间的分布式关联规则挖掘算法，算法无须可信第三方参与，双方各自依据挖掘条件生成以频繁-1项集编号、用户身份标志符为行、列标记的布尔型矩阵，由开放平台进行矩阵扰动和整合，再由网站在整合矩阵上挖掘全局关联规则。实验证明该算法有效，且没有因通信代价而显著降低挖掘时间效率。

下载资源悬赏专区

12,910

社区成员

12,459,056

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章