Hadoop的Namenode 审计日志

xmxm5320 2015-12-15 05:37:42

尊敬的各位CSDN大神，小弟课题要求要对HDFS的Namenode的审计日志文件进行分析，可是奈何实验室Hadoop集群刚刚搭起来，基本没什么日志。有没有哪位大神刚好有这个数据集，分享给小弟，万分感谢啊。 Namenode审计日志就是记录用户操作的日志，比如用户名和操作类型，就像Linux的History一样。在网上也找不到相似的数据集，要哭死了。

...全文

662 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

qsn1994 2017-02-17

打赏
举报

回复

你好，请问你有没有找到数据呢？现在我也要用到审计日志，找到可以分享一下吗？

qsn1994 2017-02-16

打赏
举报

回复

你好，请问你找到了吗？我现在也在找审计日志，找到了可以分享一份吗？

xmxm5320 2015-12-15

打赏
举报

回复

哪位同志来指点一下！

概念 - 何为”大数据安全” 大数据安全与隐私保护 - “隐私泄露”是大数据安全首要风险大数据安全策略 - “大数据安全”的关注点大数据安全策略 - 边界安全（ Walled Garden ）大数据安全策略 - 边界安全：Data Proxy 数据网关大数据安全策略 -访问控制：基于POXIS & ACLs 大数据安全策略 - 日志审计：Hadoop NameNode 日志审计大数据安全策略 - 日志审计： Hadoop集群分析大数据安全策略 - 日志审计：血缘分析大数据安全策略 - 数据保护：数字水印

内容简介　　本书从Hadoop的缘起开始，由浅入深，结合理论和实践，全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章，3个附录，涉及的主题包括：Haddoop简介；MapReduce简介；Hadoop分布式文件系统；Hadoop的I/O、MapReduce应用程序开发；MapReduce的工作机制；MapReduce的类型和格式；MapReduce的特性；如何构建Hadoop集群，如何管理Hadoop；Pig简介；Hbase简介；Hive简介；ZooKeeper简介；开源工具Sqoop，最后还提供了丰富的案例分析。　　本书是Hadoop权威参考，程序员可从中探索如何分析海量数据集，管理员可以从中了解如何安装与运行Hadoop集群。目录第1章初识Hadoop 　数据！数据！　数据存储与分析　与其他系统相比　关系型数据库管理系统　网格计算　志愿计算　1.3.4 Hadoop 发展简史　Apache Hadoop和Hadoop生态圈第2章关于MapReduce 　一个气象数据集　数据的格式　使用Unix工具进行数据分析　使用Hadoop分析数据　map阶段和reduce阶段　横向扩展　合并函数　运行一个分布式的MapReduce作业　Hadoop的Streaming 　Ruby版本　Python版本　Hadoop Pipes 　编译运行第3章 Hadoop分布式文件系统　HDFS的设计　HDFS的概念　数据块　namenode和datanode 　命令行接口　基本文件系统操作　Hadoop文件系统　接口　Java接口　从Hadoop URL中读取数据　通过FileSystem API读取数据　写入数据　目录　查询文件系统　删除数据　数据流　文件读取剖析　文件写入剖析　一致模型　通过 distcp并行拷贝　保持 HDFS 集群的均衡　Hadoop的归档文件　使用Hadoop归档文件　不足第4章 Hadoop I/O 　数据完整性　HDFS的数据完整性　LocalFileSystem 　ChecksumFileSystem 　压缩　codec 　压缩和输入切分　在MapReduce中使用压缩　序列化　Writable接口　Writable类　实现定制的Writable类型　序列化框架　Avro 　依据文件的数据结构　写入SequenceFile 　MapFile 第5章 MapReduce应用开发　配置API 　合并多个源文件　可变的扩展　配置开发环境　配置管理　辅助类GenericOptionsParser，Tool和ToolRunner 　编写单元测试　mapper 　reducer 　本地运行测试数据　在本地作业运行器上运行作业　测试驱动程序　在集群上运行　打包　启动作业　MapReduce的Web界面　获取结果　作业调试　使用远程调试器　作业调优　分析任务　MapReduce的工作流　将问题分解成MapReduce作业　运行独立的作业第6章 MapReduce的工作机制　剖析MapReduce作业运行机制　作业的提交　作业的初始化　任务的分配　任务的执行　进度和状态的更新　作业的完成　失败　任务失败　tasktracker失败　jobtracker失败　作业的调度　Fair Scheduler 　Capacity Scheduler 　shuffle和排序　map端　reduce端　配置的调优　任务的执行　推测式执行　重用JVM 　跳过坏记录　任务执行环境第7章 MapReduce的类型与格式　MapReduce的类型　默认的MapReduce作业　输入格式　输入分片与记录　文本输入　二进制输入　多种输入　数据库输入(和输出) 　输出格式　文本输出　二进制输出　多个输出　延迟输出　数据库输出第8章 MapReduce的特性　计数器　内置计数器　用户定义的Java计数器　用户定义的Streaming计数器　排序　准备　部分排序　总排序　二次排序　联接　map端联接　reduce端联接　边数据分布　利用JobConf来配置作业　分布式缓存　MapReduce库类第9章构建Hadoop集群　集群规范　网络拓扑　集群的构建和安装　安装Java 　创建Hadoop用户　安装Hadoop 　测试安装　SSH配置　Hadoop配置　配置管理　环境设置　Hadoop守护进程的关键属性　Hadoop守护进程的地址和端口　Hadoop的其他属性　创建用户帐号　安全性　Kerberos和Hadoop 　委托令牌　其他安全性改进　利用基准测试程序测试Hadoop集群　Hadoop基准测试程序　用户的作业　云上的Hadoop 　Amazon EC2上的Hadoop 第10章管理Hadoop 　HDFS 　永久性数据结构　安全模式　日志审计　工具　监控　日志　度量　Java管理扩展(JMX) 　维护　日常管理过程　委任节点和解除节点　升级第11章 Pig简介　安装与运行Pig 　执行类型　运行Pig程序　Grunt 　Pig Latin编辑器　示例　生成示例　与数据库比较　PigLatin 　结构　语句　表达式　1.4.4 类型　模式　函数　用户自定义函数　过滤UDF 　计算UDF 　加载UDF 　数据处理操作　加载和存储数据　过滤数据　分组与连接数据　对数据进行排序　组合和分割数据　Pig实战　并行处理　参数代换第12章 Hive 　1.1 安装Hive 　1.1.1 Hive外壳环境　1.2 示例　1.3 运行Hive 　1.3.1 配置Hive 　1.3.2 Hive服务　1.3.3 Metastore 　1.4 和传统数据库进行比较　1.4.1 读时模式(Schema on Read)vs.写时模式(Schema onWrite) 　1.4.2 更新、事务和索引　1.5 HiveQL 　1.5.1 数据类型　1.5.2 操作和函数　1.6 表　1.6.1 托管表(Managed Tables)和外部表(External Tables) 　1.6.2 分区(Partitions)和桶(Buckets) 　1.6.3 存储格式　1.6.4 导入数据　1.6.5 表的修改　1.6.6 表的丢弃　1.7 查询数据　1.7.1 排序(Sorting)和聚集(Aggregating) 　1.7.2 MapReduce脚本　1.7.3 连接　1.7.4 子查询　1.7.5 视图(view) 　1.8 用户定义函数(User-Defined Functions) 　1.8.1 编写UDF 　1.8.2 编写UDAF 第13章 HBase 　2.1 HBasics 　2.1.1 背景　2.2 概念　2.2.1 数据模型的“旋风之旅” 　2.2.2 实现　2.3 安装　2.3.1 测试驱动　2.4 客户机　2.4.1 Java 　2.4.2 Avro，REST，以及Thrift 　2.5 示例　2.5.1 模式　2.5.2 加载数据　2.5.3 Web查询　2.6 HBase和RDBMS的比较　2.6.1 成功的服务　2.6.2 HBase 　2.6.3 实例：HBase在Streamy.com的使用　2.7 Praxis 　2.7.1 版本　2.7.2 HDFS 　2.7.3 用户接口(UI) 　2.7.4 度量(metrics) 　2.7.5 模式设计　2.7.6 计数器　2.7.7 批量加载(bulkloading) 第14章 ZooKeeper 　安装和运行ZooKeeper 　示例　ZooKeeper中的组成员关系　创建组　加入组　列出组成员　ZooKeeper服务　数据模型　操作　实现　一致性　会话　状态　使用ZooKeeper来构建应用　配置服务　具有可恢复性的ZooKeeper应用　锁服务　生产环境中的ZooKeeper 　可恢复性和性能　配置第15章开源工具Sqoop 　获取Sqoop 　一个导入的例子　生成代码　其他序列化系统　深入了解数据库导入　导入控制　导入和一致性　直接模式导入　使用导入的数据　导入的数据与Hive 　导入大对象　执行导出　深入了解导出　导出与事务　导出和SequenceFile 第16章实例分析　Hadoop 在Last.fm的应用　Last.fm：社会音乐史上的革命　Hadoop a Last.fm 　用Hadoop产生图表　Track Statistics程序　总结　Hadoop和Hive在Facebook的应用　概要介绍　Hadoop a Facebook 　假想的使用情况案例　Hive 　问题与未来工作计划　Nutch 搜索引擎　背景介绍　数据结构　Nutch系统利用Hadoop进行数据处理的精选实例　总结　Rackspace的日志处理　简史　选择Hadoop 　收集和存储　日志的MapReduce模型　关于Cascading 　字段、元组和管道　操作　Tap类，Scheme对象和Flow对象　Cascading实战　灵活性　Hadoop和Cascading在ShareThis的应用　总结　在Apache Hadoop上的TB字节数量级排序　使用Pig和Wukong来探索10亿数量级边的网络图　测量社区　每个人都在和我说话：Twitter回复关系图　degree(度) 　对称链接　社区提取附录A 安装Apache Hadoop 　先决条件　安装　配置　本机模式　伪分布模式　全分布模式附录B Cloudera’s Distribution for Hadoop 附录C 准备NCDC天气数据

第1章初识Hadoop 数据！数据！数据存储与分析与其他系统相比关系型数据库管理系统网格计算志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈第2章关于MapReduce 一个气象数据集数据的格式使用Unix工具进行数据分析使用Hadoop分析数据 map阶段和reduce阶段横向扩展合并函数运行一个分布式的MapReduce作业 Hadoop的Streaming Ruby版本 Python版本 Hadoop Pipes 编译运行第3章 Hadoop分布式文件系统 HDFS的设计 HDFS的概念数据块 namenode和datanode 命令行接口基本文件系统操作 Hadoop文件系统接口 Java接口从Hadoop URL中读取数据通过FileSystem API读取数据写入数据目录查询文件系统删除数据数据流文件读取剖析文件写入剖析一致模型通过 distcp并行拷贝保持 HDFS 集群的均衡 Hadoop的归档文件使用Hadoop归档文件不足第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec 压缩和输入切分在MapReduce中使用压缩序列化 Writable接口 Writable类实现定制的Writable类型序列化框架 Avro 依据文件的数据结构写入SequenceFile MapFile 第5章 MapReduce应用开发配置API 合并多个源文件可变的扩展配置开发环境配置管理辅助类GenericOptionsParser，Tool和ToolRunner 编写单元测试 mapper reducer 本地运行测试数据在本地作业运行器上运行作业测试驱动程序在集群上运行打包启动作业 MapReduce的Web界面获取结果作业调试使用远程调试器作业调优分析任务 MapReduce的工作流将问题分解成MapReduce作业运行独立的作业第6章 MapReduce的工作机制剖析MapReduce作业运行机制作业的提交作业的初始化任务的分配任务的执行进度和状态的更新作业的完成失败任务失败 tasktracker失败 jobtracker失败作业的调度 Fair Scheduler Capacity Scheduler shuffle和排序 map端 reduce端配置的调优任务的执行推测式执行重用JVM 跳过坏记录任务执行环境第7章 MapReduce的类型与格式 MapReduce的类型默认的MapReduce作业输入格式输入分片与记录文本输入二进制输入多种输入数据库输入（和输出）输出格式文本输出二进制输出多个输出延迟输出数据库输出第8章 MapReduce的特性计数器内置计数器用户定义的Java计数器用户定义的Streaming计数器排序准备部分排序总排序二次排序联接 map端联接 reduce端联接边数据分布利用JobConf来配置作业分布式缓存 MapReduce库类第9章构建Hadoop集群集群规范网络拓扑集群的构建和安装安装Java 创建Hadoop用户安装Hadoop 测试安装 SSH配置 Hadoop配置配置管理环境设置 Hadoop守护进程的关键属性 Hadoop守护进程的地址和端口 Hadoop的其他属性创建用户帐号安全性 Kerberos和Hadoop 委托令牌其他安全性改进利用基准测试程序测试Hadoop集群 Hadoop基准测试程序用户的作业云上的Hadoop Amazon EC2上的Hadoop 第10章管理Hadoop HDFS 永久性数据结构安全模式日志审计工具监控日志度量 Java管理扩展（JMX）维护日常管理过程委任节点和解除节点升级第11章 Pig简介安装与运行Pig 执行类型运行Pig程序 Grunt Pig Latin编辑器示例生成示例与数据库比较 PigLatin 结构语句表达式 1.4.4 类型模式函数用户自定义函数过滤UDF 计算UDF 加载UDF 数据处理操作加载和存储数据过滤数据分组与连接数据对数据进行排序组合和分割数据 Pig实战并行处理参数代换第12章 Hive 1.1 安装Hive 1.1.1 Hive外壳环境 1.2 示例 1.3 运行Hive 1.3.1 配置Hive 1.3.2 Hive服务 1.3.3 Metastore 1.4 和传统数据

Hadoop分布式文件系统(HDFS)设计之初是针对大文件的处理,但无法高效地针对小文件进行存储,因此提出了一种基于关联规则挖掘的高效的小文件存储方法——ARMFS。ARMFS通过对Hadoop系统的审计日志进行关联规则挖掘,获得小文件间的关联性,通过文件合并算法将小文件合并存储至HDFS;在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表提出预取算法来进一步提高文件访问效率。实验结果表明,ARMFS方法明显提高了NameNode的内存使用效率,对于小文件的下载速度和访问效率的改善十分有效。

hadoop开启namenode审计日志，需要单独配置log4j相关信息，以下是

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章