社区
Hadoop生态社区
帖子详情
Hadoop的Namenode 审计日志
xmxm5320
2015-12-15 05:37:42
尊敬的各位CSDN大神,小弟课题要求要对HDFS的Namenode的审计日志文件进行分析,可是奈何实验室Hadoop集群刚刚搭起来,基本没什么日志。 有没有哪位大神刚好有这个数据集,分享给小弟,万分感谢啊。 Namenode审计日志就是记录用户操作的日志,比如用户名和操作类型,就像Linux的History一样。在网上也找不到相似的数据集,要哭死了。
...全文
662
3
打赏
收藏
Hadoop的Namenode 审计日志
尊敬的各位CSDN大神,小弟课题要求要对HDFS的Namenode的审计日志文件进行分析,可是奈何实验室Hadoop集群刚刚搭起来,基本没什么日志。 有没有哪位大神刚好有这个数据集,分享给小弟,万分感谢啊。 Namenode审计日志就是记录用户操作的日志,比如用户名和操作类型,就像Linux的History一样。在网上也找不到相似的数据集,要哭死了。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
qsn1994
2017-02-17
打赏
举报
回复
你好,请问你有没有找到数据呢?现在我也要用到审计日志,找到可以分享一下吗?
qsn1994
2017-02-16
打赏
举报
回复
你好,请问你找到了吗?我现在也在找审计日志,找到了可以分享一份吗?
xmxm5320
2015-12-15
打赏
举报
回复
哪位同志来指点一下!
信息安全_10.开源大数据平台安全实践v8.pptx
概念 - 何为”大数据安全” 大数据安全与隐私保护 - “隐私泄露”是大数据安全首要风险 大数据安全策略 - “大数据安全”的关注点 大数据安全策略 - 边界安全( Walled Garden ) 大数据安全策略 - 边界安全:Data Proxy 数据网关 大数据安全策略 -访问控制:基于POXIS & ACLs 大数据安全策略 -
日志
审计
:
Hadoop
Name
Node
日志
审计
大数据安全策略 -
日志
审计
:
Hadoop
集群分析 大数据安全策略 -
日志
审计
: 血缘分析 大数据安全策略 - 数据保护:数字水印
Hadoop
权威指南 第二版(中文版)
内容简介 本书从
Hadoop
的缘起开始,由浅入深,结合理论和实践,全方位地介绍
Hadoop
这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:Haddoop简介;MapReduce简介;
Hadoop
分布式文件系统;
Hadoop
的I/O、MapReduce应用程序开发;MapReduce的工作机制;MapReduce的类型和格式;MapReduce的特性;如何构建
Hadoop
集群,如何管理
Hadoop
;Pig简介;Hbase简介;Hive简介;ZooKeeper简介;开源工具Sqoop,最后还提供了丰富的案例分析。 本书是
Hadoop
权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行
Hadoop
集群。 目录 第1章 初识
Hadoop
数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4
Hadoop
发展简史 Apache
Hadoop
和
Hadoop
生态圈 第2章 关于MapReduce 一个气象数据集 数据的格式 使用Unix工具进行数据分析 使用
Hadoop
分析数据 map阶段和reduce阶段 横向扩展 合并函数 运行一个分布式的MapReduce作业
Hadoop
的Streaming Ruby版本 Python版本
Hadoop
Pipes 编译运行 第3章
Hadoop
分布式文件系统 HDFS的设计 HDFS的概念 数据块 name
node
和data
node
命令行接口 基本文件系统操作
Hadoop
文件系统 接口 Java接口 从
Hadoop
URL中读取数据 通过FileSystem API读取数据 写入数据 目录 查询文件系统 删除数据 数据流 文件读取剖析 文件写入剖析 一致模型 通过 distcp并行拷贝 保持 HDFS 集群的均衡
Hadoop
的归档文件 使用
Hadoop
归档文件 不足 第4章
Hadoop
I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec 压缩和输入切分 在MapReduce中使用压缩 序列化 Writable接口 Writable类 实现定制的Writable类型 序列化框架 Avro 依据文件的数据结构 写入SequenceFile MapFile 第5章 MapReduce应用开发 配置API 合并多个源文件 可变的扩展 配置开发环境 配置管理 辅助类GenericOptionsParser,Tool和ToolRunner 编写单元测试 mapper reducer 本地运行测试数据 在本地作业运行器上运行作业 测试驱动程序 在集群上运行 打包 启动作业 MapReduce的Web界面 获取结果 作业调试 使用远程调试器 作业调优 分析任务 MapReduce的工作流 将问题分解成MapReduce作业 运行独立的作业 第6章 MapReduce的工作机制 剖析MapReduce作业运行机制 作业的提交 作业的初始化 任务的分配 任务的执行 进度和状态的更新 作业的完成 失败 任务失败 tasktracker失败 jobtracker失败 作业的调度 Fair Scheduler Capacity Scheduler shuffle和排序 map端 reduce端 配置的调优 任务的执行 推测式执行 重用JVM 跳过坏记录 任务执行环境 第7章 MapReduce的类型与格式 MapReduce的类型 默认的MapReduce作业 输入格式 输入分片与记录 文本输入 二进制输入 多种输入 数据库输入(和输出) 输出格式 文本输出 二进制输出 多个输出 延迟输出 数据库输出 第8章 MapReduce的特性 计数器 内置计数器 用户定义的Java计数器 用户定义的Streaming计数器 排序 准备 部分排序 总排序 二次排序 联接 map端联接 reduce端联接 边数据分布 利用JobConf来配置作业 分布式缓存 MapReduce库类 第9章 构建
Hadoop
集群 集群规范 网络拓扑 集群的构建和安装 安装Java 创建
Hadoop
用户 安装
Hadoop
测试安装 SSH配置
Hadoop
配置 配置管理 环境设置
Hadoop
守护进程的关键属性
Hadoop
守护进程的地址和端口
Hadoop
的其他属性 创建用户帐号 安全性 Kerberos和
Hadoop
委托令牌 其他安全性改进 利用基准测试程序测试
Hadoop
集群
Hadoop
基准测试程序 用户的作业 云上的
Hadoop
Amazon EC2上的
Hadoop
第10章 管理
Hadoop
HDFS 永久性数据结构 安全模式
日志
审计
工具 监控
日志
度量 Java管理扩展(JMX) 维护 日常管理过程 委任节点和解除节点 升级 第11章 Pig简介 安装与运行Pig 执行类型 运行Pig程序 Grunt Pig Latin编辑器 示例 生成示例 与数据库比较 PigLatin 结构 语句 表达式 1.4.4 类型 模式 函数 用户自定义函数 过滤UDF 计算UDF 加载UDF 数据处理操作 加载和存储数据 过滤数据 分组与连接数据 对数据进行排序 组合和分割数据 Pig实战 并行处理 参数代换 第12章 Hive 1.1 安装Hive 1.1.1 Hive外壳环境 1.2 示例 1.3 运行Hive 1.3.1 配置Hive 1.3.2 Hive服务 1.3.3 Metastore 1.4 和传统数据库进行比较 1.4.1 读时模式(Schema on Read)vs.写时模式(Schema onWrite) 1.4.2 更新、事务和索引 1.5 HiveQL 1.5.1 数据类型 1.5.2 操作和函数 1.6 表 1.6.1 托管表(Managed Tables)和外部表(External Tables) 1.6.2 分区(Partitions)和桶(Buckets) 1.6.3 存储格式 1.6.4 导入数据 1.6.5 表的修改 1.6.6 表的丢弃 1.7 查询数据 1.7.1 排序(Sorting)和聚集(Aggregating) 1.7.2 MapReduce脚本 1.7.3 连接 1.7.4 子查询 1.7.5 视图(view) 1.8 用户定义函数(User-Defined Functions) 1.8.1 编写UDF 1.8.2 编写UDAF 第13章 HBase 2.1 HBasics 2.1.1 背景 2.2 概念 2.2.1 数据模型的“旋风之旅” 2.2.2 实现 2.3 安装 2.3.1 测试驱动 2.4 客户机 2.4.1 Java 2.4.2 Avro,REST,以及Thrift 2.5 示例 2.5.1 模式 2.5.2 加载数据 2.5.3 Web查询 2.6 HBase和RDBMS的比较 2.6.1 成功的服务 2.6.2 HBase 2.6.3 实例:HBase在Streamy.com的使用 2.7 Praxis 2.7.1 版本 2.7.2 HDFS 2.7.3 用户接口(UI) 2.7.4 度量(metrics) 2.7.5 模式设计 2.7.6 计数器 2.7.7 批量加载(bulkloading) 第14章 ZooKeeper 安装和运行ZooKeeper 示例 ZooKeeper中的组成员关系 创建组 加入组 列出组成员 ZooKeeper服务 数据模型 操作 实现 一致性 会话 状态 使用ZooKeeper来构建应用 配置服务 具有可恢复性的ZooKeeper应用 锁服务 生产环境中的ZooKeeper 可恢复性和性能 配置 第15章 开源工具Sqoop 获取Sqoop 一个导入的例子 生成代码 其他序列化系统 深入了解数据库导入 导入控制 导入和一致性 直接模式导入 使用导入的数据 导入的数据与Hive 导入大对象 执行导出 深入了解导出 导出与事务 导出和SequenceFile 第16章 实例分析
Hadoop
在Last.fm的应用 Last.fm:社会音乐史上的革命
Hadoop
a Last.fm 用
Hadoop
产生图表 Track Statistics程序 总结
Hadoop
和Hive在Facebook的应用 概要介绍
Hadoop
a Facebook 假想的使用情况案例 Hive 问题与未来工作计划 Nutch 搜索引擎 背景介绍 数据结构 Nutch系统利用
Hadoop
进行数据处理的精选实例 总结 Rackspace的
日志
处理 简史 选择
Hadoop
收集和存储
日志
的MapReduce模型 关于Cascading 字段、元组和管道 操作 Tap类,Scheme对象和Flow对象 Cascading实战 灵活性
Hadoop
和Cascading在ShareThis的应用 总结 在Apache
Hadoop
上的TB字节数量级排序 使用Pig和Wukong来探索10亿数量级边的 网络图 测量社区 每个人都在和我说话:Twitter回复关系图 degree(度) 对称链接 社区提取 附录A 安装Apache
Hadoop
先决条件 安装 配置 本机模式 伪分布模式 全分布模式 附录B Cloudera’s Distribution for
Hadoop
附录C 准备NCDC天气数据
Hadoop
权威指南(中文版)2015上传.rar
第1章 初识
Hadoop
数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4
Hadoop
发展简史 Apache
Hadoop
和
Hadoop
生态圈 第2章 关于MapReduce 一个气象数据集 数据的格式 使用Unix工具进行数据分析 使用
Hadoop
分析数据 map阶段和reduce阶段 横向扩展 合并函数 运行一个分布式的MapReduce作业
Hadoop
的Streaming Ruby版本 Python版本
Hadoop
Pipes 编译运行 第3章
Hadoop
分布式文件系统 HDFS的设计 HDFS的概念 数据块 name
node
和data
node
命令行接口 基本文件系统操作
Hadoop
文件系统 接口 Java接口 从
Hadoop
URL中读取数据 通过FileSystem API读取数据 写入数据 目录 查询文件系统 删除数据 数据流 文件读取剖析 文件写入剖析 一致模型 通过 distcp并行拷贝 保持 HDFS 集群的均衡
Hadoop
的归档文件 使用
Hadoop
归档文件 不足 第4章
Hadoop
I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec 压缩和输入切分 在MapReduce中使用压缩 序列化 Writable接口 Writable类 实现定制的Writable类型 序列化框架 Avro 依据文件的数据结构 写入SequenceFile MapFile 第5章 MapReduce应用开发 配置API 合并多个源文件 可变的扩展 配置开发环境 配置管理 辅助类GenericOptionsParser,Tool和ToolRunner 编写单元测试 mapper reducer 本地运行测试数据 在本地作业运行器上运行作业 测试驱动程序 在集群上运行 打包 启动作业 MapReduce的Web界面 获取结果 作业调试 使用远程调试器 作业调优 分析任务 MapReduce的工作流 将问题分解成MapReduce作业 运行独立的作业 第6章 MapReduce的工作机制 剖析MapReduce作业运行机制 作业的提交 作业的初始化 任务的分配 任务的执行 进度和状态的更新 作业的完成 失败 任务失败 tasktracker失败 jobtracker失败 作业的调度 Fair Scheduler Capacity Scheduler shuffle和排序 map端 reduce端 配置的调优 任务的执行 推测式执行 重用JVM 跳过坏记录 任务执行环境 第7章 MapReduce的类型与格式 MapReduce的类型 默认的MapReduce作业 输入格式 输入分片与记录 文本输入 二进制输入 多种输入 数据库输入(和输出) 输出格式 文本输出 二进制输出 多个输出 延迟输出 数据库输出 第8章 MapReduce的特性 计数器 内置计数器 用户定义的Java计数器 用户定义的Streaming计数器 排序 准备 部分排序 总排序 二次排序 联接 map端联接 reduce端联接 边数据分布 利用JobConf来配置作业 分布式缓存 MapReduce库类 第9章 构建
Hadoop
集群 集群规范 网络拓扑 集群的构建和安装 安装Java 创建
Hadoop
用户 安装
Hadoop
测试安装 SSH配置
Hadoop
配置 配置管理 环境设置
Hadoop
守护进程的关键属性
Hadoop
守护进程的地址和端口
Hadoop
的其他属性 创建用户帐号 安全性 Kerberos和
Hadoop
委托令牌 其他安全性改进 利用基准测试程序测试
Hadoop
集群
Hadoop
基准测试程序 用户的作业 云上的
Hadoop
Amazon EC2上的
Hadoop
第10章 管理
Hadoop
HDFS 永久性数据结构 安全模式
日志
审计
工具 监控
日志
度量 Java管理扩展(JMX) 维护 日常管理过程 委任节点和解除节点 升级 第11章 Pig简介 安装与运行Pig 执行类型 运行Pig程序 Grunt Pig Latin编辑器 示例 生成示例 与数据库比较 PigLatin 结构 语句 表达式 1.4.4 类型 模式 函数 用户自定义函数 过滤UDF 计算UDF 加载UDF 数据处理操作 加载和存储数据 过滤数据 分组与连接数据 对数据进行排序 组合和分割数据 Pig实战 并行处理 参数代换 第12章 Hive 1.1 安装Hive 1.1.1 Hive外壳环境 1.2 示例 1.3 运行Hive 1.3.1 配置Hive 1.3.2 Hive服务 1.3.3 Metastore 1.4 和传统数据
基于关联规则挖掘的分布式小文件存储方法
Hadoop
分布式文件系统(HDFS)设计之初是针对大文件的处理,但无法高效地针对小文件进行存储,因此提出了一种基于关联规则挖掘的高效的小文件存储方法——ARMFS。ARMFS通过对
Hadoop
系统的
审计
日志
进行关联规则挖掘,获得小文件间的关联性,通过文件合并算法将小文件合并存储至HDFS;在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表提出预取算法来进一步提高文件访问效率。实验结果表明,ARMFS方法明显提高了Name
Node
的内存使用效率,对于小文件的下载速度和访问效率的改善十分有效。
hadoop
开启name
node
审计
日志
hadoop
开启name
node
审计
日志
,需要单独配置log4j相关信息,以下是
Hadoop生态社区
20,808
社区成员
4,690
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章