hadoop如何清理系统日志

tubertan 2017-08-24 12:41:44

hadoop运行时会产生大量日志文件，如何配置定期清理？

...全文

2121 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

在 HDFS 中，NameNode 的主要功能是什么？ 1 我们把目录结构及文件分块位置信息叫做元数据。Namenode 负责维护整个 hdfs 文件系统的目录树结构，以及每一个文件所对应的 block 块信息（block 的 id，及所在的 datanode 服务器）。 2 Namenode 节点负责确定指定的文件块到具体的 Datanode 结点的映射关系。在客户端与数据节点之间共享数据 3 管理 Datanode 结点的状态报告，包括 Datanode 结点的健康状态报告和其所在结点上数据块状态报告，以便能够及时处理失效的数据结点。 NameNode 与 SecondaryNameNode 的区别与联系？ 1. NameNode 负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息。2．SecondaryNameNode 主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。 1.SecondaryNameNode 中保存了一份和 namenode 一致的镜像文件（fsimage）和编辑日志（edits）。2.在主 namenode 发生故障时（假设没有及时备份数据），可以从 SecondaryNameNode HDFS 读数据流程？ 1. 跟 namenode 通信查询元数据，找到文件块所在的 datanode 服务器 2.挑选一台 datanode（就近原则，然后随机）服务器，请求建立 socket 流 3.datanode 开始发送数据（从磁盘里面读取数据放入流，以 packet 为单位来做校验）4.客户端以 packet 为单位接收，先在本地缓存，然后写入目标文 Hadoop 集群中 Hadoop 需要启动哪些进程，它们的作用分别是什么? 1.NameNode 它是 hadoop 中的主服务器，管理文件系统名称空间和对集群中存储的文件的访问，保存有 metadate 。 2．SecondaryNameNode 它不是 namenode 的冗余守护进程，而是提供周期检查点和清理任务。帮助 NN 合并 editslog，减少 NN 启动时间。3．DataNode 它负责管理连接到节点的存储（一个集群中可以有多个节点）。每个存储数据的节点运行一个 datanode 守护进程。 4．ResourceManager（JobTracker） JobTracker 负责调度 DataNode 上的工作。每个 DataNode 有一个 TaskTracker，它们执行实际工作。5．NodeManager（TaskTracker）执行任务 6．DFSZKFailoverController 高可用时它负责监控 NN 的状态，并及时的把状态信息写入 ZK。它通过一个独立线程周期性的调用 NN 上的一个特定接口来获取 NN 的健康状态。FC 也有选择谁作为 ActiveNN 的权利，因为最多只有两个节点，目前选择策略还比较简单（先到先得，轮换）7．JournalNode 高可用情况下存放 namenode 的 editlog 文件. 在 CentOS 环境下，按照伪分布方式安装和配置 Hadoop 平台的主要过程。 1. hadoop 安装包下载 2、hadoop 安装包解压 3、hadoop 伪分布式环境搭建环境搭建步骤如下：1、将 hadoop 安装目录添加到系统环境变量（～/.bash_profile）2、配置 hadoop 环境的配置文件 hadoop-env.sh3、配置 hadoop 核心文件 core-site.xml4、配置 HDFS 文件 hafs-site.xml Mapreduce 中，Partitioner 操作的作用？ MapReduce 提供 Partitioner 接口，它的作用就是根据 key 或 value 及 reduce 的数量来决定当前的这对输出数据最终应该交由哪个 reduce task 处理。默认对 key hash 后再以 reduce task 数量取模。默认的取模方式只是为了平均 reduce 的处理能力，如果用户自己对 Partitioner 有需求，可以订制并设置到 job 上。 HDFS 中的写数据流程。 (1) Client 向 NameNode 发起文件写入的请求。 (2) NameNode 根据文件大小和文件块配置情况,返回给 Client 它所管理部分 DataNode 的信息。 (3) Client 将文件划分为多个 Block,根据 DataNode 的地址信息,按顺序写入到每一个 DataNode

大数据成长之路 Hadoop 历史之路 HDFS JavaAPI 副本因子的坑如果通过hdfs shell上传的文件那么他的副本因子是根据 hdfs-site.xml中的配置, 如果是通过Java API方式那么他会使用副本因子为3的配置项目实践用户行为日志分析日志数据内容访问的系统属性：操作系统，浏览器等等访问特征：点击的网址，从其中网址替换过的（引用网址），页面停留时间等访问信息：session_id，访问ip 数据处理流程 Flume：Web日志写入HDFS中数据清理脏数据清理：Spark，Hive，MapReduce 数据处理跟随需求进行相应业务的统计和分析数据处理结果入库结果可以存放到RDBMS，NoSQL等数据的可视化通过图形化展示的方式展现出来：饼图，柱状图，地图等 HDFS文档

Hadoop入门和大数据应用视频教程，该课程主要分享Hadoop基础及大数据方面的基础知识。讲师介绍：翟周伟，就职于百度，Hadoop技术讲师，专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用Hadoop构建商业级大数据系统，是国内该领域早的一批人之一，负责设计过多个基于Hadoop的大数据平台和分析系统。2011年合著出版《Hadoop开源云计算平台》。在自然语言处理领域申请过一项发明专利。新出版书籍《Hadoop核心技术》。

Hadoop/Yarn的日志清理可以分为两个子话题讨论： Hadoop/Yarn的本地日志（非Yarn Container生成的日志） Yarn的Container生成的日志我们这里讨论的日志清理并不是通过定时的日志删除命令去实现，这一做法显然优雅，具体的做法下面会分别进行讨论。 1. Hadoop/Yarn本地日志的清理 Hadoop/Yarn使用log4j进行日志输出，所以对于它们本地日志的清理，最好的方式是通过修改log4j的配置配置文件，以rolling的方式写入日志。Hadoop/Yarn

Hadoop日志纪录篇作者：尹正杰版权声明：原创作品，谢绝转载！否则将追究法律责任。一.Hadoop日志消息概述1>.Hadoop日志记录概述Hadoop日志对于处理失败的作业很有帮助。作业可能由于应用程序中的问题或硬件和平台错误而失败。Hadoop守护程序日志能够显示影响作业的守护进程中的任何问题的来源。可以分析应用程序日志，以确定发生性能问题的根本原因，例如缓慢运行的作业，运行失败作业的...

数字化企业云平台论坛

213

社区成员

64

社区内容

发帖

与我相关

我的任务

产品运营运维技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章