hadoop对于日志的要求

v0dga 2014-11-12 04:01:17
各位大神,请教个问题,打算做个基于hadoop的日志分析平台,但是日志来源多种多样,hadoop是都能提取分析,还是对日志有一定要求?比如要记录哪些信息等等。另外日志来源也分iis nginx apache等 也有中间件的日志比如weblogic啥的。。。。 那么这些日志如何处理 是合在一起处理,还是分开处理。谢谢。
...全文
547 14 打赏 收藏 转发到动态 举报
写回复
用AI写文章
14 条回复
切换为时间正序
请发表友善的回复…
发表回复
v0dga 2014-11-14
  • 打赏
  • 举报
回复
引用 13 楼 wulinshishen 的回复:
[quote=引用 7 楼 v0dga 的回复:] [quote=引用 6 楼 wulinshishen 的回复:] 对于不同数据源的日志数据的采集、移动可以试试Flume、Scribe、Chukwa等系统
感谢 那他们能自动塞选出共同的项目么? 或者日志的格式一般需要哪些项目? 除了基本的 方法 url 源ip 主机名啥的[/quote] Flume功能非常强大,可以选择Exec Source通过shell命令来赛选共同的条目来,也可以选择Http Source通过Handler处理,Flume里面提供了非常丰富的Source、Sink,还可以自己定制,是一个非常有效的分布式、高可用的日志收集、移动系统。 对于日志的一些常用条目大概有 主机地址 访问时间 访问协议 访问方法 访问地址 状态码 浏览器版本型号 发送字节数 请求耗费时间 用户会话ID等[/quote] 好的 非常感谢
  • 打赏
  • 举报
回复
引用 7 楼 v0dga 的回复:
[quote=引用 6 楼 wulinshishen 的回复:] 对于不同数据源的日志数据的采集、移动可以试试Flume、Scribe、Chukwa等系统
感谢 那他们能自动塞选出共同的项目么? 或者日志的格式一般需要哪些项目? 除了基本的 方法 url 源ip 主机名啥的[/quote] Flume功能非常强大,可以选择Exec Source通过shell命令来赛选共同的条目来,也可以选择Http Source通过Handler处理,Flume里面提供了非常丰富的Source、Sink,还可以自己定制,是一个非常有效的分布式、高可用的日志收集、移动系统。 对于日志的一些常用条目大概有 主机地址 访问时间 访问协议 访问方法 访问地址 状态码 浏览器版本型号 发送字节数 请求耗费时间 用户会话ID等
v0dga 2014-11-13
  • 打赏
  • 举报
回复
引用 11 楼 sky_walker85 的回复:
[quote=引用 10 楼 v0dga 的回复:] [quote=引用 9 楼 sky_walker85 的回复:] [quote=引用 8 楼 v0dga 的回复:] [quote=引用 4 楼 sky_walker85 的回复:] [quote=引用 3 楼 v0dga 的回复:] [quote=引用 1 楼 sky_walker85 的回复:] 还是根据你的业务需求而定,hadoop本身具有强大的非结构文本处理功能,所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志,也处理syslog日志等,是分开做的。
还有几个问题请教下大牛: 1,对应不同系统(iis syslog)需要搜集哪些内容的日志?(源ip,请求地址等等) 2,不同系统的日志可以在同一个前端展示出来么? 3,有没有类似的厂商提供这种服务的? 感谢[/quote]从hadoop的角度出发,它不知道要处理的是什么文件格式,也不知道文件内容是什么,只提供了一种处理大量数据的工具和平台,而如何使用则完全由用户决定。比如,iis记录了请求的ip地址,响应时间及业务类型,那么就可以统计同一ip请求了多少次及平均响应时间等。至于如何展现也完全由用户决定,hadoop本身并不提供展现的功能[/quote] 嗯 对 它只是一个分析平台 不做前端,现阶段我想做日志搜集标准 让程序员自动输出符合规范的这些日志来。 有没有啥好的建议?[/quote] 比如可以记录日志的产生时间、请求的ip地址、请求的业务类型、相应时间等等。具体还得跟业务结合起来,比如网上购物系统,可能就会记录时间、用户Id,物品id、操作类型等[/quote] 那对于 中间件 和服务器的日志 建议是合并还是分开?[/quote] 我可以理解为应用日志和系统日志吗?如果是的话,当然是分开的好了,否则本身写日志就会比较消耗性能[/quote] 哦 好的 感谢 我去研究研究
skyWalker_ONLY 2014-11-13
  • 打赏
  • 举报
回复
引用 10 楼 v0dga 的回复:
[quote=引用 9 楼 sky_walker85 的回复:] [quote=引用 8 楼 v0dga 的回复:] [quote=引用 4 楼 sky_walker85 的回复:] [quote=引用 3 楼 v0dga 的回复:] [quote=引用 1 楼 sky_walker85 的回复:] 还是根据你的业务需求而定,hadoop本身具有强大的非结构文本处理功能,所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志,也处理syslog日志等,是分开做的。
还有几个问题请教下大牛: 1,对应不同系统(iis syslog)需要搜集哪些内容的日志?(源ip,请求地址等等) 2,不同系统的日志可以在同一个前端展示出来么? 3,有没有类似的厂商提供这种服务的? 感谢[/quote]从hadoop的角度出发,它不知道要处理的是什么文件格式,也不知道文件内容是什么,只提供了一种处理大量数据的工具和平台,而如何使用则完全由用户决定。比如,iis记录了请求的ip地址,响应时间及业务类型,那么就可以统计同一ip请求了多少次及平均响应时间等。至于如何展现也完全由用户决定,hadoop本身并不提供展现的功能[/quote] 嗯 对 它只是一个分析平台 不做前端,现阶段我想做日志搜集标准 让程序员自动输出符合规范的这些日志来。 有没有啥好的建议?[/quote] 比如可以记录日志的产生时间、请求的ip地址、请求的业务类型、相应时间等等。具体还得跟业务结合起来,比如网上购物系统,可能就会记录时间、用户Id,物品id、操作类型等[/quote] 那对于 中间件 和服务器的日志 建议是合并还是分开?[/quote] 我可以理解为应用日志和系统日志吗?如果是的话,当然是分开的好了,否则本身写日志就会比较消耗性能
v0dga 2014-11-13
  • 打赏
  • 举报
回复
引用 9 楼 sky_walker85 的回复:
[quote=引用 8 楼 v0dga 的回复:] [quote=引用 4 楼 sky_walker85 的回复:] [quote=引用 3 楼 v0dga 的回复:] [quote=引用 1 楼 sky_walker85 的回复:] 还是根据你的业务需求而定,hadoop本身具有强大的非结构文本处理功能,所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志,也处理syslog日志等,是分开做的。
还有几个问题请教下大牛: 1,对应不同系统(iis syslog)需要搜集哪些内容的日志?(源ip,请求地址等等) 2,不同系统的日志可以在同一个前端展示出来么? 3,有没有类似的厂商提供这种服务的? 感谢[/quote]从hadoop的角度出发,它不知道要处理的是什么文件格式,也不知道文件内容是什么,只提供了一种处理大量数据的工具和平台,而如何使用则完全由用户决定。比如,iis记录了请求的ip地址,响应时间及业务类型,那么就可以统计同一ip请求了多少次及平均响应时间等。至于如何展现也完全由用户决定,hadoop本身并不提供展现的功能[/quote] 嗯 对 它只是一个分析平台 不做前端,现阶段我想做日志搜集标准 让程序员自动输出符合规范的这些日志来。 有没有啥好的建议?[/quote] 比如可以记录日志的产生时间、请求的ip地址、请求的业务类型、相应时间等等。具体还得跟业务结合起来,比如网上购物系统,可能就会记录时间、用户Id,物品id、操作类型等[/quote] 那对于 中间件 和服务器的日志 建议是合并还是分开?
skyWalker_ONLY 2014-11-13
  • 打赏
  • 举报
回复
引用 8 楼 v0dga 的回复:
[quote=引用 4 楼 sky_walker85 的回复:] [quote=引用 3 楼 v0dga 的回复:] [quote=引用 1 楼 sky_walker85 的回复:] 还是根据你的业务需求而定,hadoop本身具有强大的非结构文本处理功能,所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志,也处理syslog日志等,是分开做的。
还有几个问题请教下大牛: 1,对应不同系统(iis syslog)需要搜集哪些内容的日志?(源ip,请求地址等等) 2,不同系统的日志可以在同一个前端展示出来么? 3,有没有类似的厂商提供这种服务的? 感谢[/quote]从hadoop的角度出发,它不知道要处理的是什么文件格式,也不知道文件内容是什么,只提供了一种处理大量数据的工具和平台,而如何使用则完全由用户决定。比如,iis记录了请求的ip地址,响应时间及业务类型,那么就可以统计同一ip请求了多少次及平均响应时间等。至于如何展现也完全由用户决定,hadoop本身并不提供展现的功能[/quote] 嗯 对 它只是一个分析平台 不做前端,现阶段我想做日志搜集标准 让程序员自动输出符合规范的这些日志来。 有没有啥好的建议?[/quote] 比如可以记录日志的产生时间、请求的ip地址、请求的业务类型、相应时间等等。具体还得跟业务结合起来,比如网上购物系统,可能就会记录时间、用户Id,物品id、操作类型等
v0dga 2014-11-13
  • 打赏
  • 举报
回复
引用 4 楼 sky_walker85 的回复:
[quote=引用 3 楼 v0dga 的回复:] [quote=引用 1 楼 sky_walker85 的回复:] 还是根据你的业务需求而定,hadoop本身具有强大的非结构文本处理功能,所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志,也处理syslog日志等,是分开做的。
还有几个问题请教下大牛: 1,对应不同系统(iis syslog)需要搜集哪些内容的日志?(源ip,请求地址等等) 2,不同系统的日志可以在同一个前端展示出来么? 3,有没有类似的厂商提供这种服务的? 感谢[/quote]从hadoop的角度出发,它不知道要处理的是什么文件格式,也不知道文件内容是什么,只提供了一种处理大量数据的工具和平台,而如何使用则完全由用户决定。比如,iis记录了请求的ip地址,响应时间及业务类型,那么就可以统计同一ip请求了多少次及平均响应时间等。至于如何展现也完全由用户决定,hadoop本身并不提供展现的功能[/quote] 嗯 对 它只是一个分析平台 不做前端,现阶段我想做日志搜集标准 让程序员自动输出符合规范的这些日志来。 有没有啥好的建议?
v0dga 2014-11-13
  • 打赏
  • 举报
回复
引用 6 楼 wulinshishen 的回复:
对于不同数据源的日志数据的采集、移动可以试试Flume、Scribe、Chukwa等系统
感谢 那他们能自动塞选出共同的项目么? 或者日志的格式一般需要哪些项目? 除了基本的 方法 url 源ip 主机名啥的
  • 打赏
  • 举报
回复
对于不同数据源的日志数据的采集、移动可以试试Flume、Scribe、Chukwa等系统
  • 打赏
  • 举报
回复
在Hadoop上做日志分析,其实就是写一些MapReduce程序来统计分析数据,不同的数据源对应不同的处理程序任务,格式并不需要固定的格式,因为完全可以在程序中处理成你需要的数据。至于输出数据也完全取决于你自己的控制。楼主是想通过一个程序任务来处理所有不同来源的日志文件,然后统一输出?那就需要保证日志文件格式一致,一般有些服务器的日志格式都是可以自己定制的。
skyWalker_ONLY 2014-11-12
  • 打赏
  • 举报
回复
引用 3 楼 v0dga 的回复:
[quote=引用 1 楼 sky_walker85 的回复:] 还是根据你的业务需求而定,hadoop本身具有强大的非结构文本处理功能,所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志,也处理syslog日志等,是分开做的。
还有几个问题请教下大牛: 1,对应不同系统(iis syslog)需要搜集哪些内容的日志?(源ip,请求地址等等) 2,不同系统的日志可以在同一个前端展示出来么? 3,有没有类似的厂商提供这种服务的? 感谢[/quote]从hadoop的角度出发,它不知道要处理的是什么文件格式,也不知道文件内容是什么,只提供了一种处理大量数据的工具和平台,而如何使用则完全由用户决定。比如,iis记录了请求的ip地址,响应时间及业务类型,那么就可以统计同一ip请求了多少次及平均响应时间等。至于如何展现也完全由用户决定,hadoop本身并不提供展现的功能
v0dga 2014-11-12
  • 打赏
  • 举报
回复
引用 1 楼 sky_walker85 的回复:
还是根据你的业务需求而定,hadoop本身具有强大的非结构文本处理功能,所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志,也处理syslog日志等,是分开做的。
还有几个问题请教下大牛: 1,对应不同系统(iis syslog)需要搜集哪些内容的日志?(源ip,请求地址等等) 2,不同系统的日志可以在同一个前端展示出来么? 3,有没有类似的厂商提供这种服务的? 感谢
v0dga 2014-11-12
  • 打赏
  • 举报
回复
引用 1 楼 sky_walker85 的回复:
还是根据你的业务需求而定,hadoop本身具有强大的非结构文本处理功能,所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志,也处理syslog日志等,是分开做的。
那同一类型的日志 需要相同的结构么?
skyWalker_ONLY 2014-11-12
  • 打赏
  • 举报
回复
还是根据你的业务需求而定,hadoop本身具有强大的非结构文本处理功能,所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志,也处理syslog日志等,是分开做的。

20,844

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧