hadoop对于日志的要求

v0dga 2014-11-12 04:01:17

各位大神，请教个问题，打算做个基于hadoop的日志分析平台，但是日志来源多种多样，hadoop是都能提取分析，还是对日志有一定要求？比如要记录哪些信息等等。另外日志来源也分iis nginx apache等也有中间件的日志比如weblogic啥的。。。。那么这些日志如何处理是合在一起处理，还是分开处理。谢谢。

...全文

547 14 打赏收藏转发到动态举报

写回复

用AI写文章

14 条回复

切换为时间正序

请发表友善的回复…

发表回复

v0dga 2014-11-14

打赏
举报

引用 13 楼 wulinshishen 的回复:

[quote=引用 7 楼 v0dga 的回复:] [quote=引用 6 楼 wulinshishen 的回复:] 对于不同数据源的日志数据的采集、移动可以试试Flume、Scribe、Chukwa等系统

感谢那他们能自动塞选出共同的项目么？或者日志的格式一般需要哪些项目？除了基本的方法 url 源ip 主机名啥的[/quote] Flume功能非常强大，可以选择Exec Source通过shell命令来赛选共同的条目来，也可以选择Http Source通过Handler处理，Flume里面提供了非常丰富的Source、Sink，还可以自己定制，是一个非常有效的分布式、高可用的日志收集、移动系统。对于日志的一些常用条目大概有主机地址访问时间访问协议访问方法访问地址状态码浏览器版本型号发送字节数请求耗费时间用户会话ID等[/quote] 好的非常感谢

人生偌只如初见 2014-11-13

打赏
举报

引用 7 楼 v0dga 的回复:

[quote=引用 6 楼 wulinshishen 的回复:] 对于不同数据源的日志数据的采集、移动可以试试Flume、Scribe、Chukwa等系统

v0dga 2014-11-13

打赏
举报

引用 11 楼 sky_walker85 的回复:

[quote=引用 10 楼 v0dga 的回复:] [quote=引用 9 楼 sky_walker85 的回复:] [quote=引用 8 楼 v0dga 的回复:] [quote=引用 4 楼 sky_walker85 的回复:] [quote=引用 3 楼 v0dga 的回复:] [quote=引用 1 楼 sky_walker85 的回复:] 还是根据你的业务需求而定，hadoop本身具有强大的非结构文本处理功能，所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志，也处理syslog日志等，是分开做的。

还有几个问题请教下大牛： 1，对应不同系统（iis syslog）需要搜集哪些内容的日志？（源ip，请求地址等等） 2，不同系统的日志可以在同一个前端展示出来么？ 3，有没有类似的厂商提供这种服务的？感谢[/quote]从hadoop的角度出发，它不知道要处理的是什么文件格式，也不知道文件内容是什么，只提供了一种处理大量数据的工具和平台，而如何使用则完全由用户决定。比如，iis记录了请求的ip地址，响应时间及业务类型，那么就可以统计同一ip请求了多少次及平均响应时间等。至于如何展现也完全由用户决定，hadoop本身并不提供展现的功能[/quote] 嗯对它只是一个分析平台不做前端，现阶段我想做日志搜集标准让程序员自动输出符合规范的这些日志来。有没有啥好的建议？[/quote] 比如可以记录日志的产生时间、请求的ip地址、请求的业务类型、相应时间等等。具体还得跟业务结合起来，比如网上购物系统，可能就会记录时间、用户Id，物品id、操作类型等[/quote] 那对于中间件和服务器的日志建议是合并还是分开？[/quote] 我可以理解为应用日志和系统日志吗？如果是的话，当然是分开的好了，否则本身写日志就会比较消耗性能[/quote] 哦好的感谢我去研究研究

skyWalker_ONLY 2014-11-13

打赏
举报

引用 10 楼 v0dga 的回复:

[quote=引用 9 楼 sky_walker85 的回复:] [quote=引用 8 楼 v0dga 的回复:] [quote=引用 4 楼 sky_walker85 的回复:] [quote=引用 3 楼 v0dga 的回复:] [quote=引用 1 楼 sky_walker85 的回复:] 还是根据你的业务需求而定，hadoop本身具有强大的非结构文本处理功能，所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志，也处理syslog日志等，是分开做的。

v0dga 2014-11-13

打赏
举报

引用 9 楼 sky_walker85 的回复:

[quote=引用 8 楼 v0dga 的回复:] [quote=引用 4 楼 sky_walker85 的回复:] [quote=引用 3 楼 v0dga 的回复:] [quote=引用 1 楼 sky_walker85 的回复:] 还是根据你的业务需求而定，hadoop本身具有强大的非结构文本处理功能，所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志，也处理syslog日志等，是分开做的。

skyWalker_ONLY 2014-11-13

打赏
举报

引用 8 楼 v0dga 的回复:

[quote=引用 4 楼 sky_walker85 的回复:] [quote=引用 3 楼 v0dga 的回复:] [quote=引用 1 楼 sky_walker85 的回复:] 还是根据你的业务需求而定，hadoop本身具有强大的非结构文本处理功能，所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志，也处理syslog日志等，是分开做的。

v0dga 2014-11-13

打赏
举报

引用 4 楼 sky_walker85 的回复:

[quote=引用 3 楼 v0dga 的回复:] [quote=引用 1 楼 sky_walker85 的回复:] 还是根据你的业务需求而定，hadoop本身具有强大的非结构文本处理功能，所以上述的日志文件都可以处理。我现在使用hadoop处理IIIS日志，也处理syslog日志等，是分开做的。

v0dga 2014-11-13

打赏
举报

引用 6 楼 wulinshishen 的回复:

对于不同数据源的日志数据的采集、移动可以试试Flume、Scribe、Chukwa等系统

感谢那他们能自动塞选出共同的项目么？或者日志的格式一般需要哪些项目？除了基本的方法 url 源ip 主机名啥的

人生偌只如初见 2014-11-12

打赏
举报

对于不同数据源的日志数据的采集、移动可以试试Flume、Scribe、Chukwa等系统

人生偌只如初见 2014-11-12

打赏
举报

在Hadoop上做日志分析，其实就是写一些MapReduce程序来统计分析数据，不同的数据源对应不同的处理程序任务，格式并不需要固定的格式，因为完全可以在程序中处理成你需要的数据。至于输出数据也完全取决于你自己的控制。楼主是想通过一个程序任务来处理所有不同来源的日志文件，然后统一输出？那就需要保证日志文件格式一致，一般有些服务器的日志格式都是可以自己定制的。

skyWalker_ONLY 2014-11-12