关于大数据分析的网络日志标准问题

even 浙江财经大学 高校教师 / 培训机构讲师  2013-05-04 12:27:45
大数据技术现在风头正劲,其中重要的功能是对非结构化的网络日志数据做分析,典型是web访问日志,连hadoop的demo程序里都放两个web日志片段作为样本数据。

web访问数据很普遍,大家也很熟悉,也似乎有Apache和IIS的基本标准的格式。
然而对一个大型网络来说,网络日志数据应该有防火墙日志、NAT转换日志、路由器日志、web日志、行为审计日志等,而不仅仅是由外向内访问的web日志,除了web日志外,其他的几种日志似乎都五花八门,没有相对统一的日志格式和规范,而就大数据分析而言,其他日志有时也许才是重点,比如行为审计日志;

我的问题是,除了web日志外,其他日志是否有相对的标准和规范?哪里可以查询?还是不同公司产品各异?其他几种日志间有无某种联系(比如行为审计日志实质上包含了NAT、路由器等设备日志)?
请熟悉的大虾指点
...全文
59 点赞 收藏 2
写回复
2 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
even 2013-05-05
MapReduce有很强大的编程功能,除了能适应一些常见格式外,通过编程能支持任何自定义格式,因为日志文本的标准不外乎 XXXX YYYY ZZZZ 或者 XXXX,YYYYY,ZZZZ等,并且以换行为新纪录分隔,于是每条记录中我们只需要关注每个字段如何处理。 据我所知,防火墙、路由器及NAT转换的日志似乎很多国内外网络设备提供商都遵循相对标准日志记录,但我不知道这个“标准”是谁制定或者具体规范是什么;而行为审计大都由本地厂商研发,五花八门,没有固定格式,因为记录的内容和深度也可能完全不同或自定义; 请知道内幕的大侠提示或再做补充
回复
qq120848369 2013-05-04
能服务自己产品就足以了,通用的标准恐怕就是日志格式了吧, key=val key=val key=val\n
回复
相关推荐
发帖
系统维护与使用区
创建于2007-08-27

1.9w+

社区成员

系统使用、管理、维护问题。可以是Ubuntu, Fedora, Unix等等
申请成为版主
帖子事件
创建了帖子
2013-05-04 12:27
社区公告
暂无公告