nutch怎样过滤spam信息。

kauu 2006-12-14 09:15:22
比如用自带的parseHtml可以提取出html的信息,可是里面的垃圾太多了,怎样去提取出想要的信息呢?

比如新浪一篇新闻,里面除了新闻正文外,还有一起和这个新闻没有联系信息,侧面的信息,顶上链接,底下的链接等,在nutch的一个网页的pareData中把这个链接也包含进去了,对网页查询等有不好的影响,

请问一个用什么方法可以解决一下,或一些
...全文
359 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
kauu 2007-01-15
  • 打赏
  • 举报
回复
谢谢
xxlcg 2007-01-10
  • 打赏
  • 举报
回复
修改parseHtml啊
识别到是你要的网页,才提取你要的信息,否则就丢弃
或者你写个filter,parser会把document的root传过来的,在这个点上提取也可以,但nutch会帮你把垃圾采集起来,呵呵
xiao7cn 2006-12-21
  • 打赏
  • 举报
回复
用基于模板的信息提取技术,因为新浪网的页面结构是一样的,让nutch只在特定的位置提取信息...

kauu 2006-12-18
  • 打赏
  • 举报
回复
这里没有人研究nutch 吗?
内容概要:本文围绕10kV配电网在不同中性点接地方式(中性点不接地、经小电阻接地、经消弧线圈接地)下的多类型短路故障开展Simulink仿真实践研究,系统分析单相短路接地、两相短路接地及两相相间短路等典型故障情形下的电气特性变化规律。通过构建高精度的配电网仿真模型,深入探讨不同接地方式对故障电流幅值、电压分布、暂态过程等关键参数的影响机制,对比各类接地方式在故障抑制、供电连续性和继电保护配合方面的性能差异,进而评估其适用场景与工程应用价值。研究融合电力系统基本理论与现代仿真技术,突出故障分析的动态过程与量化特征,为配电网的接地方式优化选择、故障诊断策略制定及继电保护整定提供坚实的理论支持与实践指导。; 适合人群:电气工程及相关专业的高校学生、从事配电网规划、设计与运维的工程技术人员,以及具备一定电力系统分析基础并致力于提升仿真建模能力的科研人员。; 使用场景及目标:①深入理解不同中性点接地方式对短路故障特性的作用机理;②掌握基于Simulink的配电网故障建模与仿真分析方法;③为实际工程中接地方式的选择、故障响应策略优化及保护装置配置提供决策依据; 阅读建议:此资源以Simulink仿真为核心手段,建议读者结合《电力系统分析》《继电保护原理》等基础知识,边学习边实践,动手搭建模型、调整参数并分析结果,重点关注故障瞬间的暂态响应与稳态特征,从而深化对配电网安全运行机制的理解。

2,759

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧