nutch怎样过滤spam信息。

kauu 2006-12-14 09:15:22
比如用自带的parseHtml可以提取出html的信息,可是里面的垃圾太多了,怎样去提取出想要的信息呢?

比如新浪一篇新闻,里面除了新闻正文外,还有一起和这个新闻没有联系信息,侧面的信息,顶上链接,底下的链接等,在nutch的一个网页的pareData中把这个链接也包含进去了,对网页查询等有不好的影响,

请问一个用什么方法可以解决一下,或一些
...全文
361 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
kauu 2007-01-15
  • 打赏
  • 举报
回复
谢谢
xxlcg 2007-01-10
  • 打赏
  • 举报
回复
修改parseHtml啊
识别到是你要的网页,才提取你要的信息,否则就丢弃
或者你写个filter,parser会把document的root传过来的,在这个点上提取也可以,但nutch会帮你把垃圾采集起来,呵呵
xiao7cn 2006-12-21
  • 打赏
  • 举报
回复
用基于模板的信息提取技术,因为新浪网的页面结构是一样的,让nutch只在特定的位置提取信息...

kauu 2006-12-18
  • 打赏
  • 举报
回复
这里没有人研究nutch 吗?
内容概要:本文系统地介绍了基于Matlab/Simulink平台的直流电机双闭环控制系统仿真研究,聚焦于由电流环和转速环构成的双闭环控制结构,详细阐述了PI控制器的设计原理与参数整定方法。通过Simulink搭建完整的电机控制仿真模型,深入分析系统在启动过程、突加负载等典型工况下的动态响应特性,全面验证了双闭环控制策略在提升系统稳定性、响应快速性及抗干扰能力方面的优越性能,为电机控制系统的理论教学、课程实践与工程应用提供了可靠的仿真依据和技术支撑; 适合人群:自动化、电气工程及其相关专业的本科高年级学生、研究生,以及从事电机控制、电力电子与运动控制领域研究的科研人员和工程技术人员; 使用场景及目标:①应用于高校课程设计、毕业设计及科研项目中的电机控制仿真任务;②掌握双闭环PI控制系统的控制机理与Simulink建模与仿真技能;③提升对电机动态性能评估、控制器设计与参数优化的综合实践能力; 阅读建议:建议读者结合Matlab/Simulink软件动手搭建仿真模型,逐步调试PI控制器参数,观察并分析不同参数对系统性能的影响,从而深入理解控制策略的核心作用机制,并可在掌握基础后进一步拓展至先进控制算法如模糊控制、自适应控制和模型预测控制的研究与实现。

2,759

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧