高分征新闻或内容采集系统或思路,要求能替换字符,智能分析分页,提取链接,图片,Flash等资源
月光小提琴 2009-05-20 05:31:00 需求:
对目标网站进行信息自动抓取,支持HTML页面内容各种数据的采集,如文本信息,URL,数字,日期,图片等。。。
用户对每类信息自定义来源与分类。
可以下载图片与各类文件,如PDF,Flash等。
支持智能替换功能,可以将内容中嵌入的所有无关的部分如广告去除。
支持多页面文章内容自动抽取与合并。
支持下一页自动浏览功能。
数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或桌面程序之间没有任何耦合。
支持多个栏目的信息采集可用同一配置一对多处理。
保证信息的完整性与准确性,绝对不会出现乱码。
支持各种主流数据库,如MsSQL,Access,MySQL,Oracle,DB2...
支持数据库表结构完全自定义,充分利用现有系统,方便与现有的一些系统进行集成.
有一个类似的软件,火车采集器,
迅雷下载:thunder://QUFodHRwOi8vNS5qeGR4MS5jcnNreS5jb20vMjAwOTA0L0xvY295U3BpZGVyMjAwOXNwMi12MDQyOS56aXBaWg==
今天看了一天的这个采集器,到现在也没有完全会使用,毕竟功能太多了,但也发现了一些Dug
如果按需求说的去做,也许有点不切实际,很智能化是不可能的!只有用户输入的信息越精确,搜索才越快,得到的数据才能越精确!
像火车采集系统,所有入库的字段都要用户手动去匹配,比如:标题,从<div class="title">开始,到</div>结束,内容,作者,出处,时间,自定义字段...