高分征新闻或内容采集系统或思路,要求能替换字符,智能分析分页,提取链接,图片,Flash等资源

月光小提琴 2009-05-20 05:31:00
需求:

对目标网站进行信息自动抓取,支持HTML页面内容各种数据的采集,如文本信息,URL,数字,日期,图片等。。。

用户对每类信息自定义来源与分类。

可以下载图片与各类文件,如PDF,Flash等。

支持智能替换功能,可以将内容中嵌入的所有无关的部分如广告去除。

支持多页面文章内容自动抽取与合并。

支持下一页自动浏览功能。

数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或桌面程序之间没有任何耦合。

支持多个栏目的信息采集可用同一配置一对多处理。

保证信息的完整性与准确性,绝对不会出现乱码。

支持各种主流数据库,如MsSQL,Access,MySQL,Oracle,DB2...

支持数据库表结构完全自定义,充分利用现有系统,方便与现有的一些系统进行集成.

有一个类似的软件,火车采集器,

迅雷下载:thunder://QUFodHRwOi8vNS5qeGR4MS5jcnNreS5jb20vMjAwOTA0L0xvY295U3BpZGVyMjAwOXNwMi12MDQyOS56aXBaWg==

今天看了一天的这个采集器,到现在也没有完全会使用,毕竟功能太多了,但也发现了一些Dug

如果按需求说的去做,也许有点不切实际,很智能化是不可能的!只有用户输入的信息越精确,搜索才越快,得到的数据才能越精确!

像火车采集系统,所有入库的字段都要用户手动去匹配,比如:标题,从<div class="title">开始,到</div>结束,内容,作者,出处,时间,自定义字段...

...全文
65 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
artwl_cn 2009-05-25
  • 打赏
  • 举报
回复
关注!
gongsun 2009-05-25
  • 打赏
  • 举报
回复
...
zhulong1111 2009-05-25
  • 打赏
  • 举报
回复
呵呵 顶撒
月光小提琴 2009-05-21
  • 打赏
  • 举报
回复
谢谢大家,我一直蹲在博客园,都差不多忘记!

实现,觉得自己还是可以,也许会走很多弯路,这个是最不想发生的事情!

大家还有没有具体一点的思路啊!
BossFriday 2009-05-21
  • 打赏
  • 举报
回复
这个就是用正则分析html.
曾经抓过小说,Flash小游戏.
1.文字信息部分,按照自己的要求去存.
2.图片,Flash部分处理文件名/存放路径和Download到本地.
功能和要求就是这两点.没有什么难的地方.就是要耐心去分析html.
Qlike 2009-05-20
  • 打赏
  • 举报
回复
刚做了个.说的大部分的功能都实现了。
mengxj85 2009-05-20
  • 打赏
  • 举报
回复
需求还真有些多,帮顶

62,041

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧