高分征新闻或内容采集系统或思路，要求能替换字符，智能分析分页，提取链接，图片，Flash等资源

月光小提琴 2009-05-20 05:31:00

需求：

对目标网站进行信息自动抓取，支持HTML页面内容各种数据的采集，如文本信息，URL，数字，日期，图片等。。。

用户对每类信息自定义来源与分类。

可以下载图片与各类文件，如PDF,Flash等。

支持智能替换功能，可以将内容中嵌入的所有无关的部分如广告去除。

支持多页面文章内容自动抽取与合并。

支持下一页自动浏览功能。

数据直接进入数据库而不是文件中，因此与利用这些数据的网站程序或桌面程序之间没有任何耦合。

支持多个栏目的信息采集可用同一配置一对多处理。

保证信息的完整性与准确性，绝对不会出现乱码。

支持各种主流数据库，如MsSQL,Access,MySQL,Oracle,DB2...

支持数据库表结构完全自定义，充分利用现有系统，方便与现有的一些系统进行集成.

有一个类似的软件，火车采集器,

迅雷下载:thunder://QUFodHRwOi8vNS5qeGR4MS5jcnNreS5jb20vMjAwOTA0L0xvY295U3BpZGVyMjAwOXNwMi12MDQyOS56aXBaWg==

今天看了一天的这个采集器，到现在也没有完全会使用，毕竟功能太多了，但也发现了一些Dug

如果按需求说的去做，也许有点不切实际，很智能化是不可能的！只有用户输入的信息越精确，搜索才越快，得到的数据才能越精确！

像火车采集系统，所有入库的字段都要用户手动去匹配，比如：标题，从<div class="title">开始，到</div>结束，内容，作者，出处，时间，自定义字段...

...全文

107 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

artwl_cn 2009-05-25

打赏
举报

回复

关注！

gongsun 2009-05-25

打赏
举报

回复

...

zhulong1111 2009-05-25

打赏
举报

回复

呵呵顶撒

月光小提琴 2009-05-21

打赏
举报

回复

谢谢大家，我一直蹲在博客园，都差不多忘记！

实现，觉得自己还是可以，也许会走很多弯路，这个是最不想发生的事情！

大家还有没有具体一点的思路啊！

BossFriday 2009-05-21

打赏
举报

回复

这个就是用正则分析html.
曾经抓过小说,Flash小游戏.
1.文字信息部分,按照自己的要求去存.
2.图片,Flash部分处理文件名/存放路径和Download到本地.
功能和要求就是这两点.没有什么难的地方.就是要耐心去分析html.

Qlike 2009-05-20

打赏
举报

回复

刚做了个.说的大部分的功能都实现了。

mengxj85 2009-05-20

打赏
举报

回复

需求还真有些多，帮顶

本文系统阐述了AI自动化编排技术体系，重点探讨了Dify与n8n平台的协同架构。第一部分解析AI编排范式转型，从命令式编程到声明式工作流；第二部分深入Dify平台实战，涵盖RAG知识库构建、Agent开发等核心技术；第三...

传统的全量字库（如完整GB2312或Unicode BMP平面）往往占用数十甚至上百KB空间，在低端MCU或Flash容量紧张的串口屏设备中难以接受。因此，现代字库生成器普遍提供精细化的字符子集筛选机制，允许开发者根据具体业务...

然而，增大字体意味着：- 单字模数据量增加（16×16=32B → 24×24=72B）- Flash占用急剧上升（1000字 ≈ 72KB）- 渲染时间变长为此，可采取以下优化措施：灰度模拟抗锯齿：使用多级亮度模拟边缘过渡，而非纯黑白...

顺序读写指的是连续地址空间上的大数据块传输行为，通常以MB/s为单位衡量。这类操作常见于大文件拷贝、高清视频播放或备份任务中。...操作系统启动、程序加载、数据库查询等场景高度依赖随机性能。

htmltable {th, td {th {pre {简介：ezdriverinstaller是一款专为WDM驱动程序设计的Windows驱动管理...该工具具备兼容性检查、批量操作和安全驱动源获取等核心功能，显著降低用户操作门槛，提升系统稳定性与硬件性能。

62,262

社区成员

668,983

社区内容

发帖

与我相关

我的任务

javascript云原生企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见，支持健康理性的辩论和互动，反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧

+ 用AI写文章