关于网页信息采集

_lee_chong 2011-12-20 06:49:54
我想做一个采集网络小说的工具、
用WebBrowser.Document实现了、可是我只是要网页信息不想用webbrowser、感觉会影响速度、
想用webclient的downloaddata来实现、
可是获取到的是byte[]、
我想用操作htmlDocument对象的方式操作下载到的数据、但是我找不到string 或byte[]转成htmldocument的方法;
然后我打算xmldocument和xmlreadertext来实现 结果下载到的网页数据不规范、比如属性值没用引号什么的、导致xml读取不了、
想请问下除了正则外还有什么办法能解决这些问题么、
另外我要的只是小说部分的数据、但是却额外的下载了其它诸如广告图片之类的数据、有办法解决吗?
...全文
182 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
_lee_chong 2011-12-21
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 pmars 的回复:]

去网上搜一下HtmlAgilityPack,应该对你又好处!
[/Quote]
呵呵、下了漫漫研究看、
zhouxingyu896 2011-12-21
  • 打赏
  • 举报
回复
楼主可以看看火车头采集软件呢
pmars 2011-12-21
  • 打赏
  • 举报
回复
去网上搜一下HtmlAgilityPack,应该对你又好处!
_lee_chong 2011-12-20
  • 打赏
  • 举报
回复
自己顶个、、、不要逼我、我怕正则、、、、、
_lee_chong 2011-12-20
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 qianjin036a 的回复:]

已有的网络采集软件很多很多,早期的什么星云系统,采集大师,风车什么的,你没必要自己做一个.
把内容从网页源文件中分离出来是最最头疼的事情!只能采用自动加手功的方法,应该没有什么更快捷的方法.
[/Quote]

我就是想自己动手写写、、、
话说至少要不是动手写这个我还真没想到要让程序有通用性、解析数据这么纠结、、、
帮忙提供一些相关操作的处理经验、、、
-晴天 2011-12-20
  • 打赏
  • 举报
回复
已有的网络采集软件很多很多,早期的什么星云系统,采集大师,风车什么的,你没必要自己做一个.
把内容从网页源文件中分离出来是最最头疼的事情!只能采用自动加手功的方法,应该没有什么更快捷的方法.

110,546

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧