关于网页信息采集
我想做一个采集网络小说的工具、
用WebBrowser.Document实现了、可是我只是要网页信息不想用webbrowser、感觉会影响速度、
想用webclient的downloaddata来实现、
可是获取到的是byte[]、
我想用操作htmlDocument对象的方式操作下载到的数据、但是我找不到string 或byte[]转成htmldocument的方法;
然后我打算xmldocument和xmlreadertext来实现 结果下载到的网页数据不规范、比如属性值没用引号什么的、导致xml读取不了、
想请问下除了正则外还有什么办法能解决这些问题么、
另外我要的只是小说部分的数据、但是却额外的下载了其它诸如广告图片之类的数据、有办法解决吗?