C#如何使用循环抓取一个html页面的数据。在线等

nettt 2015-02-06 04:16:36
<ul>
<li class=59Feb5906590759><div>[<a href="http://PRDWEB/article/List_2.html" target="_blank" title="资材价格">资材价格</a>]<A class=592005Feb0607 href="http://PRDWEB/article/200502/461708.html" title="2005年1月6日PADW1厂消耗曲线(不完整)" target="_blank">2005年1月6日PADW1厂消耗曲线(不完整)</A></div><span><font color='red'>2005-01-06</font></span></li>
<li class=16Feb1606160816><div>[<a href="http://PRDWEB/article/List_2.html" target="_blank" title="资材价格">资材价格</a>]<A class=162005Feb0608 href="http://PRDWEB/article/200502/461743.html" title="2005年1月6日PADW1厂消耗曲线" target="_blank">2005年1月6日PADW1厂消耗曲线</A></div><span><font color='red'>2005-01-06</font></span></li>
<li class=16Feb1606160816><div>[<a href="http://PRDWEB/article/List_2.html" target="_blank" title="资材价格">资材价格</a>]<A class=162005Feb0608 href="http://PRDWEB/article/200502/461742.html" title="2005年1月6日PADW2厂消耗曲线" target="_blank">2005年1月6日PADW2厂消耗曲线</A></div><span><font color='red'>2005-01-06</font></span></li>
<li class=15Feb1506150815><div>[<a href="http://PRDWEB/article/List_2.html" target="_blank" title="资材价格">资材价格</a>]<A class=152005Feb0608 href="http://PRDWEB/article/200502/461741.html" title="2005年1月6日PADW6厂消耗曲线" target="_blank">2005年1月6日PADW6厂消耗曲线</A></div><span><font color='red'>2005-01-06</font></span></li>
<li class=15Feb1506150815><div>[<a href="http://PRDWEB/article/List_2.html" target="_blank" title="资材价格">资材价格</a>]<A class=152005Feb0608 href="http://PRDWEB/article/200502/461740.html" title="2005年1月6日PADW8厂消耗曲线" target="_blank">2005年1月6日PADW8厂消耗曲线</A></div><span><font color='red'>2005-01-06</font></span></li>
</ul>

这是好多年前保存下来的一个静态页的网站,希望能把页面上的数据抓取到数据库里
想把href和title和最后的日期抓取出来,希望能循环抓取,因为这个html页实在是太长了。。。。。。
href="http://PRDWEB/article/200502/461708.html"
title="2005年1月6日PADW1厂消耗曲线(不完整)"
2005-01-06
------
我用下面写的程序只能取出一条而且结果不干净
愁死了,请高手指教下吧。最重要的是可以循环抓取并且要干净的数据

private void button1_Click(object sender, EventArgs e)
{

HTMLReader.url = "http://PRDWEB/Mat.html";
HTMLReader.MidKey = "";
HTMLReader.headLength = 0;

HTMLReader.startKey = "<div>[<a href=\"http://PRDWEB/article/List_2.html\" target=\"_blank\" title=\"资材价格\">资材价格</a>]";

HTMLReader.endKey = " title=\"2005年";
string html = HTMLReader.GetHtml();
string mgsy = HTMLReader.GetValue();

///\d{6}\D{3}\d{4}
}

public static string GetValue()
{
try
{
string html;
string HtmlText = strHtml;
if (HtmlText == null) return null;
int start, end;
start = HtmlText.IndexOf(startKey);
end = HtmlText.IndexOf(endKey);
html = HtmlText.Substring(start + startKey.Length, end - start - startKey.Length);
return html;
}
catch
{
return "";
}
}
...全文
290 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
qq_14816805 2016-04-26
  • 打赏
  • 举报
回复
直接截取HTML标签之间的内容就好了
北京大白兔 2015-04-01
  • 打赏
  • 举报
回复
引用 2 楼 nettt 的回复:
正则不会呀,关键怎么实现循环呢
计算 <li 出现的次数,就可以循环了
SPFarmer 2015-02-07
  • 打赏
  • 举报
回复
把这段存在XML文件里,用XmlDocument解析吧。
nettt 2015-02-06
  • 打赏
  • 举报
回复
正则不会呀,关键怎么实现循环呢
本拉灯 2015-02-06
  • 打赏
  • 举报
回复
会玩正则么?用正则就很容易匹配 了
最近一直在研究爬虫和Lucene,虽然开始决定选用Heritrix来执行爬虫操作,但是后来发现用它来做还是存在一定的问题,比如需要程序生成相应的XML文件,对于同一个Job,怎样才能保证重复运行该Job时文件夹始终是同一个(Heritrix为Job创建文件夹的规则是“Job名称-时间戳”)等等,都是需要考虑的问题,最终还是将其搁浅。    后来google了一下,找到了一个简单爬虫的程序代码(http://www.blogjava.net/Jack2007/archive/2008/03/24/188138.html),随即试验了一下,发现确实能得到网页的内容,在这里还是要谢谢代码的提供者——Jack.Wang。    虽然试验成功,但是在随后的大数据量试验时,还是出现了问题。最初试验时,我只是让程序去抓取10个URL链接,当我将URL链接数改为100个时,问题出现了——URL中存在重复,而且非常容易的就变成死循环。举个例子来说,比如我首先爬的是A.html,在A.html中有两个链接:B.html,C.html,等爬完A.html以后,程序会爬B.html,这时如果B.html中的所有链接中有A.html这个页面的链接,那么程序又会去爬A.html这个页面,如此一来就形成了一个循环,永远也不能停止。    跟踪程序发现,原来是在添加要抓取的网页的链接列表中,没有将已经抓取过的URL去除,所以才造成了死循环。现在虽然加上了这个判断,但是从我运行程序的效果来看,也不是很理想,总是感觉有些慢,800个页面要一两分钟才能爬完,这个我觉得有点说不过去。    这个产品,做到现在,我遇到了这么几个情况,有和大家分享的,也有向大家请教,求助的。    1.关于对应关系数据的保存方式    在创建索引的时候,需要将网页的URL和网页的内容传到相应的方法中,当然URL和内容是要对应的,也许是经验太少吧,我采取的是通过构建一个JavaBean的方式来传递的,不知道大家有没有更好的方法       2.关于要创建索引的内容的保存方式    最初的想法是不创建文件,直接将内容保存到变量中,然后创建索引,即先抓取网页的内容,然后将网页的内容和URL保存到自己构建的JavaBean对象中,接着将这个对象放到一个list列表中,等所有网页抓取完毕以后,将这个列表传到创建索引的方法中。这种做法看似不错,可是当URL数量很大时,会导致内存不够用,所以还是创建文件比较稳妥。    3.关于网页编码问题    遇到这个问题也是一个巧合,本来我抓取的是客户的一个网站,后来同事说如果客户看访问日志,这个月的数据会和平常的数据不一样,所以我就抓取公司的网站,结果,问题出现了。原先公司的网站是用GB2312编码做的页面,现在采用的是UTF-8的编码,虽然我已经判断了页面的编码,可是依然不能解决保存的文件中文乱码的问题,不知道大家有什么好办法没有。错误信息为:java.io.UnsupportedEncodingException    附件为爬虫代码 本文出自 “徘徊在c#,java,php之间” 博客,请务必保留此出处http://jerrysun.blog.51cto.com/745955/221879

110,571

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧