求教如何抓取网页数据并存入数据库?

kerryking_tt 2010-08-04 07:55:28
我现在用ASP.NET+C# 实现一个实例,数据库中存放有URL的ID和地址,还有Text用来存放抓取URL之后过滤一些不必要字符后的字符串。请问具体怎么实现?尽量提供代码,太谢谢了!
...全文
289 14 打赏 收藏 转发到动态 举报
写回复
用AI写文章
14 条回复
切换为时间正序
请发表友善的回复…
发表回复
liwenguang_2009 2010-08-05
  • 打赏
  • 举报
回复
看楼主这么辛苦,帮你顶下。
kerryking_tt 2010-08-05
  • 打赏
  • 举报
回复
谢谢楼上的各位,小弟 现在找到了,但是还有一些问题,其一: 正则获取部分黑体的不正确,大家帮我改下吧;其二:这个程序网页url必须要自己输,如何从数据库读入url地址 并将过滤后的结果输入到数据库中,小弟再次感谢,自己实在是菜鸟,大家能帮帮我吗?感谢
static void Main(string[] args)
{
byte[] buffer = getBytes("http://video.shishicai.cn/haoma/cqssc/list/120.aspx", null, null);
string html = Encoding.UTF8.GetString(buffer);
MatchCollection mc = Regex.Matches(html, @"{"(?(([a-z]|[A-Z])+(\d))"}");


Console.WriteLine(mc);

Console.WriteLine("Close!");
Console.ReadKey();
}
JiuchunYoung 2010-08-05
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 wuyq11 的回复:]
httpwebrequest,webclient抓取页面数据
正则根据规则获取
System.Net.WebClient wc = new System.Net.WebClient();
Byte[] pageData = wc.DownloadData("");
string s= System.Text.Encoding.Default.GetString(pageData);
……
[/Quote]

顶一下
其实 网络爬虫 啊 什么 小偷 程序 都OK的啊 你可以试试看的
dopsop110 2010-08-05
  • 打赏
  • 举报
回复
搜索网络爬虫
很多这样的开源代码
熙风 2010-08-05
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 wuyq11 的回复:]
httpwebrequest,webclient抓取页面数据
正则根据规则获取
System.Net.WebClient wc = new System.Net.WebClient();
Byte[] pageData = wc.DownloadData("");
string s= System.Text.Encoding.Default.GetString(pageData);
……
[/Quote]

UP↑↑↑↑↑
wanghuaide 2010-08-05
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 wuyq11 的回复:]

httpwebrequest,webclient抓取页面数据
正则根据规则获取
System.Net.WebClient wc = new System.Net.WebClient();
Byte[] pageData = wc.DownloadData("");
string s= System.Text.Encoding.Default.GetString(pageData);
……
[/Quote]up
bananatao23 2010-08-05
  • 打赏
  • 举报
回复
帮顶,顺便学习一下
xuhautian 2010-08-05
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 wuyq11 的回复:]
httpwebrequest,webclient抓取页面数据
正则根据规则获取
System.Net.WebClient wc = new System.Net.WebClient();
Byte[] pageData = wc.DownloadData("");
string s= System.Text.Encoding.Default.GetString(pageData);
……
[/Quote]

顶这个。
wuyq11 2010-08-05
  • 打赏
  • 举报
回复
httpwebrequest,webclient抓取页面数据
正则根据规则获取
System.Net.WebClient wc = new System.Net.WebClient();
Byte[] pageData = wc.DownloadData("");
string s= System.Text.Encoding.Default.GetString(pageData);
wangyue4 2010-08-05
  • 打赏
  • 举报
回复
获得源码然后用正则提取你想要的内容,是这样么
whb147 2010-08-05
  • 打赏
  • 举报
回复
上百度,搜小偷程序就可以了
以前只是做过偷图片的
内容的没有处理过,比较费劲
sunlinsong756 2010-08-05
  • 打赏
  • 举报
回复
建议研究一下,web-harvest一个java开源项目。在oschina.net上就能找到。
来自故乡的风 2010-08-05
  • 打赏
  • 举报
回复
你是不是想找“小偷程序”?

http://www.enet.com.cn/article/2004/0825/A20040825337381.shtml

http://blog.hnce.net/post/188.html

http://dev.firnow.com/course/4_webprogram/asp.net/asp_netshl/2008324/106230.html

http://www.chinaitweb.com/html/xueshengzhuanqu/net/2009/0529/137.html

http://www.mycodes.net/104/2064.htm
fly_Apple10 2010-08-05
  • 打赏
  • 举报
回复

110,555

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧