请教一个信息采集系统问题

bjdyjd 2009-05-04 11:58:20
这两天做了一个信息采集系统,很简单就抓新浪的3个栏目,测试的时候抓了800条记录吧,查看数据库发现每个栏目都有2-3条空记录,有的是有标题,但主要内容为空,有的是连标题都为空,这中情况属于正常吗?如果不正常是不是还是正则表达式出了问题?
...全文
56 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
wxm3630478 2009-05-08
  • 打赏
  • 举报
回复
这个东西不了解 我知道有一个采集软件,很强 "火车头"
bjdyjd 2009-05-08
  • 打赏
  • 举报
回复
大家帮忙看看吧
bjdyjd 2009-05-05
  • 打赏
  • 举报
回复
//抓取正文正则表达式
string RegexContent = "<div class=\"moduleParagraph\">[\\s\\S]*<div style=\"float:right;font-size:14px\">";
新闻网址:http://auto.sina.com.cn/news/2009-05-05/1014488719.shtml
原文的内容太多,我就不贴了,大家帮忙看看谢谢。
yzy8788 2009-05-04
  • 打赏
  • 举报
回复
肯定是正则表达式出问题了,怎么会有空的情况咧?
楼主不防把你的正则贴出来,还有采集哪个栏目页贴出来看看
bjdyjd 2009-05-04
  • 打赏
  • 举报
回复
没人知道吗?

111,126

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Creator Browser
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧