求当当网排行榜的采集正则表达式

egeg3000 2009-04-03 03:54:39
比如这页http://bang.dangdang.com/book/bestSeller/All/,我要采集图片和文字内容,有哪个大侠知道正则该咋写?
...全文
132 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
coodd 2009-04-04
  • 打赏
  • 举报
回复
什么前缀元素啊,是比如src这些吗,通过Match的group[0]属性就可以过滤,
你应该遍历所有的Match(MatchCollection类型,Regex.Matches方法)。
egeg3000 2009-04-03
  • 打赏
  • 举报
回复
[Quote=引用 5 楼 coodd 的回复:]
图片:src='(.+?_m.jpg)'
文字:link_prd_name.*?>(.*?) <
遍历regex的所有Match,取group[0].value
[/Quote]
而且大侠你的文字部分搜索出来前缀元素过滤都不好过滤啊。。。继续等高手。。。
egeg3000 2009-04-03
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 xitangzi 的回复:]
不知道,帮顶,学习下。。。。
[/Quote]
而且为啥引用了group[0].value后只返回一个图片地址啊,而不是返回所有图片地址?
egeg3000 2009-04-03
  • 打赏
  • 举报
回复
[Quote=引用 5 楼 coodd 的回复:]
图片:src='(.+?_m.jpg)'
文字:link_prd_name.*?>(.*?) <
遍历regex的所有Match,取group[0].value
[/Quote]
图片的貌似没问题,文字的不太对。。。
coodd 2009-04-03
  • 打赏
  • 举报
回复
图片:src='(.+?_m.jpg)'
文字:link_prd_name.*?>(.*?)<
遍历regex的所有Match,取group[0].value
小弟万元户 2009-04-03
  • 打赏
  • 举报
回复
不知道,帮顶,学习下。。。。
orain 2009-04-03
  • 打赏
  • 举报
回复
用正则,晕哦,那么复杂。还不如把它当作一个 XML 文件来处理,它是遵循 xhtml 规范的,当当应该不会注水吧。
egeg3000 2009-04-03
  • 打赏
  • 举报
回复
顶。。。大家帮帮忙啊。。。
麻子Mozart 2009-04-03
  • 打赏
  • 举报
回复
sf

111,126

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Creator Browser
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧