社区
C#
帖子详情
求当当网排行榜的采集正则表达式
egeg3000
2009-04-03 03:54:39
比如这页http://bang.dangdang.com/book/bestSeller/All/,我要采集图片和文字内容,有哪个大侠知道正则该咋写?
...全文
132
9
打赏
收藏
求当当网排行榜的采集正则表达式
比如这页http://bang.dangdang.com/book/bestSeller/All/,我要采集图片和文字内容,有哪个大侠知道正则该咋写?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
9 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
coodd
2009-04-04
打赏
举报
回复
什么前缀元素啊,是比如src这些吗,通过Match的group[0]属性就可以过滤,
你应该遍历所有的Match(MatchCollection类型,Regex.Matches方法)。
egeg3000
2009-04-03
打赏
举报
回复
[Quote=引用 5 楼 coodd 的回复:]
图片:src='(.+?_m.jpg)'
文字:link_prd_name.*?>(.*?) <
遍历regex的所有Match,取group[0].value
[/Quote]
而且大侠你的文字部分搜索出来前缀元素过滤都不好过滤啊。。。继续等高手。。。
egeg3000
2009-04-03
打赏
举报
回复
[Quote=引用 4 楼 xitangzi 的回复:]
不知道,帮顶,学习下。。。。
[/Quote]
而且为啥引用了group[0].value后只返回一个图片地址啊,而不是返回所有图片地址?
egeg3000
2009-04-03
打赏
举报
回复
[Quote=引用 5 楼 coodd 的回复:]
图片:src='(.+?_m.jpg)'
文字:link_prd_name.*?>(.*?) <
遍历regex的所有Match,取group[0].value
[/Quote]
图片的貌似没问题,文字的不太对。。。
coodd
2009-04-03
打赏
举报
回复
图片:src='(.+?_m.jpg)'
文字:link_prd_name.*?>(.*?)<
遍历regex的所有Match,取group[0].value
小弟万元户
2009-04-03
打赏
举报
回复
不知道,帮顶,学习下。。。。
orain
2009-04-03
打赏
举报
回复
用正则,晕哦,那么复杂。还不如把它当作一个 XML 文件来处理,它是遵循 xhtml 规范的,当当应该不会注水吧。
egeg3000
2009-04-03
打赏
举报
回复
顶。。。大家帮帮忙啊。。。
麻子Mozart
2009-04-03
打赏
举报
回复
sf
易语言
采集
器 源码 可参考
4. **
正则表达式
**:彗星
正则表达式
类2.0.ec库的使用方法,如何编写和应用
正则表达式
来匹配和提取数据。 5. **数据处理与存储**:
采集
到的数据如何进行清洗、过滤,以及存储到本地文件或数据库中。 6. **异常处理*...
易语言
采集
水当当源码-易语言
总之,"易语言
采集
水当当源码"涉及到的关键技术包括易语言的网络编程、彗星
正则表达式
库的使用,以及可能的网页爬虫策略。对于想要学习易语言网络爬虫或者深入理解数据
采集
过程的开发者来说,这是一个很好的学习资源...
网络爬虫,数据
采集
源代码
3. **提取数据**:利用
正则表达式
、DOM解析库(如BeautifulSoup)或XPath/CSS选择器,爬虫从HTML中提取目标数据,如文章内容、图片链接等。 4. **跟踪链接**:爬虫发现页面中的链接,将它们添加到待爬队列,以便...
易语言-易语言
采集
水当当
《易语言
采集
水当当——探索网络数据抓取与易语言应用》 易语言,作为一款面向普通用户的编程语言,以其简洁的语法和强大的功能深受编程爱好者和初学者喜爱。"易语言
采集
水当当"项目是利用易语言及其相关的支持库,...
Python爬虫7案例[源码]
案例包括豆瓣电影Top250、猫眼电影Top100、全国高校名单、中国天气网、
当当网
图书、糗事百科段子和新浪微博信息等数据的抓取。 每个案例都提供了详尽的源代码和实现步骤,使读者能够跟随教程实践并逐步掌握Python...
C#
111,126
社区成员
642,540
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章