关于网络抓取的,希望给点思路

CrazyCode1981 2012-04-19 03:23:56
想做个小程序,实现从网上抓取某些图书的信息,比如图片、价格。

貌似这些只有几个大的网站才有比如当当

但是怎么样才能从当当网下载我需要的图书的页面?

http://product.dangdang.com/product.aspx?product_id=20910562

比如这本书,我怎么才能得到product_id...

如果有别的可行的思路,也可以。
...全文
184 10 打赏 收藏 转发到动态 举报
写回复
用AI写文章
10 条回复
切换为时间正序
请发表友善的回复…
发表回复
CrazyCode1981 2012-04-25
  • 打赏
  • 举报
回复
感谢,学习了。
fisher_85 2012-04-20
  • 打赏
  • 举报
回复
Analysor文件夹下的类,就是对外的分析图书信息的类,其他的都是分析底层结构,你们可以自行进行修改
fisher_85 2012-04-20
  • 打赏
  • 举报
回复
2位,lichaoasd、CrazyCode1981, 我把代码发到你们邮箱了,写的不太好,有什么好的想法一起交流啊
CrazyCode1981 2012-04-20
  • 打赏
  • 举报
回复
谢谢1楼,麻烦发个我参考下
99165238@qq.com
我就是大神 2012-04-19
  • 打赏
  • 举报
回复
先了解http协议啊。用httpwatch观察http请求报文。先得有大概思想。
a2325145 2012-04-19
  • 打赏
  • 举报
回复
正则抓取啊。写个winform模拟浏览器去访问就可以了然后把下载的html进行正则抓起。希望楼主有request的方面的知识。要看懂浏览器的请求头。其他就ok了
lichaoasd 2012-04-19
  • 打赏
  • 举报
回复
感谢2楼,求发哈。。。。1741133939@qq.com
Servant 2012-04-19
  • 打赏
  • 举报
回复
用正则表达式抓取啊
fisher_85 2012-04-19
  • 打赏
  • 举报
回复
我去年做过一个,抓取京东、当当、卓越亚马逊的图书信息的,如果有需要,留一个邮箱,发给你参考一下吧。

主要思路就是模拟请求-》获取html-》解析

但是问题就是,当要抓取的页面结构发生变化的时候,代码也要跟着变动。

这个代码如果现在抓取不到数据的话, 你可以自己debug一下, 很可能是因为对方页面结构变动之后,没有正确匹配的关系。

记得给给我分哦。。。
hebeijg 2012-04-19
  • 打赏
  • 举报
回复
支持下

111,126

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Creator Browser
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧