谁能说说你所用的网页爬虫技术的经验心得

橙_子恒 运营策划总监  2010-10-02 04:53:01
对于网站资源合理化利用: 目前网上资源很丰富,不需要自己在去创建。如:天气预报功能,可以利用气象台给我们的网络信息就可以安放到自己所开发的网站上,很方便。而且也不占自己的数据库,利用外来资源来丰富自己开发的网站信息,很方便又实用,大部分 开发人员用的都是 网页爬虫技术,能否具体的说说您所用的爬虫的经验和体会,还有需要注意的事项!
望广大的 程序开发者们,分享你们的经验和心得,我们向你们学习了,在此谢谢你们的交流!
...全文
97 点赞 收藏 7
写回复
7 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
橙_子恒 2010-10-04
[Quote=引用 3 楼 bao110908 的回复:]

如果是不是山寨网站的话,像气象信息绝对不会去抓取其他人网页上的数据,最好是使用气象部门提供的数据接口。

用网页数据的话,称为“信息小偷”,存在风险,且网页一改版你的功能就用不了了。
[/Quote]
就如网易的房地产信息,网易是不是也提供了一个信息接口呢;对于刚刚起步的网站不可能所有的信息都要去自己派人去收取整理然后放到数据库中读取到自己的网站上,能否有即省力又高效的达到获取有效信息的方法呢?望广大程序员网友积极交流一下!
回复
qq38396025 2010-10-03
这个合法性是有一点问题,不过光就技术来讲,要准确的爬到数据,也是需要一点精心准备的,我是还没有做到一劳永逸的办法,一般都是有针对性的
回复
bastengao 2010-10-03
[Quote=引用 3 楼 bao110908 的回复:]

如果是不是山寨网站的话,像气象信息绝对不会去抓取其他人网页上的数据,最好是使用气象部门提供的数据接口。

用网页数据的话,称为“信息小偷”,存在风险,且网页一改版你的功能就用不了了。
[/Quote]即是
回复
如果是不是山寨网站的话,像气象信息绝对不会去抓取其他人网页上的数据,最好是使用气象部门提供的数据接口。

用网页数据的话,称为“信息小偷”,存在风险,且网页一改版你的功能就用不了了。
回复
wyang1991 2010-10-02
菜鸟不懂,过来参观
回复
Inhibitory 2010-10-02
对不同的网站,使用提供的api,或者分析网页里的post,get请求返回的数据格式,然后按自己的需求解析出有用信息。

见虫就杀: bug fixed。
回复
相关推荐
发帖
Web 开发
创建于2007-09-28

8.0w+

社区成员

Java Web 开发
申请成为版主
帖子事件
创建了帖子
2010-10-02 04:53
社区公告
暂无公告