python抓取WEB页面

songrongu111 2009-07-30 08:25:27

retval=urlretrieve(url)[0] 不知道是什么意思能不能解释下

from urllib import urlretrieve

def firstNonBlank(lines):
for eachline in lines:
if not eachline.strip():
continue
else:
return eachline

def firstlast(webpage):
f=open(webpage)
lines=f.readlines()
f.close()
print firstNonBlank(lines),
lines.reverse()
print firstNonBlank(lines),

def download(url='http://www.xiaonei.com',
process=firstlast):

try:
retval=urlretrieve(url)[0]
except IOError:
retval=None
if retval:
process(retval)

if __name__=='__main__':
download()

...全文

217 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

songrongu111 2009-08-04

打赏
举报

回复

结贴了

BLwei 2009-08-04

打赏
举报

回复

retval=urlretrieve(url)[0]=(filename, headers)[0]=filename

guangboo 2009-08-04

打赏
举报

回复

学习了。
=====
http://www.klipdas.com

lioujian47 2009-08-03

打赏
举报

回复

这里看看
http://bbs.chinaunix.net/archiver/?tid-1029403.html

zouhailin 2009-08-03

打赏
举报

回复

这么强大
好好学学

evan007 2009-08-02

打赏
举报

回复

学习了，顶个

DarkChampion 2009-07-30

打赏
举报

回复

文档对urlretrieve返回的解释：
Copy a network object denoted by a URL to a local file, if necessary. If the URL points to a local file, or a valid cached copy of the object exists, the object is not copied.
Return a tuple (filename, headers) where filename is the local file name under which the object can be found, and headers is whatever the info() method of the object returned by urlopen() returned

就是说返回一个元组，第一个是缓存的本地文件名

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

宝慕林4294392我们没有得到正确的结果，因为任何javascript生成的内容都需要在DOM上呈现。当我们获取一个HTML页面时，我们获取初始的、未经javascript修改的DOM。因此，我们需要在抓取页面之前呈现javascript内容。由于在这个线程中已经多次提到Selenium(有时还提到了它的速度)，我将列出另外两个可能的解决方案。解决方案1：这是一个非常好的教程如何使用Scrapy...

手把手带你从零开始将PythonWeb应用部署到阿里云

1. Web抓取常用模块 webbrower：打开浏览器获取指定页面。 requests：从网上下载文件和网页。 Beautiful Soup：解析HTML，即网页编写的格式。 Selenium：启动并控制浏览器，可以模拟鼠标在这个网页上点击。 2. 通过request模块下载Web文件调用 requests.get()下载该文件。用’wb’调用 open()，以写二进制的方式打开一个新文件。利用 Respose 对象的 iter_content()方法做循环。在每次迭代中调用 wr

— Python网页抓取教程:循序渐进 — 抓取网页入门其实挺简单的。在之前的文章中我们介绍了怎么用C#和JAVA两种方法来抓取网页，这一期给大家介绍一种更容易，也是使用最广泛的一种抓取方法，那就是Python。说起Python，大家应该并不陌生，它是目前入门最简单的一种方法了，因为它是一种面向对象的语言。Python的类和对象比任何其他语言都更容易使用。此外，Python存在许多库，因而在Python中构建用于网页抓取的工具轻而易举。在这篇Python网络抓取教程中，我们将分步骤讲解如何利..

37,721

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章