python抓取网页数据错误

JPF1024 2014-07-24 01:23:39
在本地测试就没有任何问题的,只是放到网上就出现问题了.


在抓取网页的时候,在线版本会丢失http://xxx.xxx.xxxx.net这样的一串链接..而本地就不会,

在线抓取回来的数据(不是json)
:



;g_img={url:'这个地方本来是应该有url的/az/asdf.jpg',id:'bgDiv',d:'200',cN:'_SS',crN:'bIm',hash:'014',del:'50'};
sc_bgL();;var g_hot={1:{0:"


本地抓取的数据:

;g_img={url:'http://www.xxxxxxxxxxx.com/az/asdf.jpg',id:'bgDiv',d:'200',cN:'_SS',crN:'bIm',hash:'014',del:'50'};
sc_bgL();;var g_hot={1:{0:"

网上原来的环境是:python 2.4
我自己编译并且把默认的python改成2.7.5[跟本地一样],
但是里面还有其他的关联python包是不是没更新?

下面是在线的配置:



下面是本地的配置:



抓取网页的代码是[在线没有安装Java,而本地都是有Java运行时环境的]:



'''
抓取网页文件内容,保存到内存

@url 欲抓取文件 ,path+filename
'''
def get_file(url):
try:
cj=cookielib.LWPCookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
req=urllib2.Request(url)
operate=opener.open(req)
#这一句是我后面添加的. time.sleep(10)
data=operate.read()
return data
except BaseException, e:
print e
return None


等大神解决,谢谢了

对了在线的系统环境是centos5.9(原来的版本是2.4,后来改成2.7.5),本地的是fedora20和windows7(本地都是(2.7.5版本)能抓取到url,只是在线的抓不到)
...全文
89 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
JPF1024 2014-07-24
  • 打赏
  • 举报
回复
找了很多方法都抓取不了,只好把那个域名的ip写固定的。。。。。。
JPF1024 2014-07-24
  • 打赏
  • 举报
回复
引用 2 楼 xydtf 的回复:
没有域名的那个在线爬虫是不是和目标网站部署在同一台机子上啊?
wget抓取的也丢失了http的那一串字符,别的都没丢失...........
JPF1024 2014-07-24
  • 打赏
  • 举报
回复
引用 2 楼 xydtf 的回复:
没有域名的那个在线爬虫是不是和目标网站部署在同一台机子上啊?
不是在同一个机器上,我改下试试。。。因为只有那一个地方丢url了,别的地方没丢。。所以很奇怪
INeddy 2014-07-24
  • 打赏
  • 举报
回复
没有域名的那个在线爬虫是不是和目标网站部署在同一台机子上啊?
INeddy 2014-07-24
  • 打赏
  • 举报
回复
目标页面是你自己控制的?你在2个环境分别wget下这个页面看看下载的源码是否一致。代码里可能造成差异的应该只有那个cookie有可能,第9行改成这样试试 opener = urllib2.build_opener() 需要cookie才能访问的话,就保持2边的cookie一致
JPF1024 2014-07-24
  • 打赏
  • 举报
回复
引用 6 楼 xydtf 的回复:
是很奇怪,抓下包看看吧,目标网站是不是有bug.....那url连域名都没有应该打不开吧
被导向另外一个域名了,估计是头信息里面没有传递语言导致的。。我基本已经解决了,谢谢你
INeddy 2014-07-24
  • 打赏
  • 举报
回复
是很奇怪,抓下包看看吧,目标网站是不是有bug.....那url连域名都没有应该打不开吧

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧