请问:哪位能给个建议

leetow2006 2018-05-10 10:05:52
我的网站是用Apache+php+mysql写的,是在windows的d:\wamp\www下的,
而我的python是安装在虚拟机的linux下的,现在我想从头开始遍历
网站中的各个文件(用open函数),可是不能用d:\wamp\www\index.html,
也不能用http://192.168.1.10/index.html作为文件名。
如果用爬虫,因为我的网站中用用到session等,它的session全局变量
是通过前一个文件传递过来的,所以在用爬虫打开会出错。
请问:如果用payhon遍历全部文件(从index.html开始,然后找到其他链接
文件,然后接着再打开该文件,一步步往下),我该怎么做呢?
...全文
731 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
混沌鳄鱼 2018-05-11
  • 打赏
  • 举报
回复
你的需求是什么?难道说只是为了遍历? PHP做的网站也是差别很大的,基本上也是动态为主,从浏览器里去遍历一个运行的网站和从静态文件里面遍历两种完全不同。 因为很多链接和内容都是从数据库里提取出来动态生成的,也就是说大多数情况下很多所谓的网页在没有运行时是不存在的,或者只是个模板。 只有在网站全部是HTML做的静态网页的情况下,两种遍历接近。 动态遍历网站可以用pyhton写个爬虫,比如用scrapy,写个递归遍历很容易。也有一些现成的软件可以做全站网页下载。 静态遍历网站文件目录,可以用python的os.walk(),打开每层目录中的每个文件扫描。
陈年椰子 2018-05-11
  • 打赏
  • 举报
回复
两种解决方式,简单快捷: 1、在 windows 下装python 2、把d:\wamp\www目录下的所有文件复制到 虚拟机里。
leetow2006 2018-05-11
  • 打赏
  • 举报
回复
怎么没人回答
leetow2006 2018-05-11
  • 打赏
  • 举报
回复
我在用爬虫时,当遇到php文件,并且php文件里面有用到session来判断是否为合法用户,而这个session的值是从 上一个文件中传递过来的,结果就出错了。 请问碰到这种情况,爬虫程序要怎么改

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧