请问：哪位能给个建议

leetow2006 2018-05-10 10:05:52

我的网站是用Apache+php+mysql写的，是在windows的d:\wamp\www下的，
而我的python是安装在虚拟机的linux下的，现在我想从头开始遍历
网站中的各个文件（用open函数），可是不能用d:\wamp\www\index.html，
也不能用http://192.168.1.10/index.html作为文件名。
如果用爬虫，因为我的网站中用用到session等，它的session全局变量
是通过前一个文件传递过来的，所以在用爬虫打开会出错。
请问：如果用payhon遍历全部文件（从index.html开始，然后找到其他链接
文件，然后接着再打开该文件，一步步往下），我该怎么做呢？

...全文

731 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

混沌鳄鱼 2018-05-11

打赏
举报

回复

你的需求是什么？难道说只是为了遍历？ PHP做的网站也是差别很大的，基本上也是动态为主，从浏览器里去遍历一个运行的网站和从静态文件里面遍历两种完全不同。因为很多链接和内容都是从数据库里提取出来动态生成的，也就是说大多数情况下很多所谓的网页在没有运行时是不存在的，或者只是个模板。只有在网站全部是HTML做的静态网页的情况下，两种遍历接近。动态遍历网站可以用pyhton写个爬虫，比如用scrapy，写个递归遍历很容易。也有一些现成的软件可以做全站网页下载。静态遍历网站文件目录，可以用python的os.walk()，打开每层目录中的每个文件扫描。

陈年椰子 2018-05-11

打赏
举报

回复

两种解决方式，简单快捷： 1、在 windows 下装python 2、把d:\wamp\www目录下的所有文件复制到虚拟机里。

leetow2006 2018-05-11

打赏
举报

回复

怎么没人回答

leetow2006 2018-05-11

打赏
举报

回复

我在用爬虫时，当遇到php文件，并且php文件里面有用到session来判断是否为合法用户，而这个session的值是从上一个文件中传递过来的，结果就出错了。请问碰到这种情况，爬虫程序要怎么改

学习计划： 1、建议每天学习3到5个课时，大约半个月完成。 2、亲自动手写代码，跟着课程学习理论，并实践。课程目标：学会QML基础知识，学会Javascript基础知识，可以上手使用QML开发项目课程简介： 1.带领您深入...

关于数据挖掘方面的研究，我原来也走过一些弯路。其实从数据挖掘的起源可以发现，它并不是一门崭新的科学，而是综合了统计分析、机器学习、...因此我建议你的第一步是用大概三个月的时间了解数据挖掘的几个常用技术：

按位逻辑运算：1. 按位与运算：2. 按位或运算：3.按位非运算：4. 按位异或运算：four. 掩膜：five. 图像与数值运算：six. 位平面分解：seven. 图像加密和解密：eight. 数字水印：1. 原理：2.实现方法：图像的加法...

1、【多选题】如果我想了解Excel中VLOOKUP这个函数的具体用法，可以通过以下哪种渠道获取信息进行学习？（） A、在搜索引擎（http://www.sogou.com）中输入“excel vlookup 函数 ”进行搜索，查找这个函数的相关...

网络层向上提供的服务有哪两种？试比较其优缺点。答：网络层向运输层提供面向连接 ”虚电路（ VirtualCircuit ）服务或 “无连接 ”数据报服务前者预约了双方通信所需的一切网络资源。优点是能提供服务质量的承诺...

37,719

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章