社区
HTML/XML
帖子详情
请问前辈们"保存全部网页"怎么实现?
j1223jesus
2010-11-11 08:26:28
最近在尝试用HtmlView做浏览器,现在做到保存网页这一块,通过getdocumentHTML获取了网页源码,保存html估计直接保存源码就可以了,问题是怎么获取要保存的网页的所有资源(图片,css这些吧),然后再保存目录下生成一个文件夹保存这些资源.
谢谢前辈们帮忙~
...全文
90
2
打赏
收藏
请问前辈们"保存全部网页"怎么实现?
最近在尝试用HtmlView做浏览器,现在做到保存网页这一块,通过getdocumentHTML获取了网页源码,保存html估计直接保存源码就可以了,问题是怎么获取要保存的网页的所有资源(图片,css这些吧),然后再保存目录下生成一个文件夹保存这些资源. 谢谢前辈们帮忙~
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
j1223jesus
2010-11-11
打赏
举报
回复
很有用,谢谢
jacky_qiu
2010-11-11
打赏
举报
回复
给个链接,你看能够有用!
http://www.codeproject.com/KB/shell/iesaveas.aspx
【E4W】HTTP Web 服务器开发框架,mysql 插件内多线程稳定-易语言
国际惯例:感谢各位
前辈
的开源! 代码冗余度比较高,dalao 请无视! 争取不熬夜来写..... 这个版本开始,
实现
了插件线程安全,也就是说 mysql 连接池或者 Hash 在高并发场景下依然稳定; 所以,这个版本开始,E4W 不仅仅只局限于写接口了; 待更新或目标:session 分布式管理 、日志系统、URL事件绑定、Web
网页
控制台,修复负载均衡稳定性; 更新日期:2020-06-02 --> 2020-06-27 更新功能: 修复【fix】: 1、修复非80端口访问失败错误,感谢(学无止境)反馈; 2、m.y.s.q.l.p.o.o.l 在大并发场景中经常崩溃的问题; 新增【add】: 1、新增分布式 Session 管理; 2、增加域名列表
保存
读取; 2、m.y.s.q.l.p.o.o.l 新增 ID2Field_2 取字段; 修改【change】: 1、常量 #RETURN_ 系列命名修改为:#RET_ 系列命名; 2、改进 m.y.s.q.l.p.o.o.l 中的 获取_getFides 方法; 3、修改 loadme.e 中发送shuj的发送方式(与之前的版本不同,不能兼容); 删除【del】: 1、删除 m.y.s.q.l.p.o.o.l 类中的 getFieldList 方法; 2、删除session节点代码; ---------------------------------------------------------------------------------------------------------------------------- 更新日期:2020-05-31 更新功能: 修复【fix】: 1、m.y.s.q.l.p.o.o.l 句柄获取逻辑错误; 新增【add】: 1、哈希表_asm; 2、新增单IP连接数限制; 3、新增 DeHttpBody 类,解析 http 请求; 4、新增socket组件设置发送接收超时; ---------------------------------------------------------------------------------------------------------------------------- 更新文件:e4w_05_24.e 更新日期:2020-05-28 更新功能: 修复【fix】: 1、高并发高跳失连接场景下崩溃问题; 2、m.y.s.q.l.p.o.o.l 连接池 修复 getField 错误; 3、修复文件找不到返回404状态码; 新增【add】: 1、CryptAPI 哈希、对称,非对称加解密算法; 2、mxxool 新增 cha询_query_json () 方法,新增事务操作方法; 3、新增 httpheader 协yi组装头类。 ===========================================================================
Python
实现
抓取HTML
网页
并以PDF文件形式
保存
的方法
本文实例讲述了Python
实现
抓取HTML
网页
并以PDF文件形式
保存
的方法。分享给大家供大家参考,具体如下: 一、前言 今天介绍将HTML
网页
抓取下来,然后以PDF
保存
,废话不多说直接进入教程。 二、准备工作 PyPDF2的安装使用(用来合并PDF): PyPDF2版本:1.25.1 https://pypi.python.org/pypi/PyPDF2/1.25.1 或 https://gi...
Python数据分析:爬虫从
网页
爬取数据需要几步?
对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取
网页
上的数据,爬虫从
网页
爬取数据需要几步?总结下来,Python爬取
网页
数据需要发起请求、获取响应内容、解析数据、
保存
数据共计4步。
使用urllib库轻松
实现
网络数据抓取和爬虫!
导入http.cookiejar和urllib.request模块,声明一个CookieJar()对象,使用urllib.request.HTTPCookieProcessor(),导入对象,使用build_opener()方法,open()打开链接,for()叠加循环。当我学到一定基础,有自己的理解能力的时候,会去阅读一些
前辈
整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。意思是如果请求超出了设置的这个时间,还没有的到响应,就会抛出异常。
python爬取文章
保存
_爬取博主所有文章并
保存
到本地(.txt版)--python3.6
闲话:一位
前辈
告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份。正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想法——用爬虫
保存
自己的所有文章在查了一些资料后,慢慢的有了思路。正文:有了上面的思路后,编程就不是问题了,就像师傅说的,任何语言,语法只是很小的一部分,主要还是编程思想。于是边看语法,边写程序,照葫芦画瓢...
HTML/XML
3,055
社区成员
8,066
社区内容
发帖
与我相关
我的任务
HTML/XML
VC/MFC HTML/XML
复制链接
扫一扫
分享
社区描述
VC/MFC HTML/XML
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章