网页爬虫如何能够保存下网页里面内容的格式

wsygzyr 2015-11-17 10:27:42

求教，在写一个抓取内容的爬虫，用的jsoap取网页的内容，有一个问题，jsoap取出来的text数据，是不带任何格式信息的，例如一个排版好的网页，里面的正文部分用了很多的CSS标签或者<br>这些来进行格式排版，如何能做到取到的内容带有排版信息？

不要求带颜色这些，只要能做到像在网页里面拷贝，在notepad里面粘贴能够保存段落格式那样就行了。

...全文

598 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

蜗牛彪 2015-11-18

打赏
举报

回复

把网页引入的css文件也下载下来，正文部分不应该有太多css样式吧

slwsss 2015-11-17

打赏
举报

回复

爬虫没那么强大

本文介绍如何安装wkhtmltopdf及将其用于将网页转换为PDF文件的过程。包括环境配置、常见问题解决方法，如中文命名PDF时的编码问题等。

本文介绍了一种使用C#实现的网络爬虫方法，包括处理不同编码格式的网页内容及提取网页链接，并将结果保存为XML文件。

本文详细介绍了网络爬虫的基本原理，包括获取网页、提取信息、保存数据和自动化程序的实现。爬虫通过HTTP请求获取HTML源代码，使用正则表达式或BeautifulSoup等库解析和提取数据，然后保存为文本、JSON或其他格式。对于JavaScript渲染的页面，需要额外处理以获取完整内容。爬虫可以抓取网页中的各种类型数据，包括HTML、JSON、二进制文件等。

本文介绍了一个使用Java实现的基本网络爬虫示例。该爬虫通过HttpGet从指定URL获取网页内容，并将其保存到本地文件中。示例展示了如何设置HTTP请求头、读取响应并以UTF-8格式保存文件。

网络爬虫是自动抓取网页信息的程序，通过发起HTTP请求获取Response内容，再进行解析，提取所需数据，如文本、图片、视频等。爬虫流程包括请求、响应、解析和数据保存。GET和POST是主要请求方式，GET用于获取数据，POST用于提交数据。解析内容后，数据可保存为文本、数据库或特定文件格式。

61,120

社区成员

60,701

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章