网页爬虫如何能够保存下网页里面内容的格式

wsygzyr 2015-11-17 10:27:42
求教,在写一个抓取内容的爬虫,用的jsoap取网页的内容,有一个问题,jsoap取出来的text数据,是不带任何格式信息的,例如一个排版好的网页, 里面的正文部分用了很多的CSS标签或者<br>这些来进行格式排版,如何能做到取到的内容带有排版信息?

不要求带颜色这些,只要能做到像在网页里面拷贝,在notepad里面粘贴能够保存段落格式那样就行了。
...全文
555 2 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
蜗牛彪 2015-11-18
  • 打赏
  • 举报
回复
把网页引入的css文件也下载下来,正文部分不应该有太多css样式吧
slwsss 2015-11-17
  • 打赏
  • 举报
回复
爬虫没那么强大

61,128

社区成员

发帖
与我相关
我的任务
社区描述
层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
社区管理员
  • HTML(CSS)社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧