爬虫 怎么保留网页内容的原有格式

xiyuan_luo 2017-06-21 02:37:07
http://data.eastmoney.com/notices/detail/000002/AN201706090636776323,JUU0JUI4JTg3JUU3JUE3JTkxQQ==.html

在我抓取这个网页的正文的时候,发现最后抓取到的内容的格式和原网页差距很大,显得特别拥挤,也没有换行,原网页的换行,空白神马的抓到的全变成了一个个空格,我原来抓其他网页的时候里面其实都包含换行符的,但这个不知道为什么没有,求助,到底怎么保留原有格式啊,大神,大神救我!!!
...全文
3357 3 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
初相见弋 2019-08-13
  • 打赏
  • 举报
回复
大佬,能截下您的代码么,还是不明白您说的什么意思
xiyuan_luo 2017-06-26
  • 打赏
  • 举报
回复
已经找到原因了,感觉是一个比较坑的地方,在我们用httpclient或者jsoup抓取这个网页的时候数据是都能够抓到的,但是这个网页的div里的正文里的换行不是<br> ,而是\r\n ,导致抓到的正文的格式没有换行,解决方法是用模拟浏览器的方法抓取网页webdriver或者webclient都可以这样抓到的格式就和原网址一样了,另外在从抓取到的HTML中提取正文的时候不要用jsoup解析dom结构,用正则匹配,不然获取道德格式又没了
yaoxiewan6617 2017-06-22
  • 打赏
  • 举报
回复
抓取到网页 先进行页面处理 把 换行符比如<br/>替换成其他符号 输出的时候再替换来回

81,122

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧