爬虫怎么保留网页内容的原有格式

xiyuan_luo 2017-06-21 02:37:07

http://data.eastmoney.com/notices/detail/000002/AN201706090636776323,JUU0JUI4JTg3JUU3JUE3JTkxQQ==.html

在我抓取这个网页的正文的时候，发现最后抓取到的内容的格式和原网页差距很大，显得特别拥挤，也没有换行，原网页的换行，空白神马的抓到的全变成了一个个空格，我原来抓其他网页的时候里面其实都包含换行符的，但这个不知道为什么没有，求助，到底怎么保留原有格式啊，大神，大神救我！！！

...全文

3427 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

初相见弋 2019-08-13

打赏
举报

大佬，能截下您的代码么，还是不明白您说的什么意思

xiyuan_luo 2017-06-26

打赏
举报

已经找到原因了，感觉是一个比较坑的地方，在我们用httpclient或者jsoup抓取这个网页的时候数据是都能够抓到的，但是这个网页的div里的正文里的换行不是<br> ,而是\r\n ,导致抓到的正文的格式没有换行，解决方法是用模拟浏览器的方法抓取网页webdriver或者webclient都可以这样抓到的格式就和原网址一样了，另外在从抓取到的HTML中提取正文的时候不要用jsoup解析dom结构，用正则匹配，不然获取道德格式又没了