org.jsoup.nodes.Element 中有没有方法在获取文本的同时，保留原格式？

zxok 2019-12-29 03:38:48

org.jsoup.nodes.Element 中有没有方法在获取文本的同时，保留原格式，像“换行符”和“空格符”之类的？

...全文

122 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

本课程是java大数据系列课程的数据采集部分，通过java爬虫技术从互联网进行在线数据采集，存储。对于本课程学习要求具有一定的java编程基础。通过本课的学习，能够掌握爬虫技术原理，数据采集的原则，数据采集的方式，Jsoup页面分析技术，Httpclient工具的使用等爬虫项目实战。

类元素 java.lang.Object org.jsoup.nodes.Node org.jsoup.nodes.Element 所有已实现的接口： Cloneable 直接已知子类： Document，FormElement，PseudoTextElement @NonnullByDefault 公共类元素扩展了Node HTML元素由标记名称，属性和子节点（包括文本节点和其他元素）组成。您可以从Element中提取数据，遍历节点图并处理HTML。构造..

先准备好待处理的标签文本，以下是我的演示样例。 <p>eee</p> <p><img src="xxxxxx" uploadpic="2019120515755358409796689.jpg" title="2019120515755358409796689.jpg" alt="/xxxxxx/201912/20191205/2019120515755...

jsoup是一款Java的HTML解析器，主要用来对HTML解析。在爬虫的时候，当我们用HttpClient之类的框架，获取到网页源码之后，需要从网页源码中取出我们想要的内容，就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。虽然jsoup也支持从某个地址直接去爬取网页源码，但是只支持HTTP，HTTPS协议，支持不够丰富。所以，主要还是用来对HTML进行解析。其中，要被解析的HTML可以是一个HTML的字符串，可以是一个URL，可以是一个文件。 org.jsoup.Jso

org.jsoup.nodes.Document 一个Html文档。 Connection org.jsoup.Jsoup.connect(String url) 根据指定URL拿到HTML网页。下面是两个示例. Creates a new Connection to a URL. Use to fetch and parse a HTML page. Use examples:

81,095

社区成员

341,711

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章