如何使用爬虫技术（Jsoup）提取页面准确数据？

qq_37399847 2017-01-23 02:10:53

如上图；
想要获取：
项目名称太康县马厂镇2014年通村公路建设工程项目
招标单位太康县马厂镇人民政府
中标候选人名称信阳市金江工程有限公司 1 河南恒亘路桥工程有限公司 2 商丘市恒信路桥工程有限公司
项目经理/项目总监/ 项目负责人郑东东许留哲叶修林

获取之后保存到数据库

请大神帮忙给个方法

...全文

540 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

showhunter74 2017-02-04

打赏
举报

回复

你打印结果的时候，可以不用text()，用html()。这样获取的就是带Html标签的字符串。然后用jsoup.parse(string)，就能把页面转成document元素了。然后你想怎么整都可以了。各种根据id获取，class获取，tab获取都行。

weare微儿 2017-02-04

打赏
举报

回复

http://www.weare.net.cn/article/469f3b4da4de2df55ded7f0d1264160e.html 或许对你有帮助

可爱的小莱 2017-01-29

打赏
举报

回复

使用python，python擅长爬虫工作。

12312312312wwqeqw 2017-01-25

打赏
举报

回复

」这是个好问题，自从 Python 火了起来，编写爬虫程序的门口越来越低，爬取别人网站数据也越来越猖獗。阻止爬虫也就是我们这次要说的「反爬虫」，「反爬虫」涉及到的技术比较综合，说简单也简单，说复杂也复杂，看...

大家好，今天给大家介绍基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现，文章末尾附有本毕业设计的论文和源码下载地址哦。文章目录：项目难度：中等难度适用场景：相关题目的毕业设计配套...

1.业务需求：从指定外网抓点货，冷启动2.站点分析：.限制IP… .需要登录…… .....抓取频率过低，直接跳验证码页面…………......验证码长度、模样(纯数字&字母数字混合)TM不固定……………….....3.使用技术：1

在这个示例中，我们首先使用 Jsoup 的 `connect()` 方法发送 HTTP 请求并获取 HTML 页面内容，然后使用 CSS 选择器来选择标题元素，并使用 `text()` 方法获取标题文本内容。需要注意的是，爬虫需要遵守网站的robots....

采集、分析和融合非隐私公开数据有利于行业发展、数据要素流通和技术进步。根据 Opimas Research 报告，全球网页挖掘和融合的市场规模大约每年 100 亿美金，其中外部采购支出大约每年20亿美金，并且以每年超过70% 的...

81,092

社区成员

341,716

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章