网页爬虫，只爬指定区域（或说指定table）中的内容可以做到么？（java）

yuboyq01 2010-04-14 11:44:40

【对网页爬虫不了解，也没看过代码。更没用过。所以请好心朋友回答的时候能说的通俗点。】

我想要的结果是这样的：例如一个网页由很多个div或者table组成。我只需要取其中一个div或者table的信息内容，然后再进行整理。
比如一个新闻网站的首页板块里其中有一部分是这样的：

新闻1 xxxx
新闻2 XXXXX
新闻3 XXXXX
新闻4 ASSS

我只要这个板块里的【新闻标题list】。
定时去抓取下来后，存在自己的数据库中，再进行其它的处理。

请问：现有的常见的爬虫程序具备这样的功能不？或者要实现这样的功能大致的思路是怎样的？

...全文

206 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

yayalanlan 2011-11-23

打赏
举报

回复

[Quote=引用 6 楼 yueweiac110 的回复:]
可以实现
根据标签的id或者nana属性可以取到
[/Quote]

如果没有id和name呢?怎么弄呢？

jisg_57 2010-04-15

打赏
举报

回复

来学习一下

kString 2010-04-15

打赏
举报

回复

爬虫好像都能实现你要的功能。

qq262067995 2010-04-15

打赏
举报

回复

期待中帮LZ 顶！

yueweiac110 2010-04-15

打赏
举报

回复

可以实现
根据标签的id或者nana属性可以取到

z2008g 2010-04-15

打赏
举报

回复

up,.............

woaiyanzic 2010-04-15

打赏
举报

回复

这虫子是干吗的~~学习学习~~关注中

python存储类型的基础学习，为爬取的数据提供了存储渠道

文章很长请耐心阅读什么是爬虫爬虫是做什么的？是帮助我们来快速获取有效信息的。然而做过爬虫的人都知道，解析是个麻烦事。比如一篇新闻吧，链接是这个: https://news.ifeng.com/c/7kQcQG2peWU，页面预览图如下：我们需要从页面中提取出标题、发布人、发布时间、发布内容、图片等内容。一般情况下我们需要怎么办？写规则。那么规则都有什么呢？怼正则，怼 CSS 选择器...

互联网包含大量数据。这些数据既通过结构化 API 提供，也通过网站直接提供。虽然 API 中的数据高度结构化，但在网页中找到的信息通常是非结构化的，需要收集、提取和处理才能有价值。收集数据只是旅程的开始，因为这些数据还必须存储、挖掘，然后以增值形式向他人展示。通过这本书，您将学习从网站收集各种信息所需的核心任务。我们将介绍如何收集数据，如何执行几种常见的数据操作（包括存储在本地和远程数据库中），如何执行常见的基于媒体的任务，如将图像和视频转换为缩略图，如何使用 NTLK 清理非结构化数据，如何检查几种数据挖

旅游数据可视化主要功能模块包括景点数据、热门景点，采取面对对象的开发模式进行软件的开发和硬体的架设，能很好的满足实际使用的需求，完善了对应的软体架设以及程序编码的工作，采取MySQL作为后台数据的系统用户、管理员主要存储单元，采用flask框架、python技术进行业务系统的编码及其开发，实现了本系统的全部功能。

【问题 4752】 JavaScript 动态参数如何逆向工程？【【答案 4752】 arguments对象分析：在非箭头函数中，可通过arguments对象访问所有传入参数。使用或查看参数结构。剩余参数(rest parameters)：对于使用语法的函数，可通过遍历args数组理解参数传递模式。函数调用分析：使用跟踪调用栈，了解参数来源。对于apply/call调用，分析第二个参数数组或对象。类型检查：使用、和验证参数类型，构建参数映射表。调试技术：代码重构：通过识别参数模式，将动态参数重构为命

81,114

社区成员

341,728

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章