提取网页信息的问题

shijies 2014-03-08 05:09:59

若使用正则方法提取网页信息，需要先了解网页的结构，怎样提取任意网页的信息？

...全文

193 12 打赏收藏转发到动态举报

写回复

用AI写文章

12 条回复

切换为时间正序

请发表友善的回复…

发表回复

shijies 2014-03-13

打赏
举报

我的理解是在程序中载入HTML文件,利用字符串函数查找相关的html元素,例如table等,看看网页中有几个表,表有几行几列,然后生成正则表达式,应该会有完成这种功能的类库.

shijies 2014-03-10

打赏
举报

应该与网站没有关系，是网页的结构，网页的结构可能指的是网页中有表格或者选择项，按html规范写正则表达式，对ASP和ASPX网页还得另外处理。

以专业开发人员为伍 2014-03-09

打赏
举报

引用 2 楼 shijies 的回复:

请问百度是怎么提取网页信息的？

你要了解html规范，也就是语法规范。比如说同样是<a></a>信息，其写法有成百上千种，而解析出来都是<a></a>。因此网站解析，首先是基于html语法分析得到的数据结构。对于那些只知道纠缠什么“正则表达式的”偶尔偷一两个网页的业余做法，不是真正的专业做法。

不曾难过 2014-03-09

打赏
举报

要看网站结构！

shijies 2014-03-08

打赏
举报

根据网页中可能出现的表、或选择项什么的，动态生成相应的正则表达式。

shijies 2014-03-08

打赏
举报

我估计百度是先根据程序判断出待提取网页的结构，再动态生成相应的正则表达式。

newtee 2014-03-08

打赏
举报

只能一个一个写每个网站网页的结构都是不一样的

wind_cloud2011 2014-03-08

打赏
举报

http://piao8163.blog.163.com/blog/static/96972478200911911522350/

wind_cloud2011 2014-03-08

打赏
举报

http://www.cnblogs.com/litian/articles/2135891.html

shijies 2014-03-08

打赏
举报

请问百度是怎么提取网页信息的？

网络菜鸟00 2014-03-08

打赏
举报

任意不了的，逐个抓包，挨个写。

MetaSeeker是一个Web网页抓取/数据抽取/页面信息提取工具包，能够按照用户的指导，从Web页面上筛选出需要的信息，并输出含有语义结构的提取结果文件（XML文件），众所周知，Web页面显示的信息是给人阅读的，对于机器...

网页爬虫工具能够抓取网页信息的软件网页爬虫工具[PClawer] V1.1 绿色版 PClawer 是一款定制功能较强的网页抓取工具，需要用到正则表达式，适合高级用户使用

主要内容包括爬虫的基本原理，使用Phantomjs技术抓取拉钩企业招聘信息进行系统分析、Phantomjs的详细使用方法，如何使用Phantomjs分析html代码，基于队列的爬虫、数据存储、数据拆分、爬虫限速、网页跟踪，脚本注入...

※网页抓取及信息提取

110,533

社区成员

642,574

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章