社区
C#
帖子详情
提取网页信息的问题
shijies
2014-03-08 05:09:59
若使用正则方法提取网页信息,需要先了解网页的结构,怎样提取任意网页的信息?
...全文
193
12
打赏
收藏
提取网页信息的问题
若使用正则方法提取网页信息,需要先了解网页的结构,怎样提取任意网页的信息?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
12 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
shijies
2014-03-13
打赏
举报
回复
我的理解是在程序中载入HTML文件,利用字符串函数查找相关的html元素,例如table等,看看网页中有几个表,表有几行几列,然后生成正则表达式,应该会有完成这种功能的类库.
shijies
2014-03-10
打赏
举报
回复
应该与网站没有关系,是网页的结构,网页的结构可能指的是网页中有表格或者选择项,按html规范写正则表达式,对ASP和ASPX网页还得另外处理。
以专业开发人员为伍
2014-03-09
打赏
举报
回复
引用 2 楼 shijies 的回复:
请问百度是怎么提取网页信息的?
你要了解html规范,也就是语法规范。比如说同样是<a></a>信息,其写法有成百上千种,而解析出来都是<a></a>。 因此网站解析,首先是基于html语法分析得到的数据结构。 对于那些只知道纠缠什么“正则表达式的”偶尔偷一两个网页的业余做法,不是真正的专业做法。
不曾难过
2014-03-09
打赏
举报
回复
要看网站结构!
shijies
2014-03-08
打赏
举报
回复
根据网页中可能出现的表、或选择项什么的,动态生成相应的正则表达式。
shijies
2014-03-08
打赏
举报
回复
我估计百度是先根据程序判断出待提取网页的结构,再动态生成相应的正则表达式。
newtee
2014-03-08
打赏
举报
回复
只能一个一个写 每个网站网页的结构都是不一样的
wind_cloud2011
2014-03-08
打赏
举报
回复
http://piao8163.blog.163.com/blog/static/96972478200911911522350/
wind_cloud2011
2014-03-08
打赏
举报
回复
http://www.cnblogs.com/litian/articles/2135891.html
shijies
2014-03-08
打赏
举报
回复
请问百度是怎么提取网页信息的?
网络菜鸟00
2014-03-08
打赏
举报
回复
任意不了的,逐个抓包,挨个写。
Web
网页
抓取/页面
信息
提取
软件包MetaSeeker组件metastudio中文版
MetaSeeker是一个Web
网页
抓取/数据抽取/页面
信息
提取
工具包,能够按照用户的指导,从Web页面上筛选出需要的
信息
,并输出含有语义结构的
提取
结果文件(XML文件),众所周知,Web页面显示的
信息
是给人阅读的,对于机器...
网页
爬虫工具能够抓取
网页
信息
的软件
网页
爬虫工具能够抓取
网页
信息
的软件
网页
爬虫工具[PClawer] V1.1 绿色版 PClawer 是一款定制功能较强的
网页
抓取工具,需要用到正则表达式,适合高级用户使用
网络爬虫 之 PhantomJS技术实战
主要内容包括爬虫的基本原理,使用Phantomjs技术抓取拉钩企业招聘
信息
进行系统分析、Phantomjs的详细使用方法,如何使用Phantomjs分析html代码,基于队列的爬虫、数据存储、数据拆分、爬虫限速、
网页
跟踪,脚本注入...
Python
网页
抓取及
信息
提取
※
网页
抓取及
信息
提取
Web
网页
抓取/页面
信息
提取
软件包MetaSeeker组件datascraper中文版
MetaSeeker是一个Web
网页
抓取/数据抽取/页面
信息
提取
工具包,能够按照用户的指导,从Web页面上筛选出需要的
信息
,并输出含有语义结构的
提取
结果文件(XML文件),众所周知,Web页面显示的
信息
是给人阅读的,对于机器...
C#
110,533
社区成员
642,574
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章