提取网页信息的问题

shijies 2014-03-08 05:09:59
若使用正则方法提取网页信息,需要先了解网页的结构,怎样提取任意网页的信息?
...全文
193 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
shijies 2014-03-13
  • 打赏
  • 举报
回复
我的理解是在程序中载入HTML文件,利用字符串函数查找相关的html元素,例如table等,看看网页中有几个表,表有几行几列,然后生成正则表达式,应该会有完成这种功能的类库.
shijies 2014-03-10
  • 打赏
  • 举报
回复
应该与网站没有关系,是网页的结构,网页的结构可能指的是网页中有表格或者选择项,按html规范写正则表达式,对ASP和ASPX网页还得另外处理。
  • 打赏
  • 举报
回复
引用 2 楼 shijies 的回复:
请问百度是怎么提取网页信息的?
你要了解html规范,也就是语法规范。比如说同样是<a></a>信息,其写法有成百上千种,而解析出来都是<a></a>。 因此网站解析,首先是基于html语法分析得到的数据结构。 对于那些只知道纠缠什么“正则表达式的”偶尔偷一两个网页的业余做法,不是真正的专业做法。
不曾难过 2014-03-09
  • 打赏
  • 举报
回复
要看网站结构!
shijies 2014-03-08
  • 打赏
  • 举报
回复
根据网页中可能出现的表、或选择项什么的,动态生成相应的正则表达式。
shijies 2014-03-08
  • 打赏
  • 举报
回复
我估计百度是先根据程序判断出待提取网页的结构,再动态生成相应的正则表达式。
newtee 2014-03-08
  • 打赏
  • 举报
回复
只能一个一个写 每个网站网页的结构都是不一样的
wind_cloud2011 2014-03-08
  • 打赏
  • 举报
回复
http://piao8163.blog.163.com/blog/static/96972478200911911522350/
wind_cloud2011 2014-03-08
  • 打赏
  • 举报
回复
http://www.cnblogs.com/litian/articles/2135891.html
shijies 2014-03-08
  • 打赏
  • 举报
回复
请问百度是怎么提取网页信息的?
网络菜鸟00 2014-03-08
  • 打赏
  • 举报
回复
任意不了的,逐个抓包,挨个写。

110,533

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧