有没有更好的解析网页数据的办法

Mr_W1997 2018-01-03 02:34:56
有关网站数据抓取,遇到以下一些问题
有一些用户信息不完整,导致显示的时候字段缺少,如果按照统一的方法进行抓取,可能造成串行甚至没有内容
对于这种问题有没有好的解决办法
对于html这种极为灵活的语言,有没有更好的解析方式
...全文
393 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
小程序猿之路 2018-01-05
  • 打赏
  • 举报
回复
如果写抓取的话,对于结构相对固定的网站,可以使用xpath等工具, 针对个性化很强的网站,可以根据关键词对页面内容进行分析,比对
ZHOU西口 2018-01-04
  • 打赏
  • 举报
回复
1、准确的说,没有一个可以准确解析网页的工具或开源库。 2、网页的结构决定需要怎么做。 3、网页的数量决定选用什么技术手段。 ------------------------------------------------------------------------------------- 1、对于结构良好的网页,我想你应该能处理,流行的css selector、xpath、jsoup等足够完成任务; 2、对于结构不良好的网页,这里更多需要正则、文本检索的方式处理。

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧