新浪微博页面源代码 解析

cn00568347 2013-09-03 08:47:46
如题,我想解析新浪微博页面源代码,即html文件。但是源代码里面关于微博内容部分不是用html写的,比如类似<script>FM.view({"pid":"pl_content_hometip","js":[],"css":[],"html":""})</script>。
但是我想用htmlparser来解析html内容。
所以是否有现成的方法来解决这个问题?谢谢
...全文
1993 6 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
Towan 2013-10-31
  • 打赏
  • 举报
回复
htmlparser包都更新了,我用的Jsoup包,请问楼主解析到了吗,采取什么方式啊?
cn00568347 2013-09-04
  • 打赏
  • 举报
回复
对,我要爬数据。。。。。但具体要怎么解析?
萧萧可乐 2013-09-04
  • 打赏
  • 举报
回复
解析比较好做 直接生成内容 亲 您这是要做爬虫么?
异常异长 2013-09-04
  • 打赏
  • 举报
回复
读取源文件 然后用正则表达式去解析吧。
孟子E章 2013-09-03
  • 打赏
  • 举报
回复
script也是html标签啊,解析应该是可以的。但如果是通过js来生成的页面内容,就麻烦了

61,127

社区成员

发帖
与我相关
我的任务
社区描述
层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
社区管理员
  • HTML(CSS)社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧