如何获取Javascript渲染后的HTML源码
现在很多网页都是这样的。
如网易博客的
http://blog.163.com/dbylawyer@126/blog/static/1133650472010843320768/?touping
怎么获取评论的内容啊。
网上找到这样的内容,不知道.net有没有类似的东西啊。
-------------------------------------------------------------------------------------------------------
COM,用Internet Explorer 提供的com组件。
解决方案:
突破了这层关系,下面的就水到渠成了。
在python下,对IE封装的比较完善而且文档齐全的就是PAMIE(http://sourceforge.net/projects/pamie),它的本意是作为自动化测试工具使用的。
需要注意的是,在页面加载完之后需要留出一定时间来让页面的js代码执行渲染完成后再提取html代码。这个时间需要通过试验确定。
需要注意的是:
前面所述的利用PAMIE来获取渲染后的html内容的方法是可行的,但是缺点是效率非常低。对于最常见的ajax动态内容页面来说,最直接的方法还是构造ajax请求,来获取相应内容。这样效率很高,而且返回数据都是结构化的xml或者json数据,比html更容易处理。