使用 Python 解除烦人的网页浏览限制

albertlee 2004-09-01 11:08:52
昨天找到一个比较好的人工智能网站, 其中有一些很不错的 prolog 文章,我很感兴趣。文中有很多示例程序,可是网页的右键被禁止了,也不能选择,不能保存,不能察看源代码!!

实在不爽,信息本来就要共享嘛!

只好发扬下 hack 精神,冲破限制。还好,有 python 方便多了。

网页中增加限制,无非是在 html 中设置脚本,既然浏览器可以显示出来,就一定能得到它的文本。

第一步,在 python shell 中执行:

>>> import urllib
>>> urllib.urlretrieve("http://www.chinaai.org/Article_Show.asp?ArticleID=315","c:/tmp.html")

urlretrieve 可以把一个网页保存到本地文件。

第二步,分析这个 tmp.html 文件,发现其中的 标签比较恶心:


把这个标签换成比较干净的:

浏览这个文件, ok 限制解除。

第三步, 自动下载网页,进行“净化”处理, 编写一个python 程序:

import urllib

urls = {'http://www.chinaai.org/Article_Show.asp?ArticleID=315':'prolog2.html'}

new_tag = ""

for url in urls:
filename = urls[url]
urllib.urlretrieve(url,filename)
f = open(filename,'r')
content = f.read()
f.close()
l_pos = content.find(' r_pos = content.find('>', l_pos)
cont1 = content[:l_pos]
cont2 = content[r_pos + 1:]
content = cont1 + new_tag + cont2
f = open('tmp.html','w')
f.write(content)
f.close()


程序中 urls 是一个 字典,里面是 url 和 相应的本地文件名, 使用者可以根据自己的情况添加。



注意,这个程序是专门针对这个网站的, 对于其他的网站,可能使用的方法会有不同,但是按照上面的步骤,相信大家都能搞定。



我们的口号是,“还我自由!”


http://blog.csdn.net/albertlee/archive/2004/09/01/damn_chinaai.aspx
...全文
314 5 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
cpunion 2004-09-01
  • 打赏
  • 举报
回复
支持。不过更简单的办法是使用MyIE,GoSuRF之类的浏览器。

当然我们可以从程序中学习到一些东西
albertlee 2004-09-01
  • 打赏
  • 举报
回复
抱歉, 由于 html 的原因, < body > 这些标签,在上面没有显示出来

大家可以去
http://blog.csdn.net/albertlee/archive/2004/09/01/damn_chinaai.aspx
察看正常的程序。

cpunion 2004-09-01
  • 打赏
  • 举报
回复
HTML加密只能对付不会编程的人。一般艺术设计、文学的网站可以用一些。
albertlee 2004-09-01
  • 打赏
  • 举报
回复
果然 MyIE 可以, 呵呵 刚刚发现。

实际上, www.chinaai.org 上面的文章也是从别人那里转贴来的,还要搞这么恶心的限制,实在是过分。
zhushizu 2004-09-01
  • 打赏
  • 举报
回复
是呀,我也是想了好久。。关注中。。。

37,743

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • WuKongSecurity@BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧