CkSpider抓取的页面不包含 exe,jpg,pdf等等结尾的页面,求解决

vivre_1 2011-04-21 03:49:28
import chilkat

def spider_main(url):
spider = chilkat.CkSpider()
spider.put_ConnectTimeout(2)
spider.put_ReadTimeout(3)
spider.Initialize(url)
# Add the 1st URL:
spider.AddUnspidered("http://"+url)
for i in range(0,1000):
success = spider.CrawlNext()
if (success == True):
aa=spider.lastUrl()
print aa
i = i + 1
else:
if (spider.get_NumUnspidered() == 0):
print "No more URLs to spider"
break
else:
print spider.lastErrorText()
print i

if __name__=="__main__":
spider_main('www.yxlink.com')
raw_input()




为什么爬不到exe后缀名,jpg后缀名的页面呢?求解释
...全文
150 6 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
qiri07 2011-04-22
  • 打赏
  • 举报
回复
关注调用C++的相关
vivre_1 2011-04-22
  • 打赏
  • 举报
回复
做了几次试验
<a href="test.asp?id=123d&id2=test.exe">combination+mixed</a>不可以抓取
<a href="test.asp?id=123d&id2=testexe">combination+mixed</a>可以抓取
<a href="test.asp?id2=test.exe&id=123d">combination+mixed</a>可以抓取


问题比较明显,对.exe的文件进行了过滤,如何关闭这个过滤呢?
vivre_1 2011-04-22
  • 打赏
  • 举报
回复
贴一下我要爬的页面的 内容吧
<p><a href="test.asp?id=1">number</a><br />

<a href="test.asp?id=a">alpha</a><br />

<a href="test.asp?id=a3">combination</a><br />

<a href="test.asp?id=test.exe">mixed</a><br />

<a href="test.asp?id=1&id2=a">number+alpha</a><br />

<a href="test.asp?id=1&id2=a3">number+combination</a><br />

<a href="test.asp?id2=test.pdf&id=1">number+mixed</a><br />

<a href="test.asp?id=a&id2=a4">alpha+combination</a><br />

<a href="test.asp?id=a&id2=test.exe">alpha+mixed</a><br />

<a href="test.asp?id=123d&id2=test.exe">combination+mixed</a><br />

<a href="test.asp?id=1&id2=a&id3=du2">number+alpha+combination</a><br />

<a href="test.asp?id=1&id2=a&id3=test.exe">number+alpha+mixed</a><br />

<a href="test.asp?id=234&id2=af2de&id3=test.exe">number+combination+mixed</a><br />

<a href="test.asp?id=a&id2=af2de&id3=test.exe">alpha+combination+mixed</a><br />

<a href="test.asp?id=1&id2=sd&id3=ds2&id4=test.exe">number+alpha+combination+mixed</a><br />
</p>
<p> </p>
<p><a href="vnc-E4_5-x86_x64_win32.zip">vnc-E4_5-x86_x64_win32.zip</a></p>
<p> </p>
<p><a href="wireshark-win32-1.2.9.exe">exe</a></p>


爬取到的URL

http://127.0.0.1
http://127.0.0.1/test.asp?id=1
http://127.0.0.1/test.asp?id=a
http://127.0.0.1/test.asp?id=a3
http://127.0.0.1/test.asp?id=1&id2=a
http://127.0.0.1/test.asp?id=1&id2=a3
http://127.0.0.1/test.asp?id2=test.pdf&id=1
http://127.0.0.1/test.asp?id=a&id2=a4
http://127.0.0.1/test.asp?id=1&id2=a&id3=du2
No more URLs to spider
9



求解决方案啊,看文档半天没发现哪里可以设置抓取页面类型的设置,


AddAvoidOutboundLinkPattern
AddAvoidPattern
AddMustMatchPattern
AddUnspidered

这几个函数都不管用啊,在蜘蛛返回的URL中根本找不到我需要的链接,头大头大啊。
vivre_1 2011-04-21
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 iambic 的回复:]

爬图片做什么?图片里又没有可以抓取的文字信息。
[/Quote]
beautifulsoup中 对于格式不规范的或者我a标签写错的 不能解析 会报'herf'错误。试过了。
vivre_1 2011-04-21
  • 打赏
  • 举报
回复
需要一个网站所有的链接。包括jpg,exe,pdf等等等。各种类型的
iambic 2011-04-21
  • 打赏
  • 举报
回复
爬图片做什么?图片里又没有可以抓取的文字信息。

37,743

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • WuKongSecurity@BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧