CkSpider抓取的页面不包含 exe,jpg,pdf等等结尾的页面，求解决

vivre_1 2011-04-21 03:49:28

import chilkat



def spider_main(url):

        spider = chilkat.CkSpider()

        spider.put_ConnectTimeout(2)

        spider.put_ReadTimeout(3)

        spider.Initialize(url)

        #  Add the 1st URL:

        spider.AddUnspidered("http://"+url)

        for i in range(0,1000):

                success = spider.CrawlNext()

                if (success == True):

                        aa=spider.lastUrl()

                        print aa

                        i = i + 1

                else:

                        if (spider.get_NumUnspidered() == 0):

                                print "No more URLs to spider"

                                break

                        else:

                                print spider.lastErrorText()

        print i



if __name__=="__main__":

        spider_main('www.yxlink.com')

        raw_input()

为什么爬不到exe后缀名，jpg后缀名的页面呢？求解释

...全文

217 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

qiri07 2011-04-22

打赏
举报

关注调用C++的相关

vivre_1 2011-04-22

打赏
举报

做了几次试验

<a href="test.asp?id=123d&id2=test.exe">combination+mixed</a>不可以抓取

<a href="test.asp?id=123d&id2=testexe">combination+mixed</a>可以抓取

<a href="test.asp?id2=test.exe&id=123d">combination+mixed</a>可以抓取

问题比较明显，对.exe的文件进行了过滤，如何关闭这个过滤呢？

vivre_1 2011-04-22

打赏
举报

贴一下我要爬的页面的内容吧

<p><a href="test.asp?id=1">number</a><br />

  

    <a href="test.asp?id=a">alpha</a><br />

  

    <a href="test.asp?id=a3">combination</a><br />

  

    <a href="test.asp?id=test.exe">mixed</a><br />

  

    <a href="test.asp?id=1&id2=a">number+alpha</a><br />

  

    <a href="test.asp?id=1&id2=a3">number+combination</a><br />

  

    <a href="test.asp?id2=test.pdf&id=1">number+mixed</a><br />

  

    <a href="test.asp?id=a&id2=a4">alpha+combination</a><br />

  

    <a href="test.asp?id=a&id2=test.exe">alpha+mixed</a><br />

  

    <a href="test.asp?id=123d&id2=test.exe">combination+mixed</a><br />

  

    <a href="test.asp?id=1&id2=a&id3=du2">number+alpha+combination</a><br />

  

    <a href="test.asp?id=1&id2=a&id3=test.exe">number+alpha+mixed</a><br />

  

    <a href="test.asp?id=234&id2=af2de&id3=test.exe">number+combination+mixed</a><br />

  

    <a href="test.asp?id=a&id2=af2de&id3=test.exe">alpha+combination+mixed</a><br />

  

    <a href="test.asp?id=1&id2=sd&id3=ds2&id4=test.exe">number+alpha+combination+mixed</a><br />

</p>

<p> </p>

<p><a href="vnc-E4_5-x86_x64_win32.zip">vnc-E4_5-x86_x64_win32.zip</a></p>

<p> </p>

<p><a href="wireshark-win32-1.2.9.exe">exe</a></p>

爬取到的URL



http://127.0.0.1

http://127.0.0.1/test.asp?id=1

http://127.0.0.1/test.asp?id=a

http://127.0.0.1/test.asp?id=a3

http://127.0.0.1/test.asp?id=1&id2=a

http://127.0.0.1/test.asp?id=1&id2=a3

http://127.0.0.1/test.asp?id2=test.pdf&id=1

http://127.0.0.1/test.asp?id=a&id2=a4

http://127.0.0.1/test.asp?id=1&id2=a&id3=du2

No more URLs to spider

9

求解决方案啊，看文档半天没发现哪里可以设置抓取页面类型的设置，

AddAvoidOutboundLinkPattern
AddAvoidPattern
AddMustMatchPattern
AddUnspidered

这几个函数都不管用啊，在蜘蛛返回的URL中根本找不到我需要的链接，头大头大啊。

vivre_1 2011-04-21