python的re.findall匹配中文出现问题

diovid 2015-12-23 06:21:18

匹配一个网页里面的一些内容但出现这种问题初学python 麻烦指教一下

还有一个问题然后我匹配出来是一个列表如何去除每个元素的中指定的字符

如['aaaaaex' ,'vvvvvvvvvvvvex','sssssssssssex'] 如何去除每个元素的'ex'。。谢谢

...全文

3063 18 打赏收藏转发到动态举报

写回复

用AI写文章

18 条回复

切换为时间正序

请发表友善的回复…

发表回复

bug吃集 2017-12-12

打赏
举报

fileO = open("/Users/potter/PycharmProjects/searchString/sp/123.txt","r") all_utf = fileO.read().decode("utf-8") # print all_text # print all_utf names = re.findall(ur'@"(\w*[\u4e00-\u9fa5]*)"',all_utf, re.I)

diovid 2015-12-25

打赏
举报

引用 16 楼 pcboyxhy 的回复:

import datetime
import time
import urllib

while True:
    for a in ['飞机', '火车', '汽车', '轮船']:
        url = r'http://ss.gkstk.com/cse/search?q='+a+r'&click=1&s=11259993741189624235' 
        req = urllib.urlopen(url)
        print datetime.datetime.now(), a, len(req.read())
        req.close()

2015-12-25 10:16:22.498518 飞机 38770
2015-12-25 10:16:22.754490 火车 39765
2015-12-25 10:16:23.016036 汽车 39371
2015-12-25 10:16:23.260760 轮船 38874
2015-12-25 10:16:23.498307 飞机 38770
2015-12-25 10:16:23.765754 火车 39765
2015-12-25 10:16:24.050302 汽车 39371
2015-12-25 10:16:24.328333 轮船 38874
2015-12-25 10:16:24.583839 飞机 38770
2015-12-25 10:16:24.882681 火车 39765
2015-12-25 10:16:25.180508 汽车 39371
2015-12-25 10:16:25.496497 轮船 38874
2015-12-25 10:16:25.771734 飞机 38770
2015-12-25 10:16:26.001684 火车 39765
2015-12-25 10:16:26.235687 汽车 39371
2015-12-25 10:16:26.469926 轮船 38874
2015-12-25 10:16:26.754045 飞机 38770
2015-12-25 10:16:27.160544 火车 39765
2015-12-25 10:16:27.399948 汽车 39371
2015-12-25 10:16:27.656756 轮船 38874
2015-12-25 10:16:27.897737 飞机 38770
2015-12-25 10:16:28.163222 火车 39765
2015-12-25 10:16:28.445390 汽车 39371
2015-12-25 10:16:28.676750 轮船 38874
2015-12-25 10:16:28.914525 飞机 38770
2015-12-25 10:16:29.180840 火车 39765
2015-12-25 10:16:29.420131 汽车 39371
2015-12-25 10:16:29.726095 轮船 38874
2015-12-25 10:16:29.967524 飞机 38770
2015-12-25 10:16:30.205105 火车 39765
2015-12-25 10:16:30.507945 汽车 39371
2015-12-25 10:16:30.822356 轮船 38874
2015-12-25 10:16:31.114813 飞机 38770
2015-12-25 10:16:31.423173 火车 39765
2015-12-25 10:16:31.713391 汽车 39371
2015-12-25 10:16:32.008701 轮船 38874
2015-12-25 10:16:32.275053 飞机 38770
2015-12-25 10:16:32.521600 火车 39765
2015-12-25 10:16:32.798019 汽车 39371
2015-12-25 10:16:33.099540 轮船 38874
2015-12-25 10:16:33.362301 飞机 38770
2015-12-25 10:16:33.610782 火车 39765
2015-12-25 10:16:33.904479 汽车 39371
2015-12-25 10:16:34.184339 轮船 38874
2015-12-25 10:16:34.422873 飞机 38770
2015-12-25 10:16:34.714822 火车 39765
2015-12-25 10:16:34.986098 汽车 39371
2015-12-25 10:16:35.228974 轮船 38874
2015-12-25 10:16:35.480587 飞机 38770
2015-12-25 10:16:35.720192 火车 39765
2015-12-25 10:16:36.017358 汽车 39371
2015-12-25 10:16:36.314360 轮船 38874
2015-12-25 10:16:36.553009 飞机 38770
2015-12-25 10:16:36.800480 火车 39765

我用你的代码在我电脑也会中段

>>> 
2015-12-25 10:32:22.407000 飞机 38766
2015-12-25 10:32:22.879000 火车

请问这是电脑哪里出问题了应该不是代码问题了。

pcboyxhy 2015-12-25

打赏
举报

import datetime
import time
import urllib

while True:
    for a in ['飞机', '火车', '汽车', '轮船']:
        url = r'http://ss.gkstk.com/cse/search?q='+a+r'&click=1&s=11259993741189624235' 
        req = urllib.urlopen(url)
        print datetime.datetime.now(), a, len(req.read())
        req.close()

2015-12-25 10:16:22.498518 飞机 38770
2015-12-25 10:16:22.754490 火车 39765
2015-12-25 10:16:23.016036 汽车 39371
2015-12-25 10:16:23.260760 轮船 38874
2015-12-25 10:16:23.498307 飞机 38770
2015-12-25 10:16:23.765754 火车 39765
2015-12-25 10:16:24.050302 汽车 39371
2015-12-25 10:16:24.328333 轮船 38874
2015-12-25 10:16:24.583839 飞机 38770
2015-12-25 10:16:24.882681 火车 39765
2015-12-25 10:16:25.180508 汽车 39371
2015-12-25 10:16:25.496497 轮船 38874
2015-12-25 10:16:25.771734 飞机 38770
2015-12-25 10:16:26.001684 火车 39765
2015-12-25 10:16:26.235687 汽车 39371
2015-12-25 10:16:26.469926 轮船 38874
2015-12-25 10:16:26.754045 飞机 38770
2015-12-25 10:16:27.160544 火车 39765
2015-12-25 10:16:27.399948 汽车 39371
2015-12-25 10:16:27.656756 轮船 38874
2015-12-25 10:16:27.897737 飞机 38770
2015-12-25 10:16:28.163222 火车 39765
2015-12-25 10:16:28.445390 汽车 39371
2015-12-25 10:16:28.676750 轮船 38874
2015-12-25 10:16:28.914525 飞机 38770
2015-12-25 10:16:29.180840 火车 39765
2015-12-25 10:16:29.420131 汽车 39371
2015-12-25 10:16:29.726095 轮船 38874
2015-12-25 10:16:29.967524 飞机 38770
2015-12-25 10:16:30.205105 火车 39765
2015-12-25 10:16:30.507945 汽车 39371
2015-12-25 10:16:30.822356 轮船 38874
2015-12-25 10:16:31.114813 飞机 38770
2015-12-25 10:16:31.423173 火车 39765
2015-12-25 10:16:31.713391 汽车 39371
2015-12-25 10:16:32.008701 轮船 38874
2015-12-25 10:16:32.275053 飞机 38770
2015-12-25 10:16:32.521600 火车 39765
2015-12-25 10:16:32.798019 汽车 39371
2015-12-25 10:16:33.099540 轮船 38874
2015-12-25 10:16:33.362301 飞机 38770
2015-12-25 10:16:33.610782 火车 39765
2015-12-25 10:16:33.904479 汽车 39371
2015-12-25 10:16:34.184339 轮船 38874
2015-12-25 10:16:34.422873 飞机 38770
2015-12-25 10:16:34.714822 火车 39765
2015-12-25 10:16:34.986098 汽车 39371
2015-12-25 10:16:35.228974 轮船 38874
2015-12-25 10:16:35.480587 飞机 38770
2015-12-25 10:16:35.720192 火车 39765
2015-12-25 10:16:36.017358 汽车 39371
2015-12-25 10:16:36.314360 轮船 38874
2015-12-25 10:16:36.553009 飞机 38770
2015-12-25 10:16:36.800480 火车 39765

diovid 2015-12-25

打赏
举报

引用 14 楼 pcboyxhy 的回复:

[quote=引用 13 楼 diovid 的回复:] [quote=引用 12 楼 pcboyxhy 的回复:] [quote=引用 11 楼 diovid 的回复:] [quote=引用 10 楼 pcboyxhy 的回复:]
content = req.read()
req.close()
改成这样呢

还是不可以哦测试了几次都是第二次搜索就出不来了。 urllib改成urllib2 就可以多几次然后后面也一样卡住。。。[/quote] 这跟被抓取的网站的限制策略有关，有的网站甚至会分析用户行为，屏蔽掉抓取[/quote]但是我手动直接访问很多次同样的Url 也不会出现什么异常呀 = [/quote] 把抓取部分的代码抠出贴上来[/quote]

    a=raw_input('   搜索:')
    print '\n'
    url=r'http://ss.gkstk.com/cse/search?q='+a+r'&click=1&s=11259993741189624235' 
    req = urllib2.urlopen(url)

pcboyxhy 2015-12-25

打赏
举报

引用 13 楼 diovid 的回复:

[quote=引用 12 楼 pcboyxhy 的回复:] [quote=引用 11 楼 diovid 的回复:] [quote=引用 10 楼 pcboyxhy 的回复:]
content = req.read()
req.close()
改成这样呢

diovid 2015-12-25

打赏
举报

引用 12 楼 pcboyxhy 的回复:

[quote=引用 11 楼 diovid 的回复:] [quote=引用 10 楼 pcboyxhy 的回复:]
content = req.read()
req.close()
改成这样呢

还是不可以哦测试了几次都是第二次搜索就出不来了。 urllib改成urllib2 就可以多几次然后后面也一样卡住。。。[/quote] 这跟被抓取的网站的限制策略有关，有的网站甚至会分析用户行为，屏蔽掉抓取[/quote]但是我手动直接访问很多次同样的Url 也不会出现什么异常呀 =

pcboyxhy 2015-12-25

打赏
举报

引用 11 楼 diovid 的回复:

[quote=引用 10 楼 pcboyxhy 的回复:]
content = req.read()
req.close()
改成这样呢

还是不可以哦测试了几次都是第二次搜索就出不来了。 urllib改成urllib2 就可以多几次然后后面也一样卡住。。。[/quote] 这跟被抓取的网站的限制策略有关，有的网站甚至会分析用户行为，屏蔽掉抓取

diovid 2015-12-25

打赏
举报

引用 10 楼 pcboyxhy 的回复:

content = req.read()
req.close()
改成这样呢

还是不可以哦测试了几次都是第二次搜索就出不来了。 urllib改成urllib2 就可以多几次然后后面也一样卡住。。。

pcboyxhy 2015-12-24

打赏
举报

引用 5 楼 diovid 的回复:

谢谢你的回复打扰下大神还有个问题为什么软件运行的第一次搜索速度很快而且能匹配出来因为我写了while:True 但是第二次或者后面的时候基本我输入东西后他就不动了后面都不执行了请问是我哪里出问题了。 url没问题然后正则也没问题。
while True:
    a=raw_input('   搜索:')
    print '\n'
    url=r'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
    
    content = urllib.urlopen(url).read()
    
    list = re.findall(r"margin:0px 0;'>\s+(.*?)</div>",content)
    for i in range(len(list)):
        list[i]=list[i].replace(r'</em>',"").replace(r'<em>',"").replace(r'...',"")
        print list[i],'\n'
    print '   ==================================结束==================================\n'

在content = ...的前后输出log，看一下是不是卡在根据url取网页这一步了。还有就是list这样的name不要覆盖掉，变量不要用这种名字

diovid 2015-12-24

打赏
举报

谢谢你的回复打扰下大神还有个问题

为什么软件运行的第一次搜索速度很快而且能匹配出来

因为我写了while:True

但是第二次或者后面的时候基本我输入东西后他就不动了后面都不执行了请问是我哪里出问题了。

url没问题然后正则也没问题。

while True:

    a=raw_input('   搜索:')

    print '\n'

    url=r'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'

    

    content = urllib.urlopen(url).read()

    

    list = re.findall(r"margin:0px 0;'>\s+(.*?)</div>",content)

    for i in range(len(list)):

        list[i]=list[i].replace(r'</em>',"").replace(r'<em>',"").replace(r'...',"")

        print list[i],'\n'

    print '   ==================================结束==================================\n'

pcboyxhy 2015-12-24

打赏
举报

re.search(r"margin:0px 0;'>\s+(.*?)</div>",

解析html最好用lxml或者beautifulsoup，别自己用正则去匹配

diovid 2015-12-24

打赏
举报

想请问下为什么在线正则测试就匹配的出来而python则取不出来

正则为：re.match(r"margin:0px 0;'>\r\n (.*?)</div>",content)

以下为content内容

<div>

                        <div class="c-content">

                                            <div class="c-abstract" style='font-family:Arial,SimSun,sans-serif;font-size:13px;color:#000000;

                margin:0px 0;'>

                6.公安消防队扑救火灾, ( A )<em>向发生火灾的单位</em>、<em>个人收取费用</em>。 A.不得 B.可以 C.按照一定标准 7.使用然气灶具时,( B )。 ...            </div>

diovid 2015-12-24

打赏
举报

想请问下为什么在线正则测试就匹配的出来而python则取不出来

正则为：re.match(r"margin:0px 0;'>\r\n (.*?)</div>",content)

以下为content内容

<div>

                        <div class="c-content">

                                            <div class="c-abstract" style='font-family:Arial,SimSun,sans-serif;font-size:13px;color:#000000;

                margin:0px 0;'>

                6.公安消防队扑救火灾, ( A )<em>向发生火灾的单位</em>、<em>个人收取费用</em>。 A.不得 B.可以 C.按照一定标准 7.使用然气灶具时,( B )。 ...            </div>

pcboyxhy 2015-12-24

打赏
举报

content = req.read()
req.close()

改成这样呢

diovid 2015-12-24

打赏
举报

引用 8 楼 pcboyxhy 的回复:

 
print "AAAA"
req =  urllib.urlopen(url)
print "BBBB"
content = req.read()
print "CCCC"
改成这样，看看是哪一步卡住了

输出BBB就卡住了这是为什么呢我直接在网页访问多次也没不会出现什么异常呀。

pcboyxhy 2015-12-24

打赏
举报

 
print "AAAA"
req =  urllib.urlopen(url)
print "BBBB"
content = req.read()
print "CCCC"

改成这样，看看是哪一步卡住了

diovid 2015-12-24

打赏
举报

引用 6 楼 pcboyxhy 的回复:

[quote=引用 5 楼 diovid 的回复:] 谢谢你的回复打扰下大神还有个问题为什么软件运行的第一次搜索速度很快而且能匹配出来因为我写了while:True 但是第二次或者后面的时候基本我输入东西后他就不动了后面都不执行了请问是我哪里出问题了。 url没问题然后正则也没问题。
while True:
    a=raw_input('   搜索:')
    print '\n'
    url=r'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
    
    content = urllib.urlopen(url).read()
    
    list = re.findall(r"margin:0px 0;'>\s+(.*?)</div>",content)
    for i in range(len(list)):
        list[i]=list[i].replace(r'</em>',"").replace(r'<em>',"").replace(r'...',"")
        print list[i],'\n'
    print '   ==================================结束==================================\n'

在content = ...的前后输出log，看一下是不是卡在根据url取网页这一步了。还有就是list这样的name不要覆盖掉，变量不要用这种名字[/quote]前面那个没学到。。list改了还是那样就两次可以正常输出结果第三次就没反应可以给个联系方式吗？