python正则表达式匹配问题

sqsowen 2014-10-21 08:30:38

用python写了个提取网页的小程序，代码如下：

# encoding:UTF-8

import sys

import re

from urllib2 import Request, urlopen, URLError, HTTPError



def get_packet(url):

	packet = urlopen(url)

	content = packet.read()

	return content

def get_data(packet):

	xiangmu = '~'

	tmp = re.search(r'<a href=.*',packet)

	if tmp is not None:

		xiangmu = tmp.group().strip()

	print xiangmu 

if __name__=='__main__':

	url = 'http://stock.finance.qq.com/corp1/cbsheet.php?zqdm=600787&type=2014'

	packet = get_packet(url)

	if packet =='~':

		sys.exit(0)

	get_data(packet)

运行后只打印了一部分含有“<a href=.*”的文本，有些含有同样字符的文本没有打印，是什么原因呢？

...全文

103 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

sqsowen 2014-10-22

打赏
举报

回复

引用 1 楼 angel_su 的回复:

search只能找出一个匹配，试试findall...

现在另一个问题出来了，打印出来的是\xb8\xba这些字符，显示不了中文啊

sqsowen 2014-10-22

打赏
举报

回复

用search打印出来的，也不止一个的，不过用了findall打印出来了好多。多谢指点

angel_su 2014-10-21

打赏
举报

回复

search只能找出一个匹配，试试findall...

本程序是用python编写，无需安装。运行Crawler.exe就可以看到效果。
如果不修改配置是抓取新浪科技的内容，修改配置可以抓取指定的网站。
配置文件采用ini的格式.
spider_config.ini蜘蛛的配置
1. maxThreads 爬虫的线程数
2. startURL 爬虫开始的URL
3. checkFilter 爬虫只抓取指定的URL（采用正则表达式匹配)
4. urlFilter 爬虫提供给分析器的URL（采用正则表达式匹配)
sucker_config.ini 网页分析器的配置
1. maxThreads 分析器的线程数
2. pattern parser匹配的正则表达式
3. parser 指定对应pattern的分析器
本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser，前提是熟悉python。写好后运行compile编译承pyc就可以了

哈喽O(∩_∩)O 今天来发一下python正则表达式，其实这个也是比较简单的什么是正则表达式(⊙_⊙) 目前越来越多的网站、编辑器、编程语言都已支持一种叫“正则表达式”的字符串查找“公式”，有过编程经验的同学都应该了解正则表达式（Regular Expression 简写regex）是什么东西，它是一种字符串匹配的模式（pattern），更像是一种逻辑公式。简单说，正则表达式是 python中必备的工具，主要是用来查找和匹配字符串的。 正则表达式尤其在python爬虫上用的多。正则表达

Python中正则表达式应用非常广泛，如:数据挖掘、数据分析、网络爬虫、输入有效性验证等。Python也提供了re模块利用正则表达式实现文本的匹配、查找和替换等操作。本章介绍正则表达式，注意本章介绍的正则表达式与其他的语言正则表达式是通用的。

在使用Python的过程中，由于需求原因，我们经常需要在文本或者网页元素中用Python正则表达式匹配中文，但是我们经常所熟知的正则表达式却只能匹配英文，而对于中文编码却望尘莫及，于是我大量Google，几经Baidu，花了两个多个小时测试，终于发现解决的办法。特记录如下字符串的角度来说，中文不如英文整齐、规范，这是不可避免的现实。本文结合网上资料以及个人经验，以 python 语言为例，

正则表达式是对字符串提取的一套规则，我们把这个规则用正则里面的特定语法表达出来，去匹配满足这个规则的字符串。正则表达式具有通用型，不仅python里面可以用，其他的语言也一样适用。python中re模块提供了正则表达式的功能，常用的有四个方法(match、search、findall)都可以用于匹配字符串match匹配字符串match方法尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。例子。

37,720

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章