请问python正则表达式怎么抽取html中以汉字为界的字符

黄哥Python培训 2012-01-16 01:47:13

tel_re = re.compile(r"((\d{3,4})-(\d{7,8}))|((\d{3,4})-(\d{7,8})-(\d{1,4}))")
这个正则表达式可以抽取网页中的电话号码
发现抽取网页信息时，正则表达式只能匹配英文字符，怎么才能匹配网页中的汉字。
比喻以下网页,如何用正则抽取“地址：”后的信息。单个网页好说，就用正册匹配英文字符可以。但是要访问很多网页，每个网页的结构不一样。怎么才能写出可以抽取以“地址：”这样的汉字开始到公司地址信息结尾的信息。谢谢大家！

<div class="r2">
<div class="bar1"><img src="images/04.jpg" width="649" height="141"/></div>
<div class="txt1"><p><span style="color:#96b43d">如果您有任何问题或建议，或对我们的产品感兴趣，请直接联系我们。</span> <br/>
公司全称：*******科技有限公司<br/>

公司地址：朝阳区工人体育场东路20号百富大厦A座<br/>
邮政编码：100020<br/>

电话：010 - ********<br/>
传真：010 - *******<br/>

...全文