请问python正则表达式怎么抽取html中以汉字为界的字符

黄哥Python培训 2012-01-16 01:47:13
tel_re = re.compile(r"((\d{3,4})-(\d{7,8}))|((\d{3,4})-(\d{7,8})-(\d{1,4}))")
这个正则表达式可以抽取网页中的电话号码
发现抽取网页信息时,正则表达式只能匹配英文字符,怎么才能匹配网页中的汉字。
比喻以下网页,如何用正则抽取“地址:”后的信息。单个网页好说,就用正册匹配英文字符可以。但是要访问很多网页,每个网页的结构不一样。怎么才能写出可以抽取以“地址:”这样的汉字开始到公司地址信息结尾的信息。谢谢大家!


<div class="r2">
<div class="bar1"><img src="images/04.jpg" width="649" height="141"/></div>
<div class="txt1"><p><span style="color:#96b43d">如果您有任何问题或建议,或对我们的产品感兴趣,请直接联系我们。</span> <br/>
公司全称:*******科技有限公司<br/>

公司地址:朝阳区工人体育场东路20号百富大厦A座<br/>
邮政编码:100020<br/>

电话:010 - ********<br/>
传真:010 - *******<br/>
...全文
273 2 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
cowboyxp 2012-02-20
  • 打赏
  • 举报
回复
干嘛不适用minidom来解析啊
iambic 2012-01-16
  • 打赏
  • 举报
回复
和英文一样吧。
如果这个地方是address: xxx,你怎么写?

37,743

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • WuKongSecurity@BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧