37,721
社区成员
发帖
与我相关
我的任务
分享
>>> html = """<h3>联系我们</h3>
<p>联系人:王经理</p>
<p>电话:021-87017800</p>
<div id="nav">
<ul>
<li><a class=“nav-first ” href=" /"> 首 页</a></li>
<li><a href=“/lista.php ”> 吸粮机</a></li>
<li><a href=“/listb.php "> 灌包机</a></li>
<li><a href=“/listc.php ">汽油吸粮机 </a></li>
<li><a href=“ /order/setorder.php "> 我要订购</a></li>
<li><a href=“/about.php ">关于我们 </a></li>
</ul>
</div>"""
>>> import re
>>> pattern = re.compile(r'href=.+?([/a-z\d\.]+).*>?')
>>> pattern.findall(html, re.I)
['/', '/lista.php', '/listb.php', '/listc.php', '/order/setorder.php', '/about.php']
>>>