请教下各位,html标签怎么用正则表达式提取?
1、
<p class="info" style="padding-left: 10px;">
作者:教育部新闻办公室组编<br />
出版日期:2011<br />
主题词:教育工作者:先进工作者-先进事迹-中国<br />
索书号:K825.46<br />
ISBN:7-5041-5725-6<br />
分类:
</p>
2、
<p class="info" style="padding-left: 10px;">
作者:吉林省教育委员会<br />
索书号:G639.20<br />
分类:
</p>
针对上面的,用web采集器碰到问题
问题1:1、2两个作者、出版日期【2的出版日期没有,想要空的怎么办,而不是去取后面3的出版日期(未在上面列出来),“前后截取”不合适,得用正则表达式才行】,不知道该怎么用正则表达式提取?
问题2:之前用“作者:”、“<br />”前后截取,但是“主题词:教育工作者:先进工作者-先进事迹-中国<br />”这里起了干扰了,作者2个关键字多出一处了,不知道怎么解决,不知道正则表达式能否解决?