对一段html源文件的正则表达式过滤

dong1 2016-04-03 08:45:34
下面这个源文件一共有三部剧集,我想筛选出盲点和恶魔之子,过滤掉荒野大镖客(因为它没有下载链接),我用了下面的正则,但是部分成功了,他过滤出了1、盲点 2、荒野大镖客和恶魔之子(这两部是连在一起的)。怎么回事?
<tr .*?"dr_ico"><a .*?</tr>

<tr class="list " channel="tv" area="美国" day="03-30" format="HR-HDTV">
<td class="d1">美剧</td>
<td class="d2">HR-HDTV</td>
<td><a href="/resource/33728" target="_blank">盲点.Blindspot.S01E15.中英字幕.HDTVrip.1024X576.mp4</a></td>
<td class="dr_ico"><a href="magnet:?xt=urn:btih:025bcc3cd712cfc494e010e4cfd8073c8710d674&tr.1=http://tracker.openbittorrent.com/announce&tr.2=udp://tracker.openbittorrent.com:80/announce&tr.3=udp://tr.cili001.com:6666/announce&tr.4=http://tracker.publicbt.com/announce&tr.5=udp://open.demonii.com:1337&tr.6=udp://tracker.opentrackr.org:1337/announce&tr.7=http://tr.cili001.com:6666/announce" target="_blank" class="c">磁</a><a href="ed2k://|file|%E7%9B%B2%E7%82%B9.Blindspot.S01E15.%E4%B8%AD%E8%8B%B1%E5%AD%97%E5%B9%95.HDTVrip.1024X576.mp4|418331799|439bfd10c81b451de2fc350861057c79|h=sbbnr53cni3b3bxhmyl2hjummqzs43f4|/" target="_blank" class="l">驴</a><a oncontextmenu="ThunderNetwork_SetHref(this)" onclick="return OnDownloadClick_Simple(this,2,4);" href="thunder://QUFlZDJrOi8vfGZpbGV8JUU3JTlCJUIyJUU3JTgyJUI5LkJsaW5kc3BvdC5TMDFFMTUuJUU0JUI4JUFEJUU4JThCJUIxJUU1JUFEJTk3JUU1JUI5JTk1LkhEVFZyaXAuMTAyNFg1NzYubXA0fDQxODMzMTc5OXw0MzliZmQxMGM4MWI0NTFkZTJmYzM1MDg2MTA1N2M3OXxoPXNiYm5yNTNjbmkzYjNieGhteWwyaGp1bW1xenM0M2Y0fC9aWg==" thunderrestitle="盲点.Blindspot.S01E15.中英字幕.HDTVrip.1024X576.mp4" thundertype="" thunderpid="37361" thunderhref="thunder://QUFlZDJrOi8vfGZpbGV8JUU3JTlCJUIyJUU3JTgyJUI5LkJsaW5kc3BvdC5TMDFFMTUuJUU0JUI4JUFEJUU4JThCJUIxJUU1JUFEJTk3JUU1JUI5JTk1LkhEVFZyaXAuMTAyNFg1NzYubXA0fDQxODMzMTc5OXw0MzliZmQxMGM4MWI0NTFkZTJmYzM1MDg2MTA1N2M3OXxoPXNiYm5yNTNjbmkzYjNieGhteWwyaGp1bW1xenM0M2Y0fC9aWg==" class="x">迅</a><a href="http://ZiMuZuUSTV.ctfile.com/fs/8eM147086459" target="_blank" class="p">盘</a><a class="m" xmhref="ed2k://|file|%E7%9B%B2%E7%82%B9.Blindspot.S01E15.%E4%B8%AD%E8%8B%B1%E5%AD%97%E5%B9%95.HDTVrip.1024X576.mp4|418331799|439bfd10c81b451de2fc350861057c79|h=sbbnr53cni3b3bxhmyl2hjummqzs43f4|/" rel="xiaomi" target="_blank"> 小米路由</a><a class="d" target="_blank" rel="yun">云播</a><a class="d" target="_blank" rel="xuan">旋播</a></td>
<td>398.95MB</td>
<td class="d6">08:20</td>
</tr><tr class="list even" channel="movie" area="西班牙" day="03-30" format="HR-HDTV">
<td class="d1">电影</td>
<td class="d2">HR-HDTV</td>
<td><a href="/resource/28894" target="_blank">A.Fistful.of.Dollars.1964.荒野大镖客.双语字幕.HR-HDTV.AC3.1024X576.x264-人人影视制作.mkv</a></td>
<td class="dr_ico"></td>
<td>0</td>
<td class="d6">03:13</td>
</tr><tr class="list " channel="tv" area="美国" day="03-29" format="HR-HDTV">
<td class="d1">美剧</td>
<td class="d2">HR-HDTV</td>
<td><a href="/resource/34295" target="_blank">恶魔之子.Damien.S01E04.中英字幕.HDTVrip.1024x576.mp4</a></td>
<td class="dr_ico"><a href="magnet:?xt=urn:btih:176dc6c80c7de0eb479f05228e84488d1c8ae7f1&tr.1=http://tracker.openbittorrent.com/announce&tr.2=udp://tracker.openbittorrent.com:80/announce&tr.3=udp://tr.cili001.com:6666/announce&tr.4=http://tracker.publicbt.com/announce&tr.5=udp://open.demonii.com:1337&tr.6=udp://tracker.opentrackr.org:1337/announce&tr.7=http://tr.cili001.com:6666/announce" target="_blank" class="c">磁</a><a href="ed2k://|file|%E6%81%B6%E9%AD%94%E4%B9%8B%E5%AD%90.Damien.S01E04.%E4%B8%AD%E8%8B%B1%E5%AD%97%E5%B9%95.HDTVrip.1024x576.mp4|443812922|8569172d225201df2b04ff35b9d50069|h=byicv7ad4r6mv7gmyfjpp5xib4wrgs5i|/" target="_blank" class="l">驴</a><a oncontextmenu="ThunderNetwork_SetHref(this)" onclick="return OnDownloadClick_Simple(this,2,4);" href="thunder://QUFlZDJrOi8vfGZpbGV8JUU2JTgxJUI2JUU5JUFEJTk0JUU0JUI5JThCJUU1JUFEJTkwLkRhbWllbi5TMDFFMDQuJUU0JUI4JUFEJUU4JThCJUIxJUU1JUFEJTk3JUU1JUI5JTk1LkhEVFZyaXAuMTAyNHg1NzYubXA0fDQ0MzgxMjkyMnw4NTY5MTcyZDIyNTIwMWRmMmIwNGZmMzViOWQ1MDA2OXxoPWJ5aWN2N2FkNHI2bXY3Z215ZmpwcDV4aWI0d3JnczVpfC9aWg==" thunderrestitle="恶魔之子.Damien.S01E04.中英字幕.HDTVrip.1024x576.mp4" thundertype="" thunderpid="37361" thunderhref="thunder://QUFlZDJrOi8vfGZpbGV8JUU2JTgxJUI2JUU5JUFEJTk0JUU0JUI5JThCJUU1JUFEJTkwLkRhbWllbi5TMDFFMDQuJUU0JUI4JUFEJUU4JThCJUIxJUU1JUFEJTk3JUU1JUI5JTk1LkhEVFZyaXAuMTAyNHg1NzYubXA0fDQ0MzgxMjkyMnw4NTY5MTcyZDIyNTIwMWRmMmIwNGZmMzViOWQ1MDA2OXxoPWJ5aWN2N2FkNHI2bXY3Z215ZmpwcDV4aWI0d3JnczVpfC9aWg==" class="x">迅</a><a href="http://ZiMuZuUSTV.ctfile.com/fs/WD3147078419" target="_blank" class="p">盘</a><a class="m" xmhref="ed2k://|file|%E6%81%B6%E9%AD%94%E4%B9%8B%E5%AD%90.Damien.S01E04.%E4%B8%AD%E8%8B%B1%E5%AD%97%E5%B9%95.HDTVrip.1024x576.mp4|443812922|8569172d225201df2b04ff35b9d50069|h=byicv7ad4r6mv7gmyfjpp5xib4wrgs5i|/" rel="xiaomi" target="_blank"> 小米路由</a><a class="d" target="_blank" rel="yun">云播</a><a class="d" target="_blank" rel="xuan">旋播</a></td>
<td>423.25MB</td>
<td class="d6">22:56</td>
</tr>
...全文
142 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
dong1 2016-04-07
  • 打赏
  • 举报
回复
引用 3 楼 uiuiy1 的回复:
[quote=引用 2 楼 dong1 的回复:] [quote=引用 1 楼 uiuiy1 的回复:] import re re.findall('<td class="dr_ico">(<a .*?)</td>', a, re.M)
谢谢您的回答,你的正则的确可以筛选出<盲点>和<恶魔之子>的链接 但是假如我需要连同剧集名称(就是这行:<td><a href="/resource/33728" target="_blank">盲点.Blindspot.S01E15.中英字幕.HDTVrip.1024X576.mp4</a></td>)一起筛选出来, 似乎还是会回到我的问题上来, 即<荒野大镖客>和<恶魔之子>被"粘连"在了一起...[/quote] re.findall('<td><a.+>(.+?)</a></td>\s*<td class="dr_ico">(<a .*?)</td>', a, re.M)[/quote] 问题找到了,原来关键在于re.M....谢谢uiuiy1
屎克螂 2016-04-07
  • 打赏
  • 举报
回复
引用 2 楼 dong1 的回复:
[quote=引用 1 楼 uiuiy1 的回复:] import re re.findall('<td class="dr_ico">(<a .*?)</td>', a, re.M)
谢谢您的回答,你的正则的确可以筛选出<盲点>和<恶魔之子>的链接 但是假如我需要连同剧集名称(就是这行:<td><a href="/resource/33728" target="_blank">盲点.Blindspot.S01E15.中英字幕.HDTVrip.1024X576.mp4</a></td>)一起筛选出来, 似乎还是会回到我的问题上来, 即<荒野大镖客>和<恶魔之子>被"粘连"在了一起...[/quote] re.findall('<td><a.+>(.+?)</a></td>\s*<td class="dr_ico">(<a .*?)</td>', a, re.M)
dong1 2016-04-07
  • 打赏
  • 举报
回复
引用 1 楼 uiuiy1 的回复:
import re re.findall('<td class="dr_ico">(<a .*?)</td>', a, re.M)
谢谢您的回答,你的正则的确可以筛选出<盲点>和<恶魔之子>的链接 但是假如我需要连同剧集名称(就是这行:<td><a href="/resource/33728" target="_blank">盲点.Blindspot.S01E15.中英字幕.HDTVrip.1024X576.mp4</a></td>)一起筛选出来, 似乎还是会回到我的问题上来, 即<荒野大镖客>和<恶魔之子>被"粘连"在了一起...
屎克螂 2016-04-06
  • 打赏
  • 举报
回复
import re re.findall('<td class="dr_ico">(<a .*?)</td>', a, re.M)

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧